标题和作者

本文主要介绍了“智在无界”团队发布的隐式世界模型产品Being-H-Flash,该模型通过潜空间推理技术,将机器人世界模型的部署成本大幅降低至每月150元,并实现了在端侧芯片上的实时运行。文章作者为量子位的henry,发布日期为2026年6月4日。

摘要

本文介绍了由“智在无界”团队发布的隐式世界模型Being-H-Flash,该模型通过潜空间推理技术,实现了在端侧芯片上的实时运行,并将月算力成本降低至150元。此前,以英伟达Cosmos为代表的显式世界模型虽然能预测未来,但成本高昂且依赖云端,难以落地。本文通过构建潜空间来压缩计算开销,结合异步推理技术,解决了端侧实时运行的难题。Being-H-Flash在百TOPS级芯片上实现了接近20FPS的运行速度,比显式模型方案便宜98%,比VLA架构的Pi0.5便宜70%,标志着世界模型从云端走向端侧并具备商业落地能力。

为了帮助读者理解,这里需要解释两个核心概念。首先是“显式”与“隐式”世界模型。显式模型像画电影一样逐帧生成未来的画面来预测物理变化;而隐式模型则不生成画面,而是将当前的观测和任务目标压缩到一个抽象的“潜空间”中进行推演。其次是“端侧部署”,指的是将AI模型直接安装在机器人本体(如Orin NX芯片)上,而不是放在云端服务器,这能极大降低延迟并提高安全性。

主要主题和概念

显式与隐式世界模型路线对比
What:显式世界模型(如英伟达Cosmos)通过逐帧生成未来画面来预测物理变化;隐式世界模型(如Being-H-Flash)则通过在多模态感知与动作生成之间构建潜空间来推演未来状态。
Why:显式模型虽然能直接建模物理变化,但逐帧生成导致算力和延迟成本极高,难以在机器人端侧实时运行;隐式模型通过压缩计算量,保留了预测能力但大幅降低了开销。
How:隐式模型不生成未来画面,而是将当前观测、任务目标压缩到潜空间中进行推演,并使用超过20万小时人类视频和1.5万小时机器人示教数据进行训练,同时配合自研的异步推理技术。

端侧部署的必要性与挑战
What:将世界模型直接运行在机器人本体(如Orin NX芯片)上,而非云端。
Why:机器人对延迟极度敏感,云端推理的网络延迟可能导致误操作(如晚两秒避障导致撞翻货物);此外,工业现场网络条件有限,断网风险大。
How:通过优化模型架构(隐式推理)和系统基础设施(UAC异步推理技术),使模型能在百TOPS级端侧芯片上实现20FPS实时运行,确保动作反馈的即时性。

世界模型的商业化落地成本
What:将世界模型的月算力成本降低至150元人民币。
Why:以往世界模型(如Cosmos-Policy)成本过高,只能部署在云端,导致大多数真实场景难以落地;产业需要兼顾模型能力与部署成本的平衡。
How:通过隐式路线压缩算力需求,并结合国产AI芯片适配,推出从Aura到Procella的产品矩阵,使百元级成本成为现实。

为了帮助读者理解,这里需要解释几个关键术语。VLA代表视觉-语言-动作模型,是目前具身智能的主流架构,能理解指令并生成动作,但往往缺乏对物理后果的预判。百TOPS指芯片每秒万亿次浮点运算能力,是衡量端侧算力的重要指标,文中指代高性能嵌入式芯片。FPS(Frames Per Second)即每秒帧数,数值越高代表运行越流畅,文中指模型处理视频的速度。

重要引文

论点:世界模型必须具备端侧实时运行的能力,并且部署成本必须足够低,才能在工业场景中真正落地。
论据:机器人对延迟极其敏感,例如在流水线上,模型多思考几秒可能导致螺丝拧穿电路板或货物撞翻货物;相比之下,英伟达Cosmos等显式世界模型方案成本过高,只能部署在云端,而Being-H-Flash方案成本仅为Cosmos的2%。
论证:云端推理的网络延迟和断连风险是控制系统的致命弱点,因此必须将模型装入机器人本体。通过将预测未来从像素空间搬到潜空间,Being-H-Flash避免了巨大的计算开销,结合异步推理技术,成功在百TOPS级芯片上实现实时运行,证明了低成本端侧部署的可行性。

为了帮助读者理解,这里需要解释几个关键术语。Universal Async Chunking (UAC) 是一种自研的异步推理技术,旨在加速模型预测转化为动作的过程,减少控制延迟。Orin NX是NVIDIA推出的一款面向机器人的嵌入式计算平台,具有百TOPS级的算力,文中指代高性能端侧硬件。潜空间是一种高维数据的低维表示,它隐藏了数据的本质特征,通过在这个空间中进行操作可以极大地减少计算量。

总结

本文的核心亮点在于“智在无界”团队首次将隐式世界模型成功落地至百TOPS级端侧芯片,实现了接近20FPS的实时运行,彻底打破了世界模型高昂成本和延迟的壁垒。这一突破不仅让机器人具备了像人一样通过观察世界来理解物理因果的能力,更标志着世界模型从实验室Demo迈向了具备商业价值的实用阶段。随着Being-H-Flash产品矩阵的推出,未来在仓储物流的高速包裹处理、工业产线的柔性机械臂控制以及家庭服务场景中的连续操作任务中,这种低成本、高实时的世界模型将成为推动具身智能大规模普及的关键力量,特别是“国产世界模型+国产芯片”的协同效应将开启新的产业生态。