标题和作者
文档标题为《近2亿美元!VAST完成新一轮融资,正式披露世界模型路线》,作者是听雨。该文档主要报道了通用人工智能公司VAST近期完成近2亿美元融资的消息,并详细介绍了其正式对外披露的“Project Eden”世界模型技术路线。文章背景涉及VAST作为AI 3D领域的领军者,致力于打造下一代互动内容的底层基础设施,其核心在于通过解耦底层状态推演与视觉呈现,构建一个支持多人实时交互、可演化、可试错的完整虚拟环境。
摘要
本文报道了通用人工智能公司VAST完成近2亿美元融资,并正式披露其“Project Eden”世界模型路线的进展。此前,行业内的世界模型技术路线主要分为Google DeepMind的Genie(单体视频模型)、World Labs(静态3D场景重建)和Yann LeCun的JEPA(潜空间推演)等方向,但这些方案普遍缺乏持久化状态、物理一致性和高效的多玩家交互能力。VAST认为现有方案未能同时解决定义世界状态和驱动世界演化的核心命题,因此需要另辟蹊径。本文具体介绍了VAST通过“底层状态推演与视觉呈现原生解耦”的方法,构建了包含结构化状态层、条件接口层和生成式渲染层的三层架构,并利用海量互联网视频自标注和引擎合成数据(L1和L2)进行训练。结果显示,Project Eden成功实现了环境持久化、场景自由复用与模块化以及原生多玩家交互三大核心能力,为AI原生沙盒平台和具身智能仿真基座提供了技术支撑。
本节中可能让听众困惑的术语包括“世界模型”和“Project Eden”。“世界模型”通常指旨在理解和预测物理世界运行规律的AI系统,而Project Eden是VAST提出的具体技术代号,源自西方神话中的伊甸园,寓意创造可交互、可生长的虚拟世界。此外,“原生解耦”是指将系统的底层逻辑推演与上层视觉表现分开处理,而非混合在同一个模型中训练,这有助于提高系统的稳定性和扩展性。
主要主题和概念
主题一:Project Eden的架构解耦策略
What:VAST提出将底层状态推演与视觉呈现进行原生解耦,构建三层架构。
Why:若将两者耦合,模型需要同时处理物理变化和视觉效果,负担会指数级增加。解耦后,状态模型专注“发生了什么”,渲染模型专注“看起来怎样”,两者都能做得更专、更准。
How:系统分为结构化状态层(维护全局世界状态)、条件接口层(转化特定视角的约束)和生成式渲染层(补全纹理细节)。这种设计确保了物理一致性从架构层面得到保证。
主题二:双层数据策略
What:采用海量互联网视频自标注和引擎合成数据作为训练来源。
Why:互联网视频体量巨大是合成数据无法比拟的,能提供泛化底座;而游戏引擎能同时运行两种状态,是天然的双态数据来源,能提供精准标注。
How:利用Tripo模型对互联网视频进行反向解构,提取深度和几何轨迹(L1);同时让Agent在引擎环境里7×24小时不间断探索,自动录制带有精准3D状态标注的数据(L2)。
主题三:三大核心能力
What:实现了环境持久化、场景自由复用与模块化、原生多玩家交互。
Why:为了构建真正的多人在线世界,解决传统模型缺乏长程记忆、时间线不可逆、算力随人数爆炸的问题。
How:底层状态独立于相机视角,对象离开视锥后依然运转;同一底层状态支持反复介入与模块化搭建;所有智能体共享底层状态,系统只需根据各自坐标渲染,算力成本线性可控。
本节中可能让听众困惑的术语是“结构化状态层”和“条件接口层”。“结构化状态层”是一个紧凑的隐式表征,记录场景几何、物体属性和事件逻辑,独立于相机视角;“条件接口层”则是连接底层状态与上层渲染的桥梁,负责将底层3D状态转化为特定视角下的语义和几何约束。理解这两个概念有助于明白VAST如何通过架构设计来保证世界的物理一致性和逻辑严密性。
重要引文
论点:一套合格的通用世界模型必须同时解决两大核心命题:第一是定义世界当下的客观状态,第二是驱动世界持续自主演化。
论据:VAST认为现有模型如Genie缺乏独立状态概念,World Labs剥离了时间维度,而Project Eden通过解耦状态与渲染来解决这一问题。
论证:曹炎培以玩家按下灭火器为例说明,在紧凑状态空间推理相对简单,但若耦合在一起,模型既要判断粉末喷出,又要保证画面逼真,负担会指数级增加。解耦后,状态模型负责推理“发生了什么”,渲染模型负责呈现“看起来怎样”,从而实现了环境持久化和多玩家交互。
本节中可能让听众困惑的术语是“State”和“Transition”。“State”指世界的客观状态,即当前场景中所有物体的位置、属性和事件逻辑;“Transition”指状态的演化过程,即世界如何根据物理规律和用户交互发生变化。理解这两个概念是掌握VAST世界模型哲学的关键。
总结
本文最吸引眼球的亮点是通用人工智能公司VAST获得近2亿美元融资,并展示了其“Project Eden”世界模型路线。结合主题概念,VAST的技术路线核心在于创新性地将底层状态推演与视觉呈现解耦,这一设计不仅解决了传统视频模型在多玩家交互时算力指数爆炸的问题,更通过结构化状态层实现了真正的环境持久化和物理一致性。其三大核心能力(持久化、模块化、多玩家交互)为AI原生沙盒平台和具身智能仿真基座打开了广阔空间。未来,VAST需要在更高复杂度场景的物理演化以及状态的自主维护(完全依赖自监督更新)方面继续攻坚,以实现世界真正“活”起来。