Momenta不选VLA选世界模型，大众首发！曹旭东：传感器重要性最后

标题和作者

本文档标题为《Momenta不选VLA选世界模型，大众首发！曹旭东：传感器重要性最后》，作者为一凡。文档主要介绍了Momenta公司推出的下一代飞轮大模型R7，该模型引入了世界模型技术以提升自动驾驶能力。Momenta的CEO曹旭东在文中阐述了公司为何选择世界模型路线而非VLA路线，并透露上汽大众计划首发搭载R7的ID.ERA 9X车型。文章还深入讨论了从模仿学习到强化学习的范式转变，以及算法、数据和传感器在自动驾驶成功要素中的层级排序。

摘要

本文Momenta公司推出了R7强化学习世界模型，旨在让AI理解物理规律以超越人类驾驶水平。此前行业多采用模仿学习，受限于人类表现上限；VLA路线因语义优先级高于驾驶任务，被Momenta认为“好钢没用在刀刃上”。Momenta通过在强化学习基础上引入世界模型，实现了性能暴涨，上汽大众总经理陶海龙对此表示高度认可，并争取首发搭载R7的ID.ERA 9X车型。
在自动驾驶领域，VLA（Vision-Language-Action，视觉-语言-动作模型）是一种结合了视觉感知、语言理解和动作决策的模型，旨在让AI像人类一样通过观察和语言理解来执行物理任务。而世界模型目前大体分为两类：一类是生成世界模型，通常作为云端训练场；另一类是表征世界模型，代表车端真正驱动车辆的AI算法，负责理解物理世界并进行推理。

主要主题和概念

从模仿学习到强化学习的范式转变

What：模仿学习是通过复制人类老司机的驾驶轨迹来训练模型；强化学习是让AI在开放环境中自主探索、试错，从多个轨迹中筛选出最优解。
Why：模仿学习就像学生跟老师亦步亦趋，很难超越老师，因此无法超越人类驾驶水平；而强化学习能从综合安全、舒适和效率等维度进行优化，有潜力超越人类。
How：Momenta通过R6模型实现了这一转变，它不再单纯模仿，而是能够在开放环境中自主探索，从而大幅提升驾驶表现。

世界模型与VLA的技术路线之争

What：这是自动驾驶大模型架构的两种选择。世界模型侧重于理解物理世界的因果关系和规律；VLA侧重于语义理解，结合了视觉、语言和动作。
Why：VLA源于LLM，其语义优先级高于驾驶任务，导致大量参数用于非驾驶任务，造成资源浪费；而驾驶本质上需要的是对物理世界的认知，而非写代码或解数学题的能力。
How：Momenta选择了世界模型，认为只有它才能掌握物理规律，通过强化学习积累“肌肉记忆”，从而在长尾场景中做出符合物理规律的预判。

自动驾驶成功要素的层级排序

What：决定自动驾驶系统成败的关键因素包括算法架构、数据、研发体系、芯片算力和传感器选型。
Why：传感器只是感知输入，而算法架构和数据是核心大脑。单纯堆砌传感器数量存在边际效应递减的问题。
How：Momenta将算法架构、数据和研发体系能力排在首位，其次是芯片算力，最后才是传感器。曹旭东认为摄像头的覆盖度已远超人类双眼，属于“超配”，因此传感器并非首要依赖。

在自动驾驶领域，R6和R7是Momenta的两代代表性模型。R6是基于强化学习的一段式端到端大模型，R7则是引入了世界模型的下一代模型。

重要引文

论点：世界模型优于VLA，且传感器选型的重要性相对较低。
论据：曹旭东指出，人类司机不需要会写代码或解数学题就能开好车，只需要理解物理世界的规律。VLA训练源于LLM，参数量约100B，其语义优先级高于驾驶，导致“好钢没用在刀刃上”。此外，人的双眼并非360°环视，摄像头的覆盖度已远超人类，属于“超配”。
论证：VLA对自动驾驶是“锦上添花”，很难“雪中送炭”，而世界模型能学习物理规律并通过强化学习掌握“肌肉记忆”。随着数据、算法架构和研发体系能力的提升，单纯增加传感器数量带来的提升有限，边际效应在减弱。

在论述中，边际效应指的是在资源投入（如传感器数量）增加时，每增加一单位投入所带来的收益增量逐渐减少的现象。对于自动驾驶而言，这意味着当算法和数据处理能力达到一定水平后，再单纯增加激光雷达或摄像头数量，对整体性能的提升将变得不再显著。

总结

Momenta的R7模型代表了向“物理AI”的关键转变，利用世界模型超越了人类驾驶的局限性。与VLA不同，R7专注于理解物理世界，使其成为上汽大众ID.ERA 9X的首选技术。这一成功凸显了Momenta的战略，即优先考虑算法和数据而非传感器堆砌。未来，R7在ID.ERA 9X上的部署可能会推动自动驾驶的新标准，展示理解物理规律如何带来更安全、更高效的驾驶。