标题和作者

本文档标题为《Momenta不选VLA选世界模型,大众首发!曹旭东:传感器重要性最后》,作者为一凡。文档主要介绍了Momenta公司推出的下一代飞轮大模型R7,该模型引入了世界模型技术以提升自动驾驶能力。Momenta的CEO曹旭东在文中阐述了公司为何选择世界模型路线而非VLA路线,并透露上汽大众计划首发搭载R7的ID.ERA 9X车型。文章还深入讨论了从模仿学习到强化学习的范式转变,以及算法、数据和传感器在自动驾驶成功要素中的层级排序。

摘要

本文Momenta公司推出了R7强化学习世界模型,旨在让AI理解物理规律以超越人类驾驶水平。此前行业多采用模仿学习,受限于人类表现上限;VLA路线因语义优先级高于驾驶任务,被Momenta认为“好钢没用在刀刃上”。Momenta通过在强化学习基础上引入世界模型,实现了性能暴涨,上汽大众总经理陶海龙对此表示高度认可,并争取首发搭载R7的ID.ERA 9X车型。
在自动驾驶领域,VLA(Vision-Language-Action,视觉-语言-动作模型)是一种结合了视觉感知、语言理解和动作决策的模型,旨在让AI像人类一样通过观察和语言理解来执行物理任务。而世界模型目前大体分为两类:一类是生成世界模型,通常作为云端训练场;另一类是表征世界模型,代表车端真正驱动车辆的AI算法,负责理解物理世界并进行推理。

主要主题和概念

从模仿学习到强化学习的范式转变

  • What:模仿学习是通过复制人类老司机的驾驶轨迹来训练模型;强化学习是让AI在开放环境中自主探索、试错,从多个轨迹中筛选出最优解。
  • Why:模仿学习就像学生跟老师亦步亦趋,很难超越老师,因此无法超越人类驾驶水平;而强化学习能从综合安全、舒适和效率等维度进行优化,有潜力超越人类。
  • How:Momenta通过R6模型实现了这一转变,它不再单纯模仿,而是能够在开放环境中自主探索,从而大幅提升驾驶表现。

世界模型与VLA的技术路线之争

  • What:这是自动驾驶大模型架构的两种选择。世界模型侧重于理解物理世界的因果关系和规律;VLA侧重于语义理解,结合了视觉、语言和动作。
  • Why:VLA源于LLM,其语义优先级高于驾驶任务,导致大量参数用于非驾驶任务,造成资源浪费;而驾驶本质上需要的是对物理世界的认知,而非写代码或解数学题的能力。
  • How:Momenta选择了世界模型,认为只有它才能掌握物理规律,通过强化学习积累“肌肉记忆”,从而在长尾场景中做出符合物理规律的预判。

自动驾驶成功要素的层级排序

  • What:决定自动驾驶系统成败的关键因素包括算法架构、数据、研发体系、芯片算力和传感器选型。
  • Why:传感器只是感知输入,而算法架构和数据是核心大脑。单纯堆砌传感器数量存在边际效应递减的问题。
  • How:Momenta将算法架构、数据和研发体系能力排在首位,其次是芯片算力,最后才是传感器。曹旭东认为摄像头的覆盖度已远超人类双眼,属于“超配”,因此传感器并非首要依赖。

在自动驾驶领域,R6和R7是Momenta的两代代表性模型。R6是基于强化学习的一段式端到端大模型,R7则是引入了世界模型的下一代模型。

重要引文

论点:世界模型优于VLA,且传感器选型的重要性相对较低。
论据:曹旭东指出,人类司机不需要会写代码或解数学题就能开好车,只需要理解物理世界的规律。VLA训练源于LLM,参数量约100B,其语义优先级高于驾驶,导致“好钢没用在刀刃上”。此外,人的双眼并非360°环视,摄像头的覆盖度已远超人类,属于“超配”。
论证:VLA对自动驾驶是“锦上添花”,很难“雪中送炭”,而世界模型能学习物理规律并通过强化学习掌握“肌肉记忆”。随着数据、算法架构和研发体系能力的提升,单纯增加传感器数量带来的提升有限,边际效应在减弱。

在论述中,边际效应指的是在资源投入(如传感器数量)增加时,每增加一单位投入所带来的收益增量逐渐减少的现象。对于自动驾驶而言,这意味着当算法和数据处理能力达到一定水平后,再单纯增加激光雷达或摄像头数量,对整体性能的提升将变得不再显著。

总结

Momenta的R7模型代表了向“物理AI”的关键转变,利用世界模型超越了人类驾驶的局限性。与VLA不同,R7专注于理解物理世界,使其成为上汽大众ID.ERA 9X的首选技术。这一成功凸显了Momenta的战略,即优先考虑算法和数据而非传感器堆砌。未来,R7在ID.ERA 9X上的部署可能会推动自动驾驶的新标准,展示理解物理规律如何带来更安全、更高效的驾驶。