标题和作者
标题:CVPR 2026,英伟达特斯拉Waymo一块听中国公司讲物理AI | 作者:贾浩楠。本文主要讲述了小鹏汽车在CVPR 2026“具身智能基座模型部署研讨会”上的亮相,作为唯一受邀的中国企业,小鹏展示了其物理AI基座模型技术,重点阐述了第二代VLA (version 2 / 第二代) 与世界模型的协同进化,以及其在算力优化和量产落地方面的领先成果。
摘要
本文介绍了小鹏汽车在CVPR 2026上展示的物理AI基座模型,该模型由第二代VLA (version 2 / 第二代) 和世界模型共同构成。在技术路线方面,此前特斯拉、英伟达、Waymo等厂商在物理AI和世界模型领域虽有探索,但往往将VLA与世界模型视为两条互斥的路径。小鹏提出将稀疏的人类意图与密集的物理预测相结合,解决了单一路线在复杂环境下可控性与安全性的不足。具体实现上,小鹏通过X-World、X-Foresight、X-Cache等技术构建了具备主动思考、可控生成和长时序推演能力的世界模型体系,并依托自研图灵芯片和超大规模数据集(4万亿Token)进行训练。在效果上,小鹏第二代VLA模型在算力利用率和推理速度上实现了质的飞跃(车端推理速度提升12倍,单GPU训练效率提升1010%),并在量产车型上实现了辅助驾驶里程占比突破50%,证明了规模法则在物理AI领域的有效性。
术语解释:
为了帮助理解,这里需要解释VLA和World Model的概念。VLA (Vision-Language-Action / 视觉-语言-动作模型) 是一种连接感知(看)、理解(懂语言)和行动(开车)的统一模型。World Model (世界模型) 则是模拟物理世界运行规律的模型,它不仅预测下一步动作,还能像预测文本中的下一个词一样,预测未来的画面和状态,从而让AI理解“如果做了这个动作,世界会变成什么样”。
主要主题和概念
主题一:VLA与世界模型的协同进化
- What:小鹏提出了一个统一的物理世界基座模型,其中第二代VLA负责处理“如何行动”(即如何驾驶),而世界模型负责处理“行动之后世界如何变化”(即物理世界的动力学与因果结构)。
- Why:人类的高层语义指令(意图)在时间上是稀疏的,难以覆盖所有物理状态转移;而物理世界的信号(视频帧、运动)是密集的。将两者结合,可以确保系统在复杂环境中既理解人类意图,又深刻理解物理规律,从而提升安全性和可控性。
- How:小鹏通过X-World进行可控多视角生成,X-Foresight进行视觉-动作因果预测,并将两者融入统一的架构中。同时利用X-Cache (Cross-segment Block Cache / 跨段块级缓存) 减少重复计算,加速推理。
主题二:基于摄像头的纯视觉策略与算力优化
- What:小鹏坚持采用摄像头为主的纯视觉方案,并配套自研的图灵芯片进行极致的算力挖掘,以处理海量视觉数据。
- Why:相比激光雷达(4320 lines / 4320线),摄像头频率更高、数据量更大(每秒数十亿级),能提供更丰富的物理世界信息。但摄像头数据量大,需要强大的算力处理。因此,硬件与软件的深度协同至关重要。
- How:小鹏通过自研编译器和芯片,将车端模型推理速度提升了12倍,将GPU硬件利用率从40%拉升至90%,最终实现了单版模型训练Token总量突破4万亿,以及推理时延从800毫秒压缩至80毫秒。
主题三:物理AI的数据飞轮闭环
- What:小鹏构建了一个从数据、模型到量产应用,再反馈数据的闭环飞轮。
- Why:物理AI不仅需要理解物理规律,还需要在虚拟世界中反复练习以应对长尾场景。数据飞轮能不断提供高质量的训练信号,反哺模型迭代。
- How:通过量产车收集真实数据,结合仿真环境进行强化学习,不断优化模型。小鹏在2023年至2026年连续三年在CVPR发表演讲,从XNet到720亿参数模型,再到如今的物理AI基座模型,形成了难以追赶的技术护城河。
术语解释:
- Scaling Law (扩展定律):在AI领域,指随着模型参数量、数据量的增加,模型的性能会持续提升的规律。小鹏的数据证明了这一法则在物理AI中依然适用。
- Corner Case (长尾场景):指自动驾驶中那些罕见但可能发生的极端情况(如复杂的路况、突发的行人行为),是衡量自动驾驶能力的关键指标。
重要引文
论点:小鹏的物理AI基座模型,通过统一VLA与世界模型,以及自研软硬件体系,证明了其技术路线优于传统自动驾驶模型,实现了从L2 (Level 2 / 等级2) 到L4 (Level 4 / 等级4) 的有效升维。
论据:小鹏第二代VLA模型拥有十亿级参数,训练Token总量突破4万亿。在硬件端,自研组合(第二代VLA + 图灵芯片)实现了82.5%的算力利用率和80毫秒的推理时延。在应用端,搭载该系统的车型辅助驾驶里程占比突破50%,且研发团队平均每天能迭代4版模型。
论证:通过将稀疏的人类意图与密集的物理预测结合,小鹏不仅解决了单一模型的局限性,还通过大规模数据和自研芯片的协同,极大地提升了算力效率。这表明,单纯依靠传感器堆砌(如激光雷达)已非最优解,基于统一基座模型和海量数据驱动的方案才是物理AI的未来。
术语解释:
Token (词元):在人工智能中,Token是文本或视觉输入的最小单位。在文本中,它通常是一个字或词;在视觉模型中,它可能是一小块图像区域或特征向量。小鹏提到的“4万亿Token”指的是训练过程中处理过的海量视觉信息单位。
总结
本文最吸引眼球的亮点在于小鹏汽车连续三年(2023、2025、2026)受邀在CVPR发表演讲的持续性和深度,这标志着它已从一家“造车新势力”成功转型为“物理AI公司”。与摘要相比,总结部分更深入地揭示了小鹏如何通过“数据飞轮”闭环,将L2 (Level 2 / 等级2) 的技术逐步进化为具备L4 (Level 4 / 等级4) 潜力的通用物理世界基座模型。小鹏不仅定义了物理AI的技术栈,更展示了其技术如何通过量产车(辅助驾驶里程占比50%)进行验证,并具备向人形机器人、飞行汽车等领域跨域迁移的能力。未来,随着X-mind等关于模型“主动思考”和可解释性研究的推进,小鹏有望在物理AI的话语体系中占据核心地位。