CVPR 2026，英伟达特斯拉Waymo一块听中国公司讲物理AI

标题和作者

标题：CVPR 2026，英伟达特斯拉Waymo一块听中国公司讲物理AI | 作者：贾浩楠。本文主要讲述了小鹏汽车在CVPR 2026“具身智能基座模型部署研讨会”上的亮相，作为唯一受邀的中国企业，小鹏展示了其物理AI基座模型技术，重点阐述了第二代VLA (version 2 / 第二代) 与世界模型的协同进化，以及其在算力优化和量产落地方面的领先成果。

摘要

本文介绍了小鹏汽车在CVPR 2026上展示的物理AI基座模型，该模型由第二代VLA (version 2 / 第二代) 和世界模型共同构成。在技术路线方面，此前特斯拉、英伟达、Waymo等厂商在物理AI和世界模型领域虽有探索，但往往将VLA与世界模型视为两条互斥的路径。小鹏提出将稀疏的人类意图与密集的物理预测相结合，解决了单一路线在复杂环境下可控性与安全性的不足。具体实现上，小鹏通过X-World、X-Foresight、X-Cache等技术构建了具备主动思考、可控生成和长时序推演能力的世界模型体系，并依托自研图灵芯片和超大规模数据集（4万亿Token）进行训练。在效果上，小鹏第二代VLA模型在算力利用率和推理速度上实现了质的飞跃（车端推理速度提升12倍，单GPU训练效率提升1010%），并在量产车型上实现了辅助驾驶里程占比突破50%，证明了规模法则在物理AI领域的有效性。

术语解释：
为了帮助理解，这里需要解释VLA和World Model的概念。VLA (Vision-Language-Action / 视觉-语言-动作模型) 是一种连接感知（看）、理解（懂语言）和行动（开车）的统一模型。World Model (世界模型) 则是模拟物理世界运行规律的模型，它不仅预测下一步动作，还能像预测文本中的下一个词一样，预测未来的画面和状态，从而让AI理解“如果做了这个动作，世界会变成什么样”。

主要主题和概念

主题一：VLA与世界模型的协同进化

What：小鹏提出了一个统一的物理世界基座模型，其中第二代VLA负责处理“如何行动”（即如何驾驶），而世界模型负责处理“行动之后世界如何变化”（即物理世界的动力学与因果结构）。
Why：人类的高层语义指令（意图）在时间上是稀疏的，难以覆盖所有物理状态转移；而物理世界的信号（视频帧、运动）是密集的。将两者结合，可以确保系统在复杂环境中既理解人类意图，又深刻理解物理规律，从而提升安全性和可控性。
How：小鹏通过X-World进行可控多视角生成，X-Foresight进行视觉-动作因果预测，并将两者融入统一的架构中。同时利用X-Cache (Cross-segment Block Cache / 跨段块级缓存) 减少重复计算，加速推理。

主题二：基于摄像头的纯视觉策略与算力优化

What：小鹏坚持采用摄像头为主的纯视觉方案，并配套自研的图灵芯片进行极致的算力挖掘，以处理海量视觉数据。
Why：相比激光雷达（4320 lines / 4320线），摄像头频率更高、数据量更大（每秒数十亿级），能提供更丰富的物理世界信息。但摄像头数据量大，需要强大的算力处理。因此，硬件与软件的深度协同至关重要。
How：小鹏通过自研编译器和芯片，将车端模型推理速度提升了12倍，将GPU硬件利用率从40%拉升至90%，最终实现了单版模型训练Token总量突破4万亿，以及推理时延从800毫秒压缩至80毫秒。

主题三：物理AI的数据飞轮闭环

What：小鹏构建了一个从数据、模型到量产应用，再反馈数据的闭环飞轮。
Why：物理AI不仅需要理解物理规律，还需要在虚拟世界中反复练习以应对长尾场景。数据飞轮能不断提供高质量的训练信号，反哺模型迭代。
How：通过量产车收集真实数据，结合仿真环境进行强化学习，不断优化模型。小鹏在2023年至2026年连续三年在CVPR发表演讲，从XNet到720亿参数模型，再到如今的物理AI基座模型，形成了难以追赶的技术护城河。

术语解释：

Scaling Law (扩展定律)：在AI领域，指随着模型参数量、数据量的增加，模型的性能会持续提升的规律。小鹏的数据证明了这一法则在物理AI中依然适用。
Corner Case (长尾场景)：指自动驾驶中那些罕见但可能发生的极端情况（如复杂的路况、突发的行人行为），是衡量自动驾驶能力的关键指标。

重要引文

论点：小鹏的物理AI基座模型，通过统一VLA与世界模型，以及自研软硬件体系，证明了其技术路线优于传统自动驾驶模型，实现了从L2 (Level 2 / 等级2) 到L4 (Level 4 / 等级4) 的有效升维。
论据：小鹏第二代VLA模型拥有十亿级参数，训练Token总量突破4万亿。在硬件端，自研组合（第二代VLA + 图灵芯片）实现了82.5%的算力利用率和80毫秒的推理时延。在应用端，搭载该系统的车型辅助驾驶里程占比突破50%，且研发团队平均每天能迭代4版模型。
论证：通过将稀疏的人类意图与密集的物理预测结合，小鹏不仅解决了单一模型的局限性，还通过大规模数据和自研芯片的协同，极大地提升了算力效率。这表明，单纯依靠传感器堆砌（如激光雷达）已非最优解，基于统一基座模型和海量数据驱动的方案才是物理AI的未来。

术语解释：
Token (词元)：在人工智能中，Token是文本或视觉输入的最小单位。在文本中，它通常是一个字或词；在视觉模型中，它可能是一小块图像区域或特征向量。小鹏提到的“4万亿Token”指的是训练过程中处理过的海量视觉信息单位。

总结

本文最吸引眼球的亮点在于小鹏汽车连续三年（2023、2025、2026）受邀在CVPR发表演讲的持续性和深度，这标志着它已从一家“造车新势力”成功转型为“物理AI公司”。与摘要相比，总结部分更深入地揭示了小鹏如何通过“数据飞轮”闭环，将L2 (Level 2 / 等级2) 的技术逐步进化为具备L4 (Level 4 / 等级4) 潜力的通用物理世界基座模型。小鹏不仅定义了物理AI的技术栈，更展示了其技术如何通过量产车（辅助驾驶里程占比50%）进行验证，并具备向人形机器人、飞行汽车等领域跨域迁移的能力。未来，随着X-mind等关于模型“主动思考”和可解释性研究的推进，小鹏有望在物理AI的话语体系中占据核心地位。