标题和作者

本文的标题为“世界模型榜首易主!跨维智能登顶WorldArena”,由“量子位的朋友们”发布于2026年6月3日,来源为量子位。文章聚焦于全球科技巨头重兵布局的人工智能前沿领域,报道了中国具身智能公司跨维智能在权威评测基准中强势突围、登顶榜首的事件。作者背景为知名科技媒体,旨在向大众传递前沿AI技术的产业动态与竞争格局。

摘要

本文报道了跨维智能自研的DSCFuncWorld模型在权威评测基准WorldArena的Track 2(第二赛道,即Data Engine数据引擎赛道)中拿下全球第一名的突破。在此之前,英伟达、谷歌、OpenAI等巨头以及WoW、BLM等国际旗舰模型已经在此赛道展开激烈角逐,但现有技术普遍存在“视觉逼真但无法落地”的痛点,缺乏对真实机器人作业的指导价值。为了解决这一产业瓶颈,跨维智能依托其核心底座DexWorldModel进行适配改造,采用因果隐空间建模与DINO语义特征空间,结合EVA技术框架和EmbodiChain数据基建,生成了高度契合物理规律与机器人运动逻辑的高质量训练数据。最终,该模型以显著优势大幅刷新了该赛道的全球最优成绩,证明了其在具身数据生成、仿真训练闭环和虚实迁移方面的全链路硬实力。

本节术语解释:WorldArena是目前世界模型领域最权威的评测基准,包含16项核心指标和3大真实应用任务。Track 2(第二赛道)是该评测中实战门槛极高的核心赛道,不比拼画面逼真度,而是以机器人在真实任务中的成功率来考核模型作为数据引擎的落地能力。具身智能是指具有物理实体、能够与真实物理世界进行交互的智能体。DINO是一种基于自监督学习的视觉特征提取技术,能够帮助AI更好地理解图像中的语义信息。

主要主题和概念

第一个核心主题是权威评测体系与产业价值的标尺。What(界定问题):随着世界模型赛道竞争白热化,行业急需一套科学的标准来甄别哪些模型只是在视觉上炫技,哪些模型真正具备产业落地价值。Why(分析问题):当前AI巨头纷纷入局,但模型如果只能生成好看的视频,却无法转化为机器人可执行的指令和数据,就无法解决通用具身智能产业化的核心难题。How(解决问题):WorldArena设立了两大核心赛道,其中Track 2(第二赛道)通过让模型自主模拟机器人交互流程并生成训练数据,最终以机器人实际作业任务的成功率作为核心评判标准,从而严苛考察模型的感知精度、物理规律理解和动作预测能力。

第二个核心主题是底层技术闭环与高质量数据生成。What(界定问题):如何让世界模型生成的数据具备可训练、可迁移、可执行的特性,是长期制约具身智能发展的核心瓶颈。Why(分析问题):常规模型往往只追求视觉观感的真实,导致生成的轨迹不符合物理规则或机器人运动逻辑,无法直接用于策略模型的迭代优化。How(解决问题):跨维智能通过DexWorldModel底座进行轻量化改造,利用因果隐空间建模精准预测未来世界状态。同时,团队引入EVA技术框架,通过逆动力学奖励机制将视频生成与机器人动作对齐;并依托EmbodiChain基建,构建了从资产生成到在线数据回流的完整体系,持续产出物理可信的高质量训练数据。

本节术语解释:Data Engine(数据引擎)在此处指代世界模型的一项核心功能,即模型能够像引擎一样源源不断地合成符合物理规律的虚拟训练数据,供真实机器人学习。因果隐空间建模是一种人工智能建模方法,通过寻找事物之间的因果关系来构建数据的内在隐藏表示,使模型不仅能“看到”表象,还能“理解”事物发展的逻辑。逆动力学奖励机制是一种机器学习训练策略,通过奖励模型生成那些在物理世界中能够被机器人实际执行的动作轨迹,从而弥合虚拟与现实的差距。

重要引文

论点:跨维智能的世界模型已经具备行业顶尖的环境推演与物理认知能力,能够切实解决具身智能落地过程中的系统性难题,其技术实力已稳居全球第一梯队。

论据:在WorldArena最新公布的最终榜单中,跨维智能登顶Track 2(第二赛道)全球第一,与第二名拉开显著比分差距,并大幅领先WoW、BLM等国际旗舰模型。其参赛模型DSCFuncWorld由自研底座DexWorldModel简单适配而来,并融合了EVA技术框架与EmbodiChain具身数据基建。

论证:WorldArena的Track 2(第二赛道)是衡量模型产业价值的硬核标尺,其核心评判标准是机器人实际作业任务的成功率,这要求模型必须具备全链路落地能力。跨维智能的模型不仅能在该评测中取得最高分,说明其生成的推演过程与真实任务高度契合。通过EVA技术框架对齐视频与可执行动作,以及利用EmbodiChain产出覆盖全面的物理可信数据,跨维智能成功将虚拟推演转化为可用的机器人训练资产,有效支撑了策略模型的迭代优化。这一系列技术事实与榜单成绩相互印证,充分证明了其模型在数据生成、策略训练和虚实迁移上的卓越有效性。

本节术语解释:WoW和BLM均为文中提到的国际领先的世界模型名称,代表该领域内的头部竞争对手。SOTA(State-of-the-art)在人工智能领域指代当前最高水平或最优性能的技术模型。虚实迁移是指将人工智能在虚拟环境、仿真软件中学习到的策略和经验,成功应用到真实物理世界硬件设备上的过程,这是机器人领域极具挑战性的关键环节。

总结

跨维智能登顶WorldArena榜单不仅是一次技术排名的胜利,更是中国企业在世界模型硬核赛道上对标并超越全球巨头的里程碑。本文最吸引人的地方在于,跨维智能跳出了行业内单纯追求“视觉逼真度”的概念内卷,直击具身智能最棘手的现实痛点。他们通过DexWorldModel、EVA框架和EmbodiChain构建了一个从数据生成到策略执行的完整闭环,证明了虚拟生成的数据完全可以转化为真实机器人的实际操作能力。当前,这种“和真实世界赛跑”的技术路线正在推动具身智能向规模化应用发展,未来有望在工业制造、家庭服务等多种复杂场景中解决通用机器人的数据匮乏与泛化难题。