标题和作者

文档标题为《τ0-WM:最大规模预训练的开源具身世界模型来了》,作者为衡宇,发布于量子位。文章主要介绍了上海创智学院副教授、智元机器人首席科学家罗剑岚团队发布的一项突破性成果——全球最大规模的开源预训练具身世界模型τ0-World Model(τ0-WM)。文章主题围绕该模型在参数规模、真机数据运用以及测试时计算策略上的创新展开,旨在探讨具身智能领域中数据获取与模型决策范式的变革。

摘要

本文发布了全球最大规模的开源预训练具身世界模型τ0-World Model(τ0-WM),该模型参数量达到50亿(5B)。在此之前,业界普遍认为真机遥操作数据昂贵稀缺,通常仅用于模型微调阶段,难以进行大规模预训练。本文之所以需要做这项研究,是因为现有的具身智能方法在处理复杂操作任务时,往往受限于仿真数据与真实环境的差距,且缺乏足够的真机数据来支撑大规模预训练。本文通过收集3万小时的高质量数据(其中包含1.78万小时真机遥操作数据)构建了训练体系,并引入了测试时计算(Test-Time Computation)技术,让机器人在行动前进行多轮模拟和评估。实验结果表明,τ0-WM在Toolbox、School Bag等四个长程精细操作任务上平均成功率超过了对标模型π0.5和Fast-WAM,甚至在未见过的任务上成功率也达到了60%。本文额外解释了术语:具身世界模型是指能够预测未来画面和生成动作的模型;测试时计算是指在模型推理阶段投入更多算力,让机器人像人一样先思考再行动;UMI(Universal Manipulation Interface)是一种不依赖特定机器人平台的数据采集方式;Ego-Centric数据指人类第一视角的观察数据。

主要主题和概念

主题一:测试时计算(慢思考决策范式)
What: 本文提出了基于“提议-推演-评估修正”三阶段流程的测试时计算策略。不同于传统端到端策略的“看见即反应”,该策略要求机器人在执行动作前,先在内部“虚拟沙盘”中并行想象多种未来场景。
Why: 反应式策略在面对接触密集、长程跨度或严重遮挡的复杂操作时,容易出现不可逆的错误。人类在复杂决策时会“慢思考”,τ0-WM旨在通过多轮模拟和纠错机制,避免一步错导致全盘皆输。
How: 首先通过VAM(Video Action Model)采样多组候选动作;其次利用动作条件视频模拟器生成多视角的未来画面;最后通过RCS(Re-denoising Consistency Score)打分,若分数不足则触发LAR(Low-quality Action Rectification)机制,基于模拟器修正后的最优未来重新生成动作。
本文额外解释了术语:VAM(Video Action Model)是指视频动作模型,负责生成候选动作;RCS(Re-denoising Consistency Score)是一种通过重加噪和重建误差来评估动作质量分数的指标;LAR(Low-quality Action Rectification)是指低质量动作修正机制,用于在动作不达标时利用模拟器进行纠错。

主题二:真机数据主导的数据金字塔重构
What: 本文打破了行业对“真机数据昂贵、只能用于微调”的固有认知,提出了以真机遥操作数据为绝对主力的大规模预训练方案。
Why: 互联网视频缺乏动作标签,仿真数据存在Sim2Real Gap(仿真到真实的差距),而真机数据虽然采集成本高,但能提供最精准的动作监督信号。单纯依赖互联网或仿真数据无法支撑复杂任务的泛化能力。
How: 团队构建了包含1.78万小时真机遥操作、6500小时UMI数据和3000小时Ego-Centric数据的混合训练集。通过引入模态特定监督掩码,将有动作标签的数据同时训练视频和动作分支,无标签的数据仅训练视频分支,从而将不同来源、不同模态的数据统一揉进同一个预训练体系。

主题三:双组件共享架构
What: τ0-WM采用两个共享的视频扩散Backbone组件来驱动整个系统,分别是负责动作提议的VAM和负责未来推演的动作条件视频模拟器。
Why: 为了解决单一模型难以同时高效生成动作和预测未来状态的问题,需要一套统一的视频生成能力作为底层支撑。
How: VAM基于Wan2.2-5B视频生成模型,在输出未来视频Latent的同时输出动作Chunk;模拟器则利用这些输入,专门负责评估未来状态和任务进度。这种架构确保了动作生成与未来预测的一致性,使得“想象未来”成为决策的一部分而非训练技巧。

重要引文

论点一:真机遥操作数据能够且应当成为大规模预训练的核心。
论据: 文章指出,τ0-WM的预训练数据中,真机遥操作数据占据了1.78万小时的绝对主力地位,是整个数据体系里“最贵”但也是质量最高的部分。
论证: 尽管真机采集成本高昂,但它提供了最核心的动作监督信号,且动作空间与真实部署环境完全对齐。这种高质量的监督信号是模型敢于进行大规模预训练的根基,证明了真机数据不再仅仅是后训练耗材,而是可以转化为预训练燃料。

论点二:测试时计算(TTC)显著优于传统的动作连贯性引导方法。
论据: 在未见过的抽纸巾和捡笔任务中,不加TTC的成功率仅为43%,加入RCS筛选后提升至50%,叠加LAR修正后最终达到60%;而在更难的Pen→Box任务上,成功率从30%提升至50%。相比之下,Classifier-Free Guidance(CFG)仅20%,Action Coherence Guidance(ACG)为38%。
论证: CFG和ACG主要检查动作内部的一致性,而τ0-WM的TTC关注的是“动作执行后未来世界会变成什么样,任务是否真的推进”。这种基于未来后果的评估机制,使得机器人能够主动纠错,避免了单纯动作连贯但任务失败的陷阱。

论点三:通过模态特定监督掩码可以统一训练多种异构数据源。
论据: τ0-WM将真机遥操作、UMI和Ego-Centric三类数据融合训练,其中真机数据有动作标签,UMI和Ego数据动作标签不完整或缺失。
论证: 通过模态特定监督掩码技术,模型对有标签数据训练动作分支,对无标签数据仅训练视觉分支。这种设计巧妙地解决了不同来源数据动作空间不一致的问题,让模型既能利用真机数据的精确性,又能利用UMI和Ego数据的多样性和广度。

本文额外解释了术语:Sim2Real Gap是指仿真数据与真实物理世界之间的差距;模态特定监督掩码是指根据数据是否包含动作标签,动态决定模型训练视觉分支还是动作分支的技术;数据飞轮是指通过部署机器人收集真机数据,回流并用于再训练,从而让模型越来越强的循环机制。

总结

τ0-WM的发布标志着具身智能领域从“反应式”向“规划式”决策范式的转变,其核心亮点在于将真机遥操作数据从微调阶段提升至预训练阶段,构建了全球最大规模的开源预训练体系。该模型通过独特的测试时计算机制,让机器人在执行前进行多轮模拟与评估,有效解决了复杂长程操作中的错误累积问题。实验证明,这种“慢思考”策略在未见任务上的成功率达到了60%,大幅超越了对标模型。此外,团队通过“提议-推演-评估”的三阶段Pipeline和模态特定监督掩码,成功打通了真机数据回流与预训练的闭环,为行业打破Sim2Real瓶颈、构建真实世界数据飞轮提供了新的范式和可能。