τ0-WM：最大规模预训练的开源具身世界模型来了

标题和作者

文档标题为《τ0-WM：最大规模预训练的开源具身世界模型来了》，作者为衡宇，发布于量子位。文章主要介绍了上海创智学院副教授、智元机器人首席科学家罗剑岚团队发布的一项突破性成果——全球最大规模的开源预训练具身世界模型τ0-World Model（τ0-WM）。文章主题围绕该模型在参数规模、真机数据运用以及测试时计算策略上的创新展开，旨在探讨具身智能领域中数据获取与模型决策范式的变革。

摘要

本文发布了全球最大规模的开源预训练具身世界模型τ0-World Model（τ0-WM），该模型参数量达到50亿（5B）。在此之前，业界普遍认为真机遥操作数据昂贵稀缺，通常仅用于模型微调阶段，难以进行大规模预训练。本文之所以需要做这项研究，是因为现有的具身智能方法在处理复杂操作任务时，往往受限于仿真数据与真实环境的差距，且缺乏足够的真机数据来支撑大规模预训练。本文通过收集3万小时的高质量数据（其中包含1.78万小时真机遥操作数据）构建了训练体系，并引入了测试时计算（Test-Time Computation）技术，让机器人在行动前进行多轮模拟和评估。实验结果表明，τ0-WM在Toolbox、School Bag等四个长程精细操作任务上平均成功率超过了对标模型π0.5和Fast-WAM，甚至在未见过的任务上成功率也达到了60%。本文额外解释了术语：具身世界模型是指能够预测未来画面和生成动作的模型；测试时计算是指在模型推理阶段投入更多算力，让机器人像人一样先思考再行动；UMI（Universal Manipulation Interface）是一种不依赖特定机器人平台的数据采集方式；Ego-Centric数据指人类第一视角的观察数据。

主要主题和概念

主题一：测试时计算（慢思考决策范式）
What： 本文提出了基于“提议-推演-评估修正”三阶段流程的测试时计算策略。不同于传统端到端策略的“看见即反应”，该策略要求机器人在执行动作前，先在内部“虚拟沙盘”中并行想象多种未来场景。
Why： 反应式策略在面对接触密集、长程跨度或严重遮挡的复杂操作时，容易出现不可逆的错误。人类在复杂决策时会“慢思考”，τ0-WM旨在通过多轮模拟和纠错机制，避免一步错导致全盘皆输。
How： 首先通过VAM（Video Action Model）采样多组候选动作；其次利用动作条件视频模拟器生成多视角的未来画面；最后通过RCS（Re-denoising Consistency Score）打分，若分数不足则触发LAR（Low-quality Action Rectification）机制，基于模拟器修正后的最优未来重新生成动作。
本文额外解释了术语：VAM（Video Action Model）是指视频动作模型，负责生成候选动作；RCS（Re-denoising Consistency Score）是一种通过重加噪和重建误差来评估动作质量分数的指标；LAR（Low-quality Action Rectification）是指低质量动作修正机制，用于在动作不达标时利用模拟器进行纠错。

主题二：真机数据主导的数据金字塔重构
What： 本文打破了行业对“真机数据昂贵、只能用于微调”的固有认知，提出了以真机遥操作数据为绝对主力的大规模预训练方案。
Why： 互联网视频缺乏动作标签，仿真数据存在Sim2Real Gap（仿真到真实的差距），而真机数据虽然采集成本高，但能提供最精准的动作监督信号。单纯依赖互联网或仿真数据无法支撑复杂任务的泛化能力。
How： 团队构建了包含1.78万小时真机遥操作、6500小时UMI数据和3000小时Ego-Centric数据的混合训练集。通过引入模态特定监督掩码，将有动作标签的数据同时训练视频和动作分支，无标签的数据仅训练视频分支，从而将不同来源、不同模态的数据统一揉进同一个预训练体系。

主题三：双组件共享架构
What： τ0-WM采用两个共享的视频扩散Backbone组件来驱动整个系统，分别是负责动作提议的VAM和负责未来推演的动作条件视频模拟器。
Why： 为了解决单一模型难以同时高效生成动作和预测未来状态的问题，需要一套统一的视频生成能力作为底层支撑。
How： VAM基于Wan2.2-5B视频生成模型，在输出未来视频Latent的同时输出动作Chunk；模拟器则利用这些输入，专门负责评估未来状态和任务进度。这种架构确保了动作生成与未来预测的一致性，使得“想象未来”成为决策的一部分而非训练技巧。

重要引文

论点一：真机遥操作数据能够且应当成为大规模预训练的核心。
论据： 文章指出，τ0-WM的预训练数据中，真机遥操作数据占据了1.78万小时的绝对主力地位，是整个数据体系里“最贵”但也是质量最高的部分。
论证： 尽管真机采集成本高昂，但它提供了最核心的动作监督信号，且动作空间与真实部署环境完全对齐。这种高质量的监督信号是模型敢于进行大规模预训练的根基，证明了真机数据不再仅仅是后训练耗材，而是可以转化为预训练燃料。

论点二：测试时计算（TTC）显著优于传统的动作连贯性引导方法。
论据： 在未见过的抽纸巾和捡笔任务中，不加TTC的成功率仅为43%，加入RCS筛选后提升至50%，叠加LAR修正后最终达到60%；而在更难的Pen→Box任务上，成功率从30%提升至50%。相比之下，Classifier-Free Guidance（CFG）仅20%，Action Coherence Guidance（ACG）为38%。
论证： CFG和ACG主要检查动作内部的一致性，而τ0-WM的TTC关注的是“动作执行后未来世界会变成什么样，任务是否真的推进”。这种基于未来后果的评估机制，使得机器人能够主动纠错，避免了单纯动作连贯但任务失败的陷阱。

论点三：通过模态特定监督掩码可以统一训练多种异构数据源。
论据： τ0-WM将真机遥操作、UMI和Ego-Centric三类数据融合训练，其中真机数据有动作标签，UMI和Ego数据动作标签不完整或缺失。
论证： 通过模态特定监督掩码技术，模型对有标签数据训练动作分支，对无标签数据仅训练视觉分支。这种设计巧妙地解决了不同来源数据动作空间不一致的问题，让模型既能利用真机数据的精确性，又能利用UMI和Ego数据的多样性和广度。

本文额外解释了术语：Sim2Real Gap是指仿真数据与真实物理世界之间的差距；模态特定监督掩码是指根据数据是否包含动作标签，动态决定模型训练视觉分支还是动作分支的技术；数据飞轮是指通过部署机器人收集真机数据，回流并用于再训练，从而让模型越来越强的循环机制。

总结

τ0-WM的发布标志着具身智能领域从“反应式”向“规划式”决策范式的转变，其核心亮点在于将真机遥操作数据从微调阶段提升至预训练阶段，构建了全球最大规模的开源预训练体系。该模型通过独特的测试时计算机制，让机器人在执行前进行多轮模拟与评估，有效解决了复杂长程操作中的错误累积问题。实验证明，这种“慢思考”策略在未见任务上的成功率达到了60%，大幅超越了对标模型。此外，团队通过“提议-推演-评估”的三阶段Pipeline和模态特定监督掩码，成功打通了真机数据回流与预训练的闭环，为行业打破Sim2Real瓶颈、构建真实世界数据飞轮提供了新的范式和可能。