标题和作者
本文标题为《从看懂世界到做对动作,卧安机器人OneModel 1.7用一条「隐式通路」打通了具身智能的关键断层》,作者为思邈。文章详细介绍了卧安机器人(OneRobotics)最新发布的OneModel 1.7 FrontoStria-RL模型架构,探讨了该架构如何通过一条名为Predictive Policy Latent的隐式传导通路,解决具身智能领域中从环境理解到动作执行的传导断层问题。作者思邈为量子位撰稿人,量子位是专注于人工智能和前沿科技的知名媒体,文章背景基于卧安机器人在具身智能领域的最新技术发布及高盛的行业报告分析。
摘要
本文详细阐述了卧安机器人发布的世界动作模型OneModel 1.7 FrontoStria-RL,该模型构建了RL-Latent World Action Model(RL-LWAM)架构,通过Predictive Policy Latent(PPL)隐式通路将World Model对环境的理解直接传导至动作执行模块。在此之前,行业大部分团队主要围绕单一VLA端到端映射或单独的World Model进行研究。然而,现有的World Model虽然能“看懂”环境,但动作策略依然“做不对”,这种从理解到执行的传导断层是制约家庭机器人走出实验室的关键瓶颈。传统的显式中间图像或坐标传递会丢失信息、引入生成幻觉和推理延迟,在开放家庭环境中极其脆弱。为此,OneModel 1.7架构包含World Model、Understand Expert和Action Expert三大核心模块,PPL机制在潜在空间中完成信息传导,不依赖显式的中间表示;Action Expert中的MCF-Proto围绕局部运动结构组织动作原型,降低几何扰动带来的分布偏移;同时结合强化学习(RL)闭环与Success Memory机制,实现持续进化。实测结果显示,该模型在LIBERO基准测试中平均成功率达99%,领先主流公开模型;真机部署中,日常操作任务成功率达99%,高精度任务成功率达97%,真人对打乒乓球接球成功率达91.2%,表现出极强的泛化与执行能力。
本节涉及的术语解释如下:World Model(世界模型)指AI对环境状态和物理规律的理解与预测能力;VLA指结合视觉、语言和动作的端到端模型;LIBERO是具身智能领域的标准评测基准,用于测试机器人的操作能力;潜在空间指数据被压缩和抽象化表示的数学空间,有助于模型提取核心特征;RL-LWAM指基于强化学习的隐式世界动作模型架构;MCF-Proto全称为Motion-Centric Action Frame(以运动为中心的动作框架),用于提升动作预测的鲁棒性。
主要主题和概念
隐式传导机制打通理解与执行断层
What:解决World Model对场景的理解无法有效转化为机器人精准动作指令的问题。
Why:传统管线式架构使用显式的中间表示(如预测图像、坐标)传递信息,在复杂家庭环境中容易丢失信息、产生幻觉和延迟,导致执行失败。
How:通过Predictive Policy Latent(PPL)这一隐式传导机制,将World Model的理解压缩为潜在空间中的策略表征,直接传递给下游模块,实现高信息密度、低延迟且无生成噪声的传导。
以运动为中心的动作原型与技能调度
What:解决机器人在面对相机视角变化和初始位姿偏差时,动作执行容易失败的问题,并实现复杂任务的拆解与技能复用。
Why:主流VLA模型在固定坐标系下直接预测位移,对几何扰动非常敏感。同时,家庭任务复杂多样,每次都从头训练不现实。
How:Understand Expert模块将任务指令分解为一系列可复用的子技能。Action Expert中的MCF-Proto围绕任务相关的局部运动结构(如铰链、导轨)组织动作原型,再映射回实际动作,从结构层面降低扰动影响。
持续进化的数据闭环与跨形态复用
What:解决模型在真实部署中无法自我学习和跨硬件形态共享经验的问题。
Why:真实家庭环境多变,固定参数的模型无法应对所有长尾场景;同时,不同形态的机器人独立训练成本极高且数据无法互通。
How:通过RL闭环将真实部署的反馈回流至模型,配合Success Memory机制筛选成功轨迹并利用Retrieve-then-Steer策略优化动作。同时构建“一脑多形”体系,让保姆机器人、网球机器人和陪伴机器人共享OneModel底座,实现能力迁移与数据反哺。
本节涉及的术语解释如下:Predictive Policy Latent(预测策略隐式表征)是一种信息传递机制,将高维的场景理解转化为紧凑的策略向量;Understand Expert(理解专家)负责将宏观任务指令拆解为具体的执行步骤;Success Memory(成功记忆)是用于存储过往成功操作经验的数据库,供模型在未来遇到类似情况时调用参考;Retrieve-then-Steer(检索后引导)策略指模型先从记忆库中寻找相似经验,再据此调整当前动作;HITL(Human-in-the-loop,人在环)指在AI训练或进化过程中引入人类监督以确保安全。
重要引文
论点1:World Model对场景的理解必须通过隐式通路才能有效传导至动作执行模块,从而解决家庭机器人在真实环境中的执行瓶颈。
论据:高盛在报告中指出,行业讨论正从单一VLA框架转向VLA / VTLA与World Model融合的多模态执行栈,高质量真实世界数据是首要瓶颈。卧安机器人在LIBERO-plus扰动测试中,MCF-Proto在Camera和Robot两类扰动下分别达到69.7%和66.0%,领先最强基线3.3和15.7个百分点。
论证:高盛的行业分析证明了World Model与动作模型融合是行业演进的正确方向。在家庭环境中,相机视角和机器人位姿的微小偏差是常态。传统显式传递或固定坐标系预测在这些扰动下表现脆弱。卧安机器人通过PPL隐式通路结合MCF-Proto局部运动结构原型,在实测的扰动测试中显著超越了基线模型,证明了隐式传导机制在抵抗几何扰动、提升真机部署成功率方面的有效性。
论点2:真实家庭场景的数据基础设施建设和“一脑多形”架构是模型持续进化并保持领先的关键。
论据:卧安机器人中标了金额4,495.32万元的深圳市项目,建设“具身智能数据全链条服务中心”,这是业内规模最大的聚焦家庭场景的数据采集中心项目。其陪伴机器人Kata Friends的模型直接在保姆机器人onero H1的OneModel基础上做蒸馏,核心能力直接继承;而Acemate的运动经验也反哺了OneModel。
论证:工业场景有标准化工位,而家庭场景数据采集极其困难。RL闭环、Success Memory和MCF-Proto的迭代都需要大量真实的操作轨迹和反馈作为燃料。建设大规模真实家庭数据工厂,为模型进化提供了难以复制的燃料来源。同时,“一脑多形”体系通过在不同形态产品间共享World Model理解、Skill调度和Success Memory,证明了技术复用链路正在运转。这种数据获取和跨形态复用的双重优势,使得模型能够随着部署规模扩大而持续增强。
本节涉及的术语解释如下:VTLA指Vision-Tactile-Language-Action(视觉-触觉-语言-动作)等多模态融合框架;LIBERO-plus是LIBERO评测基准的进阶版本,专门用于测试模型在各种外部扰动(如视角变化、位置偏移)下的鲁棒性;蒸馏指将大模型学到的知识转移到较小、更轻量的模型中的技术过程。
总结
卧安机器人OneModel 1.7 FrontoStria-RL的核心贡献,在于用Predictive Policy Latent这条“隐式通路”给出了World Model与动作执行模型如何连接的系统性回答。它放弃了显式中间表示的脆弱管线,转而在潜在空间中完成高密度的信息传导。配合以局部运动为中心的MCF-Proto和Success Memory机制,该模型不仅在标准评测和真机测试中取得了99%及以上的惊人成功率,更在应对真实家庭中常见的视角和位姿扰动时展现出极强的鲁棒性。当前其应用场景已覆盖洗衣、叠衣、洗碗甚至打乒乓球等家庭日常与高动态任务,并实现了跨形态机器人的“一脑多形”技术复用。随着目前业内最大规模的家庭具身智能数据基础设施项目的启动,真实家庭数据将规模化回流。未来,这套RL闭环进化飞轮能否在更大规模的真实家庭中持续验证其进化效率,将是决定家庭机器人从“偶尔做对”走向“持续可靠工作”的关键。这条路虽然不如单纯堆叠参数或炫酷仿真那般“性感”,但却为具身智能的商业化落地指明了最扎实的方向。