标题和作者
云端模型如何落地物理世界?招商局狮子山人工智能实验室用LiOS打通具身智能全链路
作者:思邈
招商局狮子山人工智能实验室由招商局集团于2024年9月建立,秉承“将智能赋予机器,把温暖送给人类”的使命愿景,聚焦具身智能与大模型融合发展的前沿方向,重点布局具身基础模型、Embodied Reasoning、大模型后训练算法与框架等核心研究。实验室以“Robot × Agent”为技术主线,构建覆盖多模态数据、模型训练、后训练优化、具身推理、机器人策略学习、全身运动控制、先进定位导航的全栈技术体系,致力于突破智能体从数字空间走向物理世界的关键技术瓶颈。
摘要
本文主要介绍了招商局狮子山人工智能实验室自主研发的LiOS(具身智能操作系统),旨在解决具身模型从云端到物理世界落地的核心难题。此前,具身智能领域多局限于理想仿真环境或规整初始状态下的简单操作,面对真实家庭场景中衣物折叠等复杂柔性物体操作时,仿真策略往往难以迁移至真机。本文之所以需要做,是因为机器人技术栈与大模型技术栈交叉带来了系统复杂度,且具身智能对计算、数据和模型规模的持续需求与端侧资源限制之间存在矛盾。本文具体通过构建云侧(规模扩展)、端侧(稳定执行)和端云协同(低延迟闭环)三位一体的LiOS架构,结合Real2Sim数据回流与多模态优化,实现了在SO101真机上完成多类衣物、多初始状态的叠衣任务。最终,LiOS不仅验证了端云协同在低延迟图传和远程接管方面的优势,还开源了低延时图传模块和LeFold数据集,为行业提供了统一的基础设施。
关于本节术语的解释:具身智能是指具备感知、理解、推理和决策能力,并能通过物理身体与环境交互的智能系统;Sim2Real(仿真到真机)是指将训练好的模型从仿真环境迁移到真实机器人上的过程;Real2Sim(真机到仿真)是指通过遥操作将真实机器人的成功或失败经验回流到仿真环境中,用于训练更鲁棒的模型;LiOS(Life-like Operating System)是实验室提出的具身智能操作系统,旨在统一管理模型、数据、算力与硬件。
主要主题和概念
主题一:叠衣任务的复杂性
What:叠衣任务涉及对无定型柔性物体(如衣物)的感知、抓取、展开、折叠和整理,是考察机器人柔性物体操作能力的关键场景。
Why:衣物具有摩擦力、弹性、静电吸附等物理特性,且初始状态千变万化(如褶皱、随机朝向、局部遮挡),这要求机器人具备柔性感知、双臂协同、接触控制、长程执行和状态恢复能力。
How:通过LiOS平台,将不同机器人平台、不同衣物类型和初始状态的叠衣任务进行统一接入与运行,利用端云协同能力支持模型的持续迭代与策略优化。
关于本节术语的解释:具身操作是指机器人通过身体(如机械臂)与物理环境进行交互并完成特定任务的过程;双臂协同是指利用两个机械臂共同协作来完成需要精细或大范围操作的任务。
主题二:虚实迁移鸿沟
What:指仿真环境中训练成功的策略部署到真实机器人后表现大幅下降的现象,即从虚拟世界到物理世界的迁移困难。
Why:仿真环境通常理想化,忽略了打印件刚性、装配精度、夹爪稳定性、控制误差以及真实场景的随机性和长尾状态,导致策略无法适应真机的物理特性。
How:建立“训练—部署—采样—增广—回流”的闭环管线,利用Real2Sim遥操作补充仿真难以覆盖的状态,并通过LiOS的端云协同机制,将真机运行中的数据反馈给云端进行再训练和优化。
关于本节术语的解释:虚实迁移鸿沟是指仿真与真机在物理特性、状态分布和执行环境上的巨大差异,导致模型在两个环境间的性能不一致;Real2Sim是指将真实机器人的操作数据或经验迁移回仿真环境,用于增强模型鲁棒性的技术手段。
主题三:LiOS架构与端云协同
What:LiOS是一套围绕具身操作模型迭代展开的基础设施,旨在将分散的系统集成推进到OS级的统一管理,并实现端云协同。
Why:为了解决具身智能实践中系统复杂度高、端侧资源受限的问题,需要一种既能统一管理庞大技术栈,又能利用云端算力资源的解决方案。
How:云侧负责多模态大模型训练、数据湖仓管理和高并发仿真评估;端侧负责传感器同步、运动控制和安全执行;端云协同通过低延迟图传(如WebRTC/GStreamer)和状态同步,实现远程接管和数据回流,形成闭环。
关于本节术语的解释:OS级统一基础设施是指像操作系统一样管理底层硬件和上层应用的基础设施,提供统一的接口来适配不同设备;端云协同是指将端侧(机器人)的数据和指令与云侧(服务器)的算力和模型能力相结合的技术模式。
重要引文
论点:具身智能需要从分散的系统集成推进到OS级的统一基础设施,并构建基于低延迟图传与状态同步的端云协同链路。
论据:文中指出具身智能实践暴露了两个核心问题:一是机器人技术栈与大模型技术栈交叉后带来的系统复杂度,二是具身智能对计算、数据和模型规模的持续需求。
论证:针对第一个问题,LiOS统一纳管了模型、数据、算力、硬件、仿真、网络与人机协同组件,提供稳定开发接口;针对第二个问题,LiOS构建了端云协同链路,让云端大模型和数据资源进入真实机器人现场,同时端侧保持轻量、稳定和实时安全。
关于本节术语的解释:OS级统一基础设施是指能够像操作系统一样,对底层硬件资源进行统一调度和封装,向上层应用提供标准接口的系统架构;端云协同是指终端设备与云端服务器之间紧密配合,利用云端强大算力处理复杂任务,同时终端设备负责实时数据采集和最终执行的技术架构。
总结
本文的核心亮点在于提出了LiOS这一具身智能操作系统,成功解决了云端大模型落地物理世界时的系统级基础设施难题。文章不仅展示了实验室在叠衣这一具身智能“试金石”任务上的突破,实现了跨平台、多衣物类型及抗干扰的真机稳定运行,更关键的是通过低延迟图传技术,将端云协同的优势发挥到极致,使得云端推理频率远超端侧。此外,实验室开源LiOS图传模块和LeFold数据集,为行业提供了可复用、可迭代的技术底座。这不仅验证了具身智能从实验室走向家庭场景的可行性,也为未来解决更复杂的物理世界交互问题奠定了坚实基础。