标题和作者

本文主要介绍了具身智能公司它石智航在工业机器人领域的重大突破,特别是其A1机器人如何通过自研的具身大脑AWE 3.0模型,攻克了亚毫米级线束装配这一“不可能三角”难题,并创下吉尼斯世界纪录。文章由量子位记者Jay撰写,通过采访公司联合创始人兼首席科学家丁文超,详细阐述了公司从天使轮融资后的低调蛰伏到如今技术爆发的全过程,深入探讨了其以人为中心的数据范式、原生世界模型架构以及自研硬件体系。

摘要

本文展示了它石智航如何利用A1机器人和AWE 3.0模型,在亚毫米级线束装配任务中创下吉尼斯世界纪录,实现了工业自动化界的“哥德巴赫猜想”。此前,传统工业自动化擅长高精度但缺乏柔性,而具身方案虽能做长程任务但精度不足,行业长期受困于精度、柔性、长程操作三者难以兼顾的“不可能三角”。它石智航通过AWE 3.0这一世界模型,结合Human Centric数据采集和自研灵巧手硬件,解决了这一难题。其成果不仅效率超过人类,还在图灵测试中骗过了超过50%的观察者,证明了机器人已具备极高的“活人味”和自我纠错能力。此外,公司还发布了SenseHub数采套件和具身数据星火计划,旨在构建产业级数据生态。本文还详细解释了具身智能、Human Centric、VLA、Zero-shot等核心概念,指出行业正从遥操作数据向以人为中心的数据范式转变。

主要主题和概念

具身智能的不可能三角

  • What:线束装配任务需要同时满足亚毫米级精度(容错率极低)、柔性操作(软线易变形)和长程操作(多根线交互)三个苛刻条件,传统自动化和早期具身方案无法同时兼顾这三点。
  • Why:传统工业自动化依赖刚性机械,无法适应柔性物体;早期具身方案虽能处理长程任务,但在精细操作上往往力不从心。丁文超将此称为工业自动化界的“哥德巴赫猜想”,必须找到能同时处理这三者的技术路径。
  • How:它石智航通过自研AWE 3.0具身大脑模型和21自由度灵巧手等硬件,在隐空间内进行长程推理和决策,实现了对柔性物体的精准控制,成功打穿这一难题。

Human Centric数据范式

  • What:指直接从人类操作员身上采集数据,而非通过遥操作设备采集。通过SenseHub数采套件(手套+头部摄像头)实现被动式采集。
  • Why:遥操作数据在亚毫米级任务中会因操作者的犹豫、抖动而产生大量噪声,无法训练出精准模型。而人类在操作中拥有天然的局部微调和纠错能力,这些细节是机器人智能的关键。
  • How:利用轻便的穿戴设备让普通劳动者在日常工作中顺手采集数据,结合星火计划构建产业级数据共享生态,目标是积累千万小时级别的标准化数据。

AWE 3.0与隐空间推理

  • What:AWE 3.0是它石智航推出的“AI世界引擎”,是一个能够同时预测环境和动作的端到端模型。其核心特点是引入“隐空间”进行推理。
  • Why:面对柔性操作中的突发状况,模型需要超越简单的轨迹模仿,具备对未来的预判能力,以确保动作的连续性和鲁棒性。
  • How:模型在输出动作前,先在隐空间内进行“未动先想”的推理,模拟多种可能性和自我纠错过程,从而实现丝滑的动作输出和Failure Recovery(失败恢复)能力。

重要引文

论点:遥操作数据在亚毫米级精度任务上不仅没有优势,反而因为操作者的不稳定性成为“噪声”,Human Centric数据才是解决精度问题的关键。
论据:遥操作过程中操作员会犹豫、抖动,导致数据质量下降;而人类虽然不能百分百零偏差,但能通过感受阻力迅速调整角度和力度,完成高精度插接。
论证:丁文超指出,传统的“遥操数据精度最高”共识在亚毫米级任务上不成立。通过Human Centric数据训练,模型不仅学会了动作,还涌现出了自我纠错的新技能,证明了人身上蕴含的微调智慧是机器人智能的源泉。

论点:具身智能的Scaling Law(缩放定律)红利的获取,不能依赖遥操作数据,必须依赖Human Centric数据。
论据:遥操作成本极高,需要专业设备、数采中心和培训成本高的遥操员,且硬件升级后数据无法复用,难以达到千万小时级的数据量级。
论证:Human Centric数据成本低廉,采集者可以是普通劳动者,且能直接反映人类在真实场景中的操作智慧。只有通过这种大规模、多样化的真实场景数据积累,才能支撑模型向GPT-3.5乃至4.0演进。

论点:机器人本体设计应服务于AI,即本体应尽可能贴合人类的数据分布,而非单纯追求大扭矩或高减速比。
论据:它石智航发现,让机器人执行动作的空间和流畅度去匹配人类数据形成的分布,比单纯堆砌硬件参数更有效。
论证:通过采集大量人类数据,模型对机器人的运动分布有了深刻理解。因此,硬件设计必须反向推导,采用极低减速比、高精度的关节和与人手匹配的灵巧手,以消除模型与硬件之间的Gap,实现真正的“人机通吃”。

总结

它石智航此次的亮相标志着具身智能正式进入“真干活”的时代,其A1机器人和AWE 3.0模型不仅刷新了吉尼斯纪录,更在图灵测试中展现出惊人的拟人度。核心亮点在于打破了工业自动化的“不可能三角”,并提出了以Human Centric为核心的原生世界模型范式。随着“准Zero-shot时代”的到来,机器人将具备更强的跨场景泛化能力。展望未来,虽然家庭机器人有望在3年内实现,但具身智能的AGI形态可能更接近“天才国度”而非全能通才,行业将进入3+3+3的淘汰赛阶段,真正的挑战在于大脑的量产与全生命周期的泛化能力。