标题和作者

本文标题为《戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型》,作者为衡宇,发布于量子位,日期为2026年6月4日。文章主要报道了具身智能公司戴盟机器人(Daimon Robotics)完成了由汇川产投和中国电信联合投资的亿元A轮融资。文章核心聚焦于戴盟在行业主流追逐视觉和多模态技术时的独特战略选择——即深耕触觉技术,并介绍了原玮浩博士(阿里通义实验室前专家)的加入及其在物理世界模型研发上的规划。戴盟试图通过触觉模态填补机器人理解物理世界的空白,其技术路线被描述为从“预测画面”转向“预测物理交互”。

摘要

本文报道了戴盟机器人完成亿元A轮融资,并引入阿里通义实验室前专家原玮浩,旨在攻克物理世界模型和构建含物理交互信息的超大规模数据集。此前,行业主流技术多聚焦于视觉、多模态及世界模型,但这些技术本质上是物理世界的低维映射,难以捕捉接触瞬间的关键物理信息(如物体软硬、表面粗糙度、正压力与切向力),导致机器人无法真正理解并操作物理世界。戴盟通过构建以多模态接触状态为条件的物理世界模型,采用“认知层”融合多模态表征与“执行层”结合毫秒级高频触觉伺服及前瞻性物理世界推理的双层架构来解决。目前,戴盟已发布全球规模最大的触觉全模态具身数据集Daimon-Infinity,并联合发布了首个支持真实与仿真训练的评测基准RobOmni,致力于探索触觉领域的Scaling Law。

术语解释:具身智能指赋予人工智能实体,使其能够通过身体与物理世界进行交互的技术;物理世界模型指以接触状态为条件预测未来物理交互(如滑移、抓握失败)而非仅预测视觉画面的模型;触觉Scaling Law指随着数据量和模型规模增加,触觉感知性能呈现的规律性提升。

主要主题和概念

触觉作为物理理解的唯一入口
What:戴盟认为触觉不是机器人的辅助传感器,而是理解真实物理世界的关键入口,能够提供视觉和语言无法覆盖的接触信息(如软硬、表面纹理、接触力)。
Why:视觉和语言是物理世界的低维映射,许多决定操作成败的关键物理特征(如物体滑移趋势、正压力与切向力)只有在接触瞬间才会出现,仅靠视觉无法稳定推导。
How:通过引入触觉作为原生物理模态,将触觉与视觉、语言映射到同一表征空间,使模型能够基于真实的物理交互数据而非抽象的视觉信息进行理解和决策。
术语解释:原生物理模态指直接来源于物理世界的输入模态,如触觉、力觉,与视觉等经过透镜或传感器转换的信号不同。

双层物理世界模型架构
What:戴盟提出以多模态接触状态为条件预测未来的物理世界模型,其核心架构分为认知层和执行层。
Why:纯视觉模型存在反应滞后(纯视觉模型无法处理毫秒级变化)和预测盲区(无法预判接触失败)的问题,需要更精细的分层机制来平衡实时反应与长期规划。
How:认知层负责将触觉、视觉、语言映射到统一空间;执行层包含两套机制:一套是百赫兹级的高频触觉伺服(类似脊髓反射,在视觉帧产生前即时补偿力控),另一套是物理世界推理(预测未来接触状态并提前给出修正策略)。
术语解释:认知层指模型中负责信息融合与表征对齐的部分,将不同模态数据映射到同一语义空间;执行层指负责直接控制硬件和生成决策指令的部分。

数据飞轮与行业标准构建
What:针对触觉数据采集面临的规模化(需多样性而非单纯数量)和多模态对齐(毫秒级时间同步)难题,戴盟搭建了外发式数据采集网络。
Why:缺乏统一的数据标准和评估体系阻碍了触觉领域Scaling Law的涌现,行业需要公认的标尺来衡量模型进步。
How:戴盟通过部署标准化采集模组到产业场景获取真实数据,发布了全球最大规模的Daimon-Infinity数据集,并与银河通用联合发布了支持真实与仿真训练的RobOmni评测基准,为触觉模型的训练和评估提供基础设施。
术语解释:数据飞轮指通过数据反馈不断驱动系统性能提升的循环机制;Daimon-Infinity是戴盟发布的全球最大含触觉全模态具身数据集;RobOmni是首个支持真实数据训练和仿真训练的含触觉全模态物理交互评测基准。

重要引文

论点:只有加入触觉模态,才能够让语言和视觉真正具有物理意义,才能够让模型真正理解并操作物理世界。
论据:物理世界里很多决定成败的信息,只有接触之后才会出现——物体是软是硬,表面是光滑还是粗糙,抓握时正压力和切向力分别是多少,这些信息都很难单靠看稳定推出来。
论证:视觉和语言都是真实物理世界的低维映射,而触觉作为原生物理模态,能够捕捉接触瞬间的物理特征,是机器人实现物理交互理解的必要条件。
术语解释:正压力指垂直于物体接触表面的力,切向力指平行于接触表面的力,两者共同决定了物体是否滑移或抓握稳定。

论点:我们的物理世界模型,它以多模态接触状态为条件来预测未来。简单来说,视频世界模型在预测画面,我们在预测物理交互。
论据:不同于常规模型只预判画面帧变化,它关注的不只是下一帧画面会变成什么样,还包括下一刻的触觉信号、接触状态,以及这次操作会不会失败、为什么失败、该怎么修。
论证:戴盟的模型核心在于对物理交互行为的预测,通过关注触觉信号和接触状态,模型能够指导机器人进行更符合物理规律的修正,而非仅仅生成逼真的视频帧。
术语解释:多模态接触状态指同时包含触觉、视觉、力矩等多种感官信息的融合状态。

总结

戴盟机器人的亿元融资与原玮浩博士的加盟,标志着具身智能赛道正在从“视觉内卷”向“触觉深耕”分化,资本与顶尖人才的注入为其攻关物理世界模型提供了强力支撑。文章最吸引人的观点在于戴盟对触觉定位的根本性重构——将触觉从辅助传感器提升为理解物理世界的“原生物理模态”,并通过独特的双层架构(认知层映射与执行层毫秒级伺服+前瞻推理)实现了从“预测画面”到“预测物理交互”的范式转移。尽管面临数据采集和同步的硬成本,但通过Daimon-Infinity数据集和RobOmni基准的布局,戴盟正在为触觉AI建立行业标准,有望在解决机器人“物理常识”缺失这一核心难题上开辟出一条超越纯视觉方案的可行路径。