< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> # 刚刚,全球⾸个“事件级预测”具身智能世界模型来了! _[梦瑶](https://www.qbitai.com/author/mengyao "由 梦瑶 发布")_ 2026-05-29 15:02:05 来源:[量子位](https://www.qbitai.com) 从按帧学动作,到按「事件」理解世界 > 梦瑶 发自 凹非寺 > > 量子位 | 公众号 QbitAI 让机器人把杯子递过去—— 这个看似简单的任务,对当前的具身大模型来说,却是一场逐帧填空的考试: 预测0.1秒后手在哪、0.2秒后手在哪…… 把一个完整动作切成几十张几乎雷同的画面,让模型一帧一帧去学。 结果,模型记住的是「手指每帧挪几毫米」,而不是「把杯子抓住」这个目标,换个杯子、换张桌子,节奏稍变,立刻翻车!! 刚刚,自变量机器人团队带来全新解法—— **发布全球首个「事件级预测」具身智能世界模型WALL-WM。** WALL-WM把世界模型的预测单位从时间帧换成了**语义事件** : 模型不再问0.1秒后是什么样,而是直接想象抓住杯子那一刻是什么样,跳过中间所有冗余帧,并基于这个想象同步生成抵达它的动作。 由于「事件」本身就是跨场景、跨物体的通用语义抽象,WALL-WM在跨场景泛化上也展现出明显更稳的表现。目前,这一模型已在论文**《WALL-WM: Carving World Action Modeling at the Event Joints》** 中发布。 诶,这下好了。 以后小机器人们干活儿,也能更像人类一样抓重点,灵活应对物理世界的各种抓马情况了! # 从按帧学动作,到按「事件」理解世界 这几年,主流VLA模型基本都在沿着一条路往前走: 给模型一帧当前画面,再加一句语言指令,让它预测接下来一段**「固定长度」** 的动作块。 这个做法当然很工程化,也确实方便训练,但问题在于真实世界的机器人动作,并不会乖乖按照固定时间窗口发生。 比如让机器人抓起一个杯子,它里面至少包含接近、接触、闭合夹爪、提起、移动、放下几个阶段。 每个阶段的物理状态都不一样,接触前和接触后更是完全不同的控制问题。 针对这个bug,自变量机器人在论文中提出了一个非常「反常识」的行业判断—— **文本、视觉、动作这三类信息,其实是天然没办法「完全对齐」的** ……(doge) 论文中提到,文本、视觉、动作在高维空间里有不同的**「流形几何」** ,也有完全不同的**「时间尺度」** 。 文本是高层、低熵的语义意图;视觉是连续演化的高维观察;动作则被物理世界强约束,对接触状态、时间精度和微小扰动都极其敏感。 如果直接把三者压进同一个共享空间,预训练表示很容易偏离原本的先验几何!! 所以说,这也是为啥目前行业内很多VLA在真机上视觉-语言-动作对齐的表现,远不如其底座VLM应有的⽔平….. 既然传统VLA问题这么多,自变量团队也重新追问了一个更为根本的问题:机器人到底该按什么单位学会一个动作? 基于这个思路,团队出了**WALL-WM** 世界模型,让机器人按event-centric的方式去训练和执行。 所谓的event-centric,简单说就是把机器人任务切在真正有语义、有物理动作变化的「事件边界」上,然后在这些事件数据上进行模型训练。 比如伸手、抓取、抬升、移位、放置,都可以看成一个个围绕动作展开的语义事件。 它能被语言说清楚,也能被视频完整记录,还能落到机器人的动作轨迹上,这样就可以把语言、画面和动作真正串了起来~ WALL-WM泛化能力更强的关键也就在这里:让机器人围绕事件理解世界变化,再把这种理解转成可执行动作。 而这,才是具身智能「世界模型」应有的形态。 # WALL-WM的核心链路:先预演,再执行 具体来说,WALL-WM做的不是直接从画面生成动作。 而是先让模型理解「下一个事件会让世界怎么变」,再把这种变化翻译成机器人该执行的轨迹。 背后是一整套从感知到控制的路径重构,自变量团队将其拆成了三层: 第一层,是**事件指令入口** 。 其作用很直接,就是告诉模型「下一步要做什么」,比如抓起杯子、放进篮子、把积木摆到指定位置。 第二层,是**事件世界模型** 。 模型会围绕这个事件,去预演接下来画面里的变化:物体会怎么动,场景会怎么变,机械臂又该如何参与其中。 第三层,是**多视角时空融合** 。 机器人看到的往往不止一个角度,头部相机、腕部相机提供的是不同位置的信息。WALL-WM会把这些视角统一起来,让模型在执行动作之前,先把现场看得更完整。 不仅如此,在这个架构中WALL-WM还用几组关键设计,把这条链路变成了一个尽量保住视频先验、又能长出动作能力的系统。 # 同⼀个基座,两种推理模式 在执行阶段,WALL-WM不会只生成一段死板的固定动作,而是让同一套模型权重可以跑出两种推理模式。 首先就是**事件模式(Event Mode)。** 当上层规划器已经把任务拆好,模型就可以直接根据这个事件描述,输出一段长度可变的动作,这个模式更贴近WALL-WM的核心思想:动作不必被硬切成固定窗口,而是顺着语义事件自然展开。 另一种是**统一模式(Unified mode)** 。 当没有外部规划器,机器人需要自己一边看、一边想、一边控制时,VLM会结合当前视觉输入和任务指令,在线生成中间推理,再把结果交给动作模型输出「固定长度」的动作块。 这个模式更适合实时闭环控制,因为它能保持稳定的控制频率。 这两种推理模式的关键在于,其**共享同一套权重** ,执行过程中还能按动作块切换,不需要为了不同场景重新训练模型,所以模型的用法也更灵活。 它既能接在更大的机器人系统后面,专门负责把规划好的事件稳定执行出来,也能自己完成从看懂任务、判断下一步,到生成动作的完整流程。 # 视频模型和动作模型分工生长 不仅如此,WALL-WM没有直接把视频模型改成动作模型,而是把两条能力「拆开」来长—— 让机器人先**预演世界会怎么变** ,再决定自己该**怎么动** 。 具体来说,视频模型会承载互联网视频训练出来的动态先验,负责理解物体怎么动、场景怎么变。 而动作模型从零初始化,专门学习如何把这些视觉变化翻译成机器人轨迹。 两者在每一层做单向耦合:动作流读取视频流的视觉证据,视频流保留原本的动态先验,避免被动作数据过早「带偏」。 这样一来,模型既能守住视频基座已有的世界理解能力,又能让动作能力在大规模训练中持续增长。 而这,正是绝⼤多数VLA在⼤规模训练时做不到的~ # 几何感知的多视角融合 大家都知道,现实生活中大多机器人通常不止一个摄像头:一般是顶视看全局,腕部相机看手边细节。 但事实上多视角并不会天然对齐,简单做跨视角注意力,模型很容易把它学成特征混合,看起来相关就连在一起,却未必符合真实空间关系,于是WALL-WM用了两个机制来解决—— 一个是**视锥掩码** 。 它会根据相机标定信息,判断两个图像块在三维空间里有没有可能看到同一片区域,物理上对不上的关联,直接从注意力路径里切掉,这样一来,模型跨视角看过去的地方,至少先符合真实世界的几何关系。 另一个是**管状掩码** 。 它会随机遮掉某个视角里一段连续的时空区域,让模型不能只靠单一视角内部的时间信息补答案,只能从其他相机里找线索。 一个限制错误连接,一个制造跨视角需求,配合免标定、此外可学习的相机旋转位置编码,天然⽀持多本体多视角⼤规模混合训练。 这样一来,跨视角注意力就从可有可无的能力,变成训练中反复使用的几何对应能力。 # 阶梯式思维链解码 在真实物理场景中,机器人做复杂任务时,往往需要「想一想」具体怎么做。 CoT能提升这类决策质量,但传统逐token生成太慢,对聊天模型来说慢一点还能接受;对机器人来说动作控制可等不起… 针对这个问题,WALL-WM给出的解法是:用**Staircase Layer-Relay CoT Decoding(阶梯式思维链解码)** ,保留、可读的思维链,同时改造解码方式。 把原本一层层、一个token接一个token的串行过程,拆成「低层只跑一次,高层阶梯式展开」。 具体来说,底层负责抽取共用的推理状态,只做一次;后面的多个思维token则在高层并行完成。 它生成的仍是连续CoT latent,但这些latent可以通过冻结LLM还原为文本推理轨迹,因此保留了一定可解释性,同时减少逐token解码带来的延迟。 这样一来,可解释性与实时性,第⼀次不⽤⼆选⼀。 # 事件级世界模型背后,是一次从数据到部署的系统级重构 WALL-WM真正想解决的,远不止模型结构的事件级改造。 背后真正撑起这套能力的,还有一套从数据采集、层级标注到采样训练的一整套「系统工程」。 在数据结构上,WALL-WM没有只依赖机器人真机数据,而是搭了一个**数据金字塔** 。 底层是百万级网络通用视频,用来补足开放世界里的视觉和运动先验;再往上,是人类动作视频、第一视角视频、公开机器人数据、自采视频-动作数据。 而最顶端,才是真机接管、纠错和恢复数据。 每⼀层都是对上⼀层某条约束的可控放松,越往上越贴近真机部署, 越往下越接近开放世界的视觉先验。 不仅如此,为了让事件真正进入训练,WALL-WM没有把一条机器人轨迹当成一整段视频粗暴喂给模型。 而是采用了**四级层级化标注+双聚类采样** 的方式,把每条轨迹拆成任务、子任务、动作、片段四层,这样模型看到的就不再是混在一起的长序列,而是一个个边界更清楚的行为单元。 论文里还有一个很值得注意的发现,那就是当文本描述按照动作边界被切分后,语言分布和视觉-语言联合分布都变得更均衡了。 这也意味着,原本容易被淹没在长任务里的稀有指令、特殊场景组合,会更自然地在训练阶段暴露给模型。 这样的方式不仅帮助模型理解动作边界,也顺手改善了数据分布,让长尾样本更容易被训练到~ 除了模型和数据,WALL-WM还专门补了一块**底层训练系统** 。 目前事件级建模要同时处理视频、动作、多视角和长序列,训练成本非常高,如果系统撑不住,方法再好也很难真正放大! 而自变量团队给出的解法是,采用**分布式「Muon」** 来提升收敛和稳定性(DMuon),并用多事件打包,把多个事件塞进同一条长序列里训练,降低单条样本带来的计算浪费。 到了部署阶段,再通过蒸馏减少去噪步数,用FP8量化降低显存和推理成本,让这套大模型更接近机器人实时控制所需的延迟,让模型更适合实时控制。 # 实验结果 在具体实验环节,WALL-WM的价值则一步体现在大规模「真机泛化能力」上。 其不仅能执行固定模板任务,还能支持不同粒度的event-centric文本输入,不仅如此,在新指令、新物体、新场景和新任务、新本体里继续完成动作推理与执行。 * **Embodied Video Generation:** 相比Wan2.1/Wan2.2,WALL-WM在Motion Quality、Semantic Consistency、Physical Plausibility三个具身相关维度全面领先: * **3D Awareness(CO3Dv2):** 在Point Error与Depth Error上优于WAN2.1-14B、Open-Sora 2.0、V-JEPA、DINOv2: * **真机Core15 L1基准:** 基础任务、推理任务、灵巧操作、泛化场景下取得的任务完成分数,均显著超过π0.5、DreamZero,在抽象指令设定下是当前完成度最高的L1模型之一: 论文开头,自变量机器人团队引用了柏拉图《斐德罗篇》中的一句话—— **依乎天理,因其固然。** 放到整个具身智能行业里来看,这句话很值得深思,也恰恰点出了WALL-WM的核心—— 物理世界的真实任务,从来不会按照固定时间窗口整齐发生,它更像一串自然衔接的事件,伸手、接触、抓取、移动、放下,每一个关键变化,都对应着动作里的**自然关节** 。 而WALL-WM做的,就是让模型沿着这些「事件关节」去理解世界、预测变化、生成动作。 而这,也给机器人的泛化能力找到了一个更自然的支点: 当语言变了、物体变了、场景变了、任务组合变了甚至本体变了,机器人依然可以顺着事件边界判断,现在进行到哪一步,下一步世界会怎么变,动作又该如何落下去。 目前,具身智能行业的竞争正在从跑分和Demo演示走向真实部署,行业比拼也会从谁看起来更会动,走向「谁更能理解变化、组织行动、稳定泛化」。 而自变量机器人这一次,已经用一套自洽的工程化范式,提前把这条路的领先成果摆了出来。 参考链接: [1]GitHub:https://github.com/X-Square-Robot/wall-x [2]项⽬主⻚: https://x2robot.com/pages/wm _版权所有,未经授权不得以任何形式转载及使用,违者必究。_ [自变量机器人](https://www.qbitai.com/tag/%e8%87%aa%e5%8f%98%e9%87%8f%e6%9c%ba%e5%99%a8%e4%ba%ba) * [什么!你说胡彦斌也在苦修Vibe Coding](https://www.qbitai.com/2026/05/423213.html "什么!你说胡彦斌也在苦修Vibe Coding") _2026-05-24_ * [卷到今天,Agent的含金量还在提升丨AIGC2026圆桌论坛](https://www.qbitai.com/2026/05/423421.html "卷到今天,Agent的含金量还在提升丨AIGC2026圆桌论坛") _2026-05-24_ * [谷歌CEO承认Coding落后了](https://www.qbitai.com/2026/05/423390.html "谷歌CEO承认Coding落后了") _2026-05-24_ * [融资700亿!DeepSeek Code真要来了,ACM金牌大神崔添翼挂帅](https://www.qbitai.com/2026/05/422624.html "融资700亿!DeepSeek Code真要来了,ACM金牌大神崔添翼挂帅") _2026-05-22_ ### 相关阅读 [ ](https://www.qbitai.com/2026/01/369147.html) #### [具身智能开年最大融资,字节红杉领投10亿](https://www.qbitai.com/2026/01/369147.html) [henry](/?author=47850)2026-01-12 __[基础模型](https://www.qbitai.com/tag/%e5%9f%ba%e7%a1%80%e6%a8%a1%e5%9e%8b) [自变量机器人](https://www.qbitai.com/tag/%e8%87%aa%e5%8f%98%e9%87%8f%e6%9c%ba%e5%99%a8%e4%ba%ba) [ ](https://www.qbitai.com/2026/01/367464.html) #### [开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!](https://www.qbitai.com/2026/01/367464.html) 具身智能前沿发展,正由开源模型共同推动向前 [西风](/?author=47833)2026-01-08 __[具身智能](https://www.qbitai.com/tag/%e5%85%b7%e8%ba%ab%e6%99%ba%e8%83%bd) [自变量机器人](https://www.qbitai.com/tag/%e8%87%aa%e5%8f%98%e9%87%8f%e6%9c%ba%e5%99%a8%e4%ba%ba) [ ](https://www.qbitai.com/2025/09/329142.html) #### [开放全栈!超越π0,具身智能基础大模型迎来真·开源,开发者狂喜](https://www.qbitai.com/2025/09/329142.html) “让行业以最低成本获得最强基座” [衡宇](/?author=54)2025-09-08 __[具身智能大模型](https://www.qbitai.com/tag/%e5%85%b7%e8%ba%ab%e6%99%ba%e8%83%bd%e5%a4%a7%e6%a8%a1%e5%9e%8b) [开源](https://www.qbitai.com/tag/%e5%bc%80%e6%ba%90) [自变量机器人](https://www.qbitai.com/tag/%e8%87%aa%e5%8f%98%e9%87%8f%e6%9c%ba%e5%99%a8%e4%ba%ba) [ ](https://www.qbitai.com/2025/12/363184.html) #### [自变量王潜:具身智能是物理世界的独立基础模型|MEET2026](https://www.qbitai.com/2025/12/363184.html) 让AI来定义硬件 [一水](/?author=47840)2025-12-21 __[自变量机器人](https://www.qbitai.com/tag/%e8%87%aa%e5%8f%98%e9%87%8f%e6%9c%ba%e5%99%a8%e4%ba%ba) [ ](https://www.qbitai.com/2026/04/404446.html) #### [全球首个世界统一模型发布,机器人家庭成员来了!](https://www.qbitai.com/2026/04/404446.html) 首个世界统一模型,来了 [梦瑶](/?author=47854)2026-04-22 __[自变量机器人](https://www.qbitai.com/tag/%e8%87%aa%e5%8f%98%e9%87%8f%e6%9c%ba%e5%99%a8%e4%ba%ba)