复旦 OpenMOSS(Xipeng Qiu 团队)联合上海创智、新加坡国立 ShowLab,2026 年 5 月扔出了第一份 World Action Models 系统综述(arXiv:2605.12090,配套 GitHub 273 ★)。
它要解决一个具身 AI 圈”人尽皆知却没人定义清楚”的尴尬:VLA(Vision-Language-Action)撞上 World Model,到底应该怎么融合?过去一年 Cosmos、Genie、DreamerV3、UniSim、4DGen、RoboDreamer⋯⋯名字一大堆,没人正式给”VLA 内置世界模型”这个范式取个名。这次综述给取了:World Action Models (WAM)。
为什么是现在#
“在动作前先模拟未来”这事儿,圈内人讨论至少 8 年了。回到 2018 年 Ha & Schmidhuber 的 World Models 论文,甚至 1991 年 Sutton 的 Dyna 架构,骨子里都是同一个想法。那为啥拖到 2026 年才变成范式?
三件事在 2024–2025 年汇合了:
- 视频生成跨越了临界点。 Sora / Veo / Kling 证明大规模视频模型能学到隐式的物理常识——重力、碰撞、刚体、流体——而这正是世界模型最需要的底座。在此之前,预测的”未来帧”质量糙得没法用,连给动作当锚点都不配
- VLA 撞到天花板。 2023–2024 一大波 VLA(RT-2、OpenVLA、π0)证明了”图像 + 语言 → 动作”路线能 scale,但长时程任务和分布外场景失败模式都指向同一个缺陷:模型不知道自己的动作会带来什么后果,只是在”条件反射”
- 互联网视频终于能训了。 VLA 之前严重依赖机器人遥操作数据(Open X-Embodiment 那种量级),成本以美元/小时计。视频生成模型证明了 YouTube 量级的视频流也能训出有用的预测,把数据成本直接拉低三个数量级
WAM 就是这三件事的结晶。综述给它的正式定义是——预测和动作必须在同一个 policy 里联合学习,不能”先训个 VLA,再外挂个世界模型当辅助”。
三个概念的边界#
整篇论文最值得抠的是这三个公式上的差别——它定义了什么不是 WAM。
来源:Wang et al. 2026, Awesome-WAM Project Page
观察 + 语言 → 动作。反应式策略,没有显式的物理演化。
状态 + 动作 → 未来状态。只预测,不可执行。
观察 + 语言 → 未来 + 动作的联合分布,一个 policy 同时输出。
这个边界看着像学术上的吹毛求疵,但它真正划清的是研究问题的归属。世界模型如果只是辅助模块(数据增强器、reward provider),那研究重点还是 policy;但它如果和 action head 联合训练、共享表征,研究问题就变成”如何在一个模型里同时优化两个分布”——完全不同的算法工程。这个公式判别法值得记住,下次看到论文标题里写”VLA + World Model”,先掏出这个分子式比一比。
从 VLA 到 WAM:补丁式 vs 原生式#
在 WAM 这个名字被提出之前,圈子已经在给 VLA “打补丁”加世界模型了。综述把过渡方案画成了下面这张图:
WM 作为 VLA 训练的辅助:左侧用于 imitation learning 数据过滤,右侧用于 RL reward shaping。来源:Awesome-WAM Project Page
两条路线都把 WM 当外挂工具:
- 左边(IL + WM):用世界模型筛选/扩增 imitation learning 数据——比如生成合成的失败轨迹让模型学到 recovery 能力
- 右边(RL + WM):用世界模型当模拟器,policy 在想象的 rollout 里跑 RL,类似 Dreamer 那套
这些方法能 work,但综述用公式判定它们不算 WAM:WM 没和 action generation 共享表征,policy 学完之后 WM 可以扔掉。真正的 WAM 是”模型内部直接长出了预测能力”——预测不是外部 oracle,而是 policy 推理过程的一部分。
这一幕是不是有点眼熟?早期大家给 LLM 外挂检索器(RAG),后来发现”模型内部直接长出长上下文能力”才是正解。WAM 就是具身策略圈的”long-context 时刻”。
两大架构家族#
剩下的设计问题就一个:世界预测和动作生成在结构上怎么耦合? 论文把现存方法切成两类。
级联式:先生成未来帧,再 decode 动作。两段拆开,各自上现成强模型(视频扩散 + action head)。
工程上好搭,调试链路清晰。代价:串行延迟高,预测错误直接传导到动作。
联合式:单一模型同时输出未来和动作,在同一个潜空间里耦合。
延迟低,理论上更鲁棒。代价:训练目标设计复杂(预测损失 vs 动作损失的平衡没有 winning recipe)。
子分类维度还可以继续切:生成模态(像素 vs 潜空间)× 条件机制(动作 / 语言 / 多模态)× 动作 decode(自回归 token vs 扩散头)。
下面这张图把过去三年所有有代表性的 WAM 工作铺成时间-架构二维图。左半 Joint,右半 Cascaded;下面 2024,上面 2026——一眼看清这个领域的演进节奏:
来源:Awesome-WAM Project Page — 论文对应代码已在 GitHub 273 ★ 仓库整理
Cascaded 这一侧 2025 年涌出了 Vidar / Dream2Flow / RIGVid 一批——工程上更好启动,先出货为快。Joint 这一侧 2026 急剧加速,MotoBrain、DexWorldModel、Fast-WAM 都是 2026 初的产物,社区明显在朝联合架构转向。最值得圈起来的是 NVIDIA Cosmos 已经站到 2026 Joint Multi-Stream 区——大厂级世界模型直接当 WAM 用,这是个非常明显的信号。
按这张图的节奏推断,“中期 Cascaded 主导、长期向 Joint 收敛”已经在发生,跟 RAG → long-context 的演化路径神似。一年后再回头看这张图大概会觉得 Cascaded 那一半都成了过渡产品。
这里还有个不太被讨论的暗线:这场仗的赢家不一定是机器人公司,可能是视频模型公司。Cosmos 已经在图上、Genie 系列在 DeepMind 内部迭代、阿里和字节都有大规模视频生成模型——这些团队只要愿意把动作头接上去,就是”现成的 WAM”。反过来,专门做机器人策略的初创公司想自己训世界模型,是要从头打 LVLM 这层基础设施战的。Tesla 有 Dojo 还撑得住,没有视频模型积累的公司这条路真的很难走。
四类数据:成本和质量的反比#
WAM 的数据来源分四类,范式之所以被催生,本质就是因为视频生成证明了”互联网视频可以学到世界动力学”——具身 AI 的数据瓶颈一下被砸开了。单位时间成本差了 3–4 个数量级:
- ~$50/h机器人遥操作
操作员工资 + 硬件折旧。VLA 时代主力,量小且多样性受限。
- ~$5/h便携人体演示
消费级 VR/AR 头显录人做任务。要解决人手到机械手的映射。
- ~$0.05/h模拟环境
GPU 时间。量大便宜可标注,但被 sim-to-real gap 卡住。
- free互联网视频 UNLOCK
YouTube/Ego4D 公开数据。量最大但没动作标签——WAM 范式的关键增量。
但质量也是反向递减的——遥操作有完美的动作标签,互联网视频只有像素流,连相机姿态都得自己估。WAM 范式真正的工程价值是用大模型从最便宜的数据里榨出最贵数据才有的信号:自监督预测让模型学到隐式的动作-状态因果,最后用少量遥操作数据做对齐。
这套思路对独立开发者非常友好——只要你搞得定”从视频学到动作语义”这一步,数据成本直接归零。这也是 OpenMOSS 这种学术团队还能和 Tesla / Figure 这种重资源公司同场竞技的根本原因。
评测怎么打分#
论文整合了三个维度的评测协议。WAM 必须三个都过——前两个偏世界模型评法,第三个偏 policy 评法。
Visual Fidelity
预测的未来帧像不像、清不清晰?有 FID/FVD 这类成熟指标。
Physical Commonsense
物体不会穿墙、重力对、碰撞合理。视频生成模型在这里普遍弱。
Action Plausibility
生成的动作能否在真实/仿真环境里成功执行?policy 价值的最终落点。
三个维度的难度不是平均分布的——Action Plausibility 是最硬的指标,因为它把视觉预测的所有误差最终都”折现”到一个 binary 的 success rate 上。Visual Fidelity 高 + Action Plausibility 低的模型其实很多,意思是”画面看上去对了但动作错了”——这就是当前 Cascaded WAM 最典型的失败模式。
更深一层看,评测才是这个赛道真正的护城河。综述自己也承认 Physical Commonsense 和 Action Plausibility 还没共识 benchmark,谁先做出权威的物理常识评测集(类似 HumanEval 之于代码生成),谁就拿下了定义这个领域的话语权。这是学术团队还能切进来的方向,比直接拼数据和算力性价比高得多。
还没解决的硬骨头#
论文最后一节梳理的、目前没有 winning recipe 的几个问题:
- 物理一致性 vs 视觉真实性的 trade-off — 视频生成模型在像素层面好看,但物理常识依然弱
- 长时程预测漂移 — 多帧之后预测偏离真实分布,越往后越发散
- 联合训练目标设计 — 预测损失和动作损失怎么平衡,论文没给出答案
- 评测标准缺失 — Physical Commonsense 和 Action Plausibility 还没共识 benchmark
- 互联网视频与动作空间对齐 — 第一人称视频没有动作标签,是 WAM 数据扩展的最大瓶颈
顺手抄给软件 Agent 圈#
WAM 的核心思想是 “在动作前先想象,再决定执行”——这套思路原样搬到软件 Agent 上完全不违和:
- Claude Code 的 Plan Mode 就是原始版本的 WAM。Edit/Bash 执行前先生成计划让人 review。问题是这只是”语言层”的想象,并没真模拟执行结果
- 下一步应该是”沙箱预测”:Agent 在隔离环境先跑一遍命令,预测改了哪些文件、报什么错,再决定要不要在主仓库执行。这就把 WAM 的
p(o′ | o, a)在软件领域显式建模出来了 - 数据来源也对得上——遥操作 = 录屏的开发者操作;模拟环境 = Docker 沙箱;互联网视频 = GitHub 全部 commit 历史(一个 commit 就是一对
(o, a, o′),量管够)
具身 AI 圈用了 5 年才让这套范式成型,软件 Agent 圈应该会更快——软件环境完全可仿真、动作空间离散、o → o′ 转换是确定性的,先天条件全比机器人友好。WAM 在机器人圈是”还需要 5 年”的目标,到了软件 Agent 圈,1 年内就该看到成熟产品。
早期信号已经在亮了:Cursor 的 Agent mode 有了”预测要改哪些文件”的 UI;Anthropic 的 Claude Skills 在底层做计划-验证循环;Devin / Cognition 在试图建”软件版世界模型”。这条线值得长期蹲守,下一波 Agent 产品的差异化大概率就出在这里。