最大规模预训练的开源具身世界模型来了-墙外头条

具身智能火了快两年，现在，终于有团队富裕到拿真机数据去砸预训练了。

而且一砸，就是17800小时。

这是啥概念？差不多相当于一台机器人，连续两年、一天24小时不停地被人类遥操作。

当所有人都以为真机数据是奢侈品，难以scaling，只能放在最后的微调阶段时。

刚刚，上海创智学院副教授、智元机器人首席科学家罗剑岚带队，发布全球最大规模的开源预训练具身世界模型——

τ0-World Model（τ0-WM)。

整个τ0-WM参数量达到5B，预训练数据规模高达约3万小时。其中，真机遥操作数据第一次成了绝对主力，占到了1.78万小时。

而3万小时的预训练数据，是目前全球开源预训练具身世界模型中最大的。

τ0-WM不仅能像其他世界模型那样预测未来画面、生成动作。

更重要的是，它还结合了测试时计算（Test-Time Computation），让机器人在执行前对多个候选动作进行排序，选出最优方案，质量不够就调用模拟器修正后再执行。

基于这套方法；τ0-WM在四个长程精细操作任务，包括Toolbox（工具收纳）、School Bag（书包装物）、Badminton（羽毛球装盒）和Faucet（水管接头对接）的平均成功率超过了对标π0.5和Fast-WAM。

可以说，罗剑岚团队此前在后训练方面的持续投入，不仅攒出了足够规模的真机数据，也攒出了把这些数据用于大规模预训练的经验。

预训练和后训练这两条线，终于对齐了。

提议、模拟、评估，然后行动

过去几年，驱动机器人实现感知与控制的主流范式，大多是一种反应式的端到端策略：

神经网络看到画面，立刻输出动作。

这种类似于人类“条件反射”的方式，在抓取、放置等标准任务里已经非常成功。

但就像人类其实并不完全依赖肌肉记忆一样，机器人在面对接触密集、长程跨度、或者存在严重遮挡的复杂操作时，单纯依靠“看见场景就输出动作”的方式，也很容易导致不可逆的错误。

很多时候，一步错，后面可能就全错了。

所以，和许多世界模型方法一样，τ0-WM选择让机器人在行动之前，先在脑子里“想象”一下：

如果自己执行了这个动作，未来会发生什么，环境会怎么变化。

但τ0-WM特别的地方在于，它不只“想一次”。

为了让机器人能够三思而后行，研究引入了Test-Time Computation（测试时计算），让机器人在真正执行前，可以多花一点时间，在内部“虚拟沙盘”里并行想象很多次，反复比较，甚至主动纠错。

也就是说，τ0-WM让机器人不再只是看到画面就立刻出手，而是像人一样，先在脑子里盘一遍哪种路线更靠谱，再决定真正怎么做。

某种程度上，这其实是在让机器人学会一种“慢思考”。

具体来说，τ0-WM的在线推理，分成三步。

第一步，提议。

首先，视频动作模型（VAM）会根据当前多视角观测、语言指令以及机器人状态，一次性采样出多组候选动作，同时生成对应的模糊未来画面。

这相当于机器人先在脑子里快速闪过几种可能的做法。

第二步，推演。

其次，动作条件视频模拟器会针对每组候选动作，进一步生成对应的多视角未来画面。

之所以是多视角，是因为真实机器人操作里，正面视角经常会被机械臂或物体挡住，所以模型必须还能“脑补”侧面、顶部等其他视角下的未来状态，才能真正判断动作后果。

第三步，评估与修正。

最后，系统会先用RCS（Re-denoising Consistency Score）给动作打分：把候选动作重新加噪，再丢回模型重新去噪，观察重建误差。

误差越小，说明这个动作越接近模型训练时学到的高质量动作分布，也越靠谱。

但如果最优动作的分数依然不够高，就会触发第二层机制LAR（Low-quality Action Rectification）。

系统会把所有候选动作送进视频模拟器，预测对应未来状态以及任务进度，挑出“任务推进效果最好”的未来画面，再让VAM基于这个“最优未来”重新生成动作。

最终，模型基于这三步走，输出最好的动作。

值得一提的是，虽然很多世界模型在训练时也会预测未来，但部署时为了推理速度，往往会把未来预测模块直接去掉。

τ0-WM则坚持在推理阶段保留“显式未来想象”，并把这些未来画面真正用于后续动作的打分、筛选与修正。

也就是说，对τ0-WM而言，“想象未来”不是训练技巧，而是机器人做决策的一部分。

在这三阶段pipeline背后，τ0-WM主要由两个共享视频扩散backbone组件驱动：

负责“提议动作”的VAM，以及负责“沙盘推演”的动作条件视频模拟器。

前者基于Wan2.2-5B视频生成模型，同时输出未来视频latent和动作chunk；后者则专门负责评估未来状态和任务进度。

而在训练阶段，三类不同来源的数据，也通过modality-specific supervision masks被统一揉进了同一个体系：有动作标签的数据，同时训练视频与动作；没有动作标签的数据，则只训练视频分支。

3万小时预训练数据

接下来，就到了τ0-WM这次最夸张、也最“重资产”的部分：训练数据。

这近3万小时的预训练数据，不只刷新了开源具身世界模型的规模纪录，更重要的是，它正在打破行业对具身智能数据金字塔的固有认知。

整个τ0-WM的训练数据，主要由三部分组成，而且每一类数据的角色都不一样。

第一类，是真机遥操作数据，总量17800小时。

这部分数据来自双臂机器人、多视角采集，而且动作空间和真实部署环境完全对齐。

某种程度上，它也是整个数据体系里“最贵”的部分。

因为真机采集不仅慢，还特别吃人力和硬件资源。但与此同时，它也是质量最高的数据。

这批数据提供了最核心的动作监督信号，可以说是τ0-WM敢做大规模预训练的真正根基。

第二类，是6500小时的UMI数据。

简单来说，UMI（Universal Manipulation Interface）是一种不依赖特定机器人平台的数据采集方式。

相比真机遥操作，它覆盖的物体种类和操作场景会丰富很多。但问题也很明显，它的动作空间，并不完全等同于真实机器人部署时的动作空间。

所以在τ0-WM中，UMI数据更像是在补“行为多样性”。

它不一定最精准，但能让模型见过更多操作方式、更多物体、更多长尾场景。

第三类，则是3000小时的人类第一视角EgoCentric数据。

这部分数据的采集成本最低，但覆盖范围却最大。

里面会包含大量长尾交互行为，以及很多机器人暂时很难专门采集到的真实场景。

不过，它有一个问题：没有机器人动作标签。

也就是说，模型只能“看”，不能直接学“机器人该怎么动”。因此，这部分数据只参与视频分支训练，不参与动作预测。

它更像是在帮助模型学习：物体会怎么运动，人与环境会怎么交互，场景状态会如何变化。

看到这里，其实会冒出一个很自然的问题：

既然人类视频没有动作标签，UMI的数据格式又和真机动作空间不完全一致，那模型到底怎么把它们一起训进去？

τ0-WM这里用了一个很巧的设计——Modality-specific supervision masks（模态特定监督掩码）。

简单来说，对于有动作标签的数据，就同时训练视频和动作，没有动作标签的数据，就把动作部分mask掉，只训练视觉分支。

这样一来，不同来源、不同模态、不同动作空间的数据，就第一次被真正揉进了同一个预训练体系里。

实验结论

在实验部分，团队最核心想验证的一件事，其实就是：

Test-Time Computation（测试时计算），到底有没有用。

在抽纸巾放进盒子和捡笔放进盒子两个任务上，这两个任务在3万小时预训练数据中从未出现过，属于模型完全没见过的新任务。

研究采用了比常规做法更严格的评测标准，不允许重试，单次机会，20轮取平均

结果表明，不加测试时计算时，裸策略平均成功率只有43%。加入第一层RCS动作筛选后，提升到50%。

再叠加LAR模拟器修正之后，最终来到60%。提升最明显的是更难的Pen→Box任务，成功率直接从30%拉到了50%。

此外，研究还专门对比了其他测试时引导方法。同样条件下，Classifier-Free Guidance（CFG）成功率只有20%，Action Coherence Guidance（ACG）为38%，τ0-WM则达到60%。

这里最关键的区别就来自之前提到的，CFG和ACG，本质上还是在检查“动作本身是否连贯”。

而τ0-WM评估的，则是：“这个动作做完之后，未来世界会变成什么样，任务有没有真的往前推进。”

也就是说，前者关注的是动作空间内部的一致性。

而后者，开始真正把“未来后果”纳入了决策。（其余实验细节可参考论文）

数据金字塔，要变样了

如果放到整个具身智能行业的数据路线里看，τ0-WM这次真正特别的地方，其实会更明显。

过去，具身行业的数据体系一直像一个很典型的金字塔。

最底层，是互联网视频数据。

规模最大、最便宜，但没有机器人动作标签，只能让模型学一些通用视觉和世界变化规律。

再往上一层，是仿真数据。

机器人终于开始“动起来”了，但问题在于，仿真和真实物理世界之间，始终隔着一道巨大的sim2real gap。

而金字塔最顶层，则是真机遥操作数据。质量最高，动作空间和真实部署完全一致，但行业过去的普遍认知一直是：

太贵、太少、根本不可能scale。

所以大多数团队，都会把真机数据留到最后微调阶段再用。

但今年，一个新的变化开始出现了，Ego-Centric第一视角数据突然崛起。

大家开始意识到，人类第一视角视频虽然没有机器人动作标签，但它天然包含了大量真实世界里的交互过程、物体变化和长尾操作。

于是整个行业，开始集体all in Ego数据。

某种程度上，Ego-Centric正在变成数据金字塔里的“新中层”，比互联网视频更接近真实交互，又比真机数据便宜得多。

但问题是，绝大多数团队做到这里，其实就停下来了，因为大家仍然默认真机数据依然贵到不可能成为预训练主体。

但τ0-WM第一次把这个逻辑反过来了。

他们一边引入Ego-Centric数据，一边直接用17800小时真机遥操作数据给预训练打底。

这件事也不是突然发生的。

回看罗剑岚团队过去一年多的工作，会发现一条非常清晰的主线，他们搭的不是单点模型，而是一整套真实世界数据飞轮。

2026年1月，SOP搭起了规模化的真机数据采集和回流基础设施。

2026年4月，LWD把大规模强化学习引入具身VLA的后训练，构建了部署即训练的数据飞轮，机器人跑得越多，回流数据越多，模型越强，又能跑更多任务。失败轨迹也第一次被系统性纳入学习。

而当真机交互数据积累跨过某个临界点之后，一件以前没人敢想的事，就自然发生了：

真机数据终于开始从“后训练耗材”，变成“预训练燃料”。

直到这里，具身智能里的“预训练—真机部署—数据回流—再预训练”这条链路，才第一次真正开始跑通。