最大规模预训练的开源具身世界模型来了

2026-05-31 11:25:29 · chineseheadlinenews.com · 来源: 量子位

具身智能火了快两年,现在,终于有团队富裕到拿真机数据去砸预训练了。

而且一砸,就是17800小时。

这是啥概念?差不多相当于一台机器人,连续两年、一天24小时不停地被人类遥操作。

当所有人都以为真机数据是奢侈品,难以scaling,只能放在最后的微调阶段时。

刚刚,上海创智学院副教授、智元机器人首席科学家罗剑岚带队,发布全球最大规模的开源预训练具身世界模型——

τ0-World Model(τ0-WM)。

整个τ0-WM参数量达到5B,预训练数据规模高达约3万小时。其中,真机遥操作数据第一次成了绝对主力,占到了1.78万小时。

而3万小时的预训练数据,是目前全球开源预训练具身世界模型中最大的。

τ0-WM不仅能像其他世界模型那样预测未来画面、生成动作。

更重要的是,它还结合了测试时计算(Test-Time Computation),让机器人在执行前对多个候选动作进行排序,选出最优方案,质量不够就调用模拟器修正后再执行。

基于这套方法;τ0-WM在四个长程精细操作任务,包括Toolbox(工具收纳)、School Bag(书包装物)、Badminton(羽毛球装盒)和Faucet(水管接头对接)的平均成功率超过了对标π0.5和Fast-WAM。

可以说,罗剑岚团队此前在后训练方面的持续投入,不仅攒出了足够规模的真机数据,也攒出了把这些数据用于大规模预训练的经验。

预训练和后训练这两条线,终于对齐了。

提议、模拟、评估,然后行动

过去几年,驱动机器人实现感知与控制的主流范式,大多是一种反应式的端到端策略:

神经网络看到画面,立刻输出动作。

这种类似于人类“条件反射”的方式,在抓取、放置等标准任务里已经非常成功。

但就像人类其实并不完全依赖肌肉记忆一样,机器人在面对接触密集、长程跨度、或者存在严重遮挡的复杂操作时,单纯依靠“看见场景就输出动作”的方式,也很容易导致不可逆的错误。

很多时候,一步错,后面可能就全错了。

所以,和许多世界模型方法一样,τ0-WM选择让机器人在行动之前,先在脑子里“想象”一下:

如果自己执行了这个动作,未来会发生什么,环境会怎么变化。

但τ0-WM特别的地方在于,它不只“想一次”。

为了让机器人能够三思而后行,研究引入了Test-Time Computation(测试时计算),让机器人在真正执行前,可以多花一点时间,在内部“虚拟沙盘”里并行想象很多次,反复比较,甚至主动纠错。

也就是说,τ0-WM让机器人不再只是看到画面就立刻出手,而是像人一样,先在脑子里盘一遍哪种路线更靠谱,再决定真正怎么做。

某种程度上,这其实是在让机器人学会一种“慢思考”。

具体来说,τ0-WM的在线推理,分成三步。

第一步,提议。

首先,视频动作模型(VAM)会根据当前多视角观测、语言指令以及机器人状态,一次性采样出多组候选动作,同时生成对应的模糊未来画面。

这相当于机器人先在脑子里快速闪过几种可能的做法。

第二步,推演。

其次,动作条件视频模拟器会针对每组候选动作,进一步生成对应的多视角未来画面。

之所以是多视角,是因为真实机器人操作里,正面视角经常会被机械臂或物体挡住,所以模型必须还能“脑补”侧面、顶部等其他视角下的未来状态,才能真正判断动作后果。

第三步,评估与修正。

最后,系统会先用RCS(Re-denoising Consistency Score)给动作打分:把候选动作重新加噪,再丢回模型重新去噪,观察重建误差。

误差越小,说明这个动作越接近模型训练时学到的高质量动作分布,也越靠谱。

但如果最优动作的分数依然不够高,就会触发第二层机制LAR(Low-quality Action Rectification)。

系统会把所有候选动作送进视频模拟器,预测对应未来状态以及任务进度,挑出“任务推进效果最好”的未来画面,再让VAM基于这个“最优未来”重新生成动作。

最终,模型基于这三步走,输出最好的动作。

值得一提的是,虽然很多世界模型在训练时也会预测未来,但部署时为了推理速度,往往会把未来预测模块直接去掉。

τ0-WM则坚持在推理阶段保留“显式未来想象”,并把这些未来画面真正用于后续动作的打分、筛选与修正。

也就是说,对τ0-WM而言,“想象未来”不是训练技巧,而是机器人做决策的一部分。

在这三阶段pipeline背后,τ0-WM主要由两个共享视频扩散backbone组件驱动:

负责“提议动作”的VAM,以及负责“沙盘推演”的动作条件视频模拟器。

前者基于Wan2.2-5B视频生成模型,同时输出未来视频latent和动作chunk;后者则专门负责评估未来状态和任务进度。

而在训练阶段,三类不同来源的数据,也通过modality-specific supervision masks被统一揉进了同一个体系:有动作标签的数据,同时训练视频与动作;没有动作标签的数据,则只训练视频分支。

3万小时预训练数据

接下来,就到了τ0-WM这次最夸张、也最“重资产”的部分:训练数据。

这近3万小时的预训练数据,不只刷新了开源具身世界模型的规模纪录,更重要的是,它正在打破行业对具身智能数据金字塔的固有认知。

整个τ0-WM的训练数据,主要由三部分组成,而且每一类数据的角色都不一样。

第一类,是真机遥操作数据,总量17800小时。

这部分数据来自双臂机器人、多视角采集,而且动作空间和真实部署环境完全对齐。

某种程度上,它也是整个数据体系里“最贵”的部分。

因为真机采集不仅慢,还特别吃人力和硬件资源。但与此同时,它也是质量最高的数据。

这批数据提供了最核心的动作监督信号,可以说是τ0-WM敢做大规模预训练的真正根基。

第二类,是6500小时的UMI数据。

简单来说,UMI(Universal Manipulation Interface)是一种不依赖特定机器人平台的数据采集方式。

相比真机遥操作,它覆盖的物体种类和操作场景会丰富很多。但问题也很明显,它的动作空间,并不完全等同于真实机器人部署时的动作空间。

所以在τ0-WM中,UMI数据更像是在补“行为多样性”。

它不一定最精准,但能让模型见过更多操作方式、更多物体、更多长尾场景。

第三类,则是3000小时的人类第一视角EgoCentric数据。

这部分数据的采集成本最低,但覆盖范围却最大。

里面会包含大量长尾交互行为,以及很多机器人暂时很难专门采集到的真实场景。

不过,它有一个问题:没有机器人动作标签。

也就是说,模型只能“看”,不能直接学“机器人该怎么动”。因此,这部分数据只参与视频分支训练,不参与动作预测。

它更像是在帮助模型学习:物体会怎么运动,人与环境会怎么交互,场景状态会如何变化。

看到这里,其实会冒出一个很自然的问题:

既然人类视频没有动作标签,UMI的数据格式又和真机动作空间不完全一致,那模型到底怎么把它们一起训进去?

τ0-WM这里用了一个很巧的设计——Modality-specific supervision masks(模态特定监督掩码)。

简单来说,对于有动作标签的数据,就同时训练视频和动作,没有动作标签的数据,就把动作部分mask掉,只训练视觉分支。

这样一来,不同来源、不同模态、不同动作空间的数据,就第一次被真正揉进了同一个预训练体系里。

实验结论

在实验部分,团队最核心想验证的一件事,其实就是:

Test-Time Computation(测试时计算),到底有没有用。

在抽纸巾放进盒子和捡笔放进盒子两个任务上,这两个任务在3万小时预训练数据中从未出现过,属于模型完全没见过的新任务。

研究采用了比常规做法更严格的评测标准,不允许重试,单次机会,20轮取平均

结果表明,不加测试时计算时,裸策略平均成功率只有43%。加入第一层RCS动作筛选后,提升到50%。

再叠加LAR模拟器修正之后,最终来到60%。提升最明显的是更难的Pen→Box任务,成功率直接从30%拉到了50%。

此外,研究还专门对比了其他测试时引导方法。同样条件下,Classifier-Free Guidance(CFG)成功率只有20%,Action Coherence Guidance(ACG)为38%,τ0-WM则达到60%。

这里最关键的区别就来自之前提到的,CFG和ACG,本质上还是在检查“动作本身是否连贯”。

而τ0-WM评估的,则是:“这个动作做完之后,未来世界会变成什么样,任务有没有真的往前推进。”

也就是说,前者关注的是动作空间内部的一致性。

而后者,开始真正把“未来后果”纳入了决策。(其余实验细节可参考论文)

数据金字塔,要变样了

如果放到整个具身智能行业的数据路线里看,τ0-WM这次真正特别的地方,其实会更明显。

过去,具身行业的数据体系一直像一个很典型的金字塔。

最底层,是互联网视频数据。

规模最大、最便宜,但没有机器人动作标签,只能让模型学一些通用视觉和世界变化规律。

再往上一层,是仿真数据。

机器人终于开始“动起来”了,但问题在于,仿真和真实物理世界之间,始终隔着一道巨大的sim2real gap。

而金字塔最顶层,则是真机遥操作数据。质量最高,动作空间和真实部署完全一致,但行业过去的普遍认知一直是:

太贵、太少、根本不可能scale。

所以大多数团队,都会把真机数据留到最后微调阶段再用。

但今年,一个新的变化开始出现了,Ego-Centric第一视角数据突然崛起。

大家开始意识到,人类第一视角视频虽然没有机器人动作标签,但它天然包含了大量真实世界里的交互过程、物体变化和长尾操作。

于是整个行业,开始集体all in Ego数据。

某种程度上,Ego-Centric正在变成数据金字塔里的“新中层”,比互联网视频更接近真实交互,又比真机数据便宜得多。

但问题是,绝大多数团队做到这里,其实就停下来了,因为大家仍然默认真机数据依然贵到不可能成为预训练主体。

但τ0-WM第一次把这个逻辑反过来了。

他们一边引入Ego-Centric数据,一边直接用17800小时真机遥操作数据给预训练打底。

这件事也不是突然发生的。

回看罗剑岚团队过去一年多的工作,会发现一条非常清晰的主线,他们搭的不是单点模型,而是一整套真实世界数据飞轮。

2026年1月,SOP搭起了规模化的真机数据采集和回流基础设施。

2026年4月,LWD把大规模强化学习引入具身VLA的后训练,构建了部署即训练的数据飞轮,机器人跑得越多,回流数据越多,模型越强,又能跑更多任务。失败轨迹也第一次被系统性纳入学习。

而当真机交互数据积累跨过某个临界点之后,一件以前没人敢想的事,就自然发生了:

真机数据终于开始从“后训练耗材”,变成“预训练燃料”。

直到这里,具身智能里的“预训练—真机部署—数据回流—再预训练”这条链路,才第一次真正开始跑通。


    24小时新闻排行榜更多>>
  1. 芯片巨头齐聚台湾
  2. 前美官员:UFO解密文件揭外星物质真实存在
  3. SpaceX夺白宫“金穹”大单 马斯克驳斥公司估值下修
  4. 纽时专访赖清德 称台湾是国家 引发陆美互逐记者
  5. 商船违反封锁令 被美军地狱火导弹袭击
  6. 川普尴尬:5名艺术家退出独立250周年庆典
  7. 一律回原籍国申请绿卡?国土安全部:视情况而定
  8. 清华硕士做纹眉师,最高月入10万
  9. 乌克兰扭转局面 收复失地首次超俄罗斯
  10. 鸡蛋含磺胺超标69倍 中国食安事故为何频发?
  11. 美名嘴慨叹 美国的政客总是在快下台时才讲真话
  12. 软银豪掷750亿欧元法国投资AI
  13. 将把川普退税全还给会员?美Costco证实曝原因
  14. 食用油种类繁多如何选?用对了才健康!
  15. 美媒:中国政府警告并要求企业发展AI 但不要裁员
  16. 7名男子凌晨从下水道爬出,警方懵了
  17. 以军攻占黎巴嫩中世纪古堡并升旗
  18. 风暴眼里的500万跨境炒股散户
  19. 清军能入主中原,日军却做不到?
  20. 5死44伤!华人大巴司机酿重大车祸,被曝不会英语
  21. 高端AI算力涨价凶猛,灰色交易暗流涌动
  22. ASML冲击万亿美元市值
  23. 川普亲自出手修改"美伊协议"!嫌不够强硬,要求曝光
  24. 睡眠与延缓衰老相关
  25. 全球最好的文化城市 伦敦居冠 台北亚洲第一
  26. 研究:中共于G7布局“系统性”渗透政策
  27. 四面楚歌被全球“群殴” 习近平正吞下自酿的苦果
  28. 日本熬了30年才走出的深坑,正在悄悄靠近中国
  29. 美防长:AUKUS推水下无人机计划 美英澳合作研发
  30. 大陆雪糕称“不加一滴水” 配料表首项是水
  31. 卡尼策划“中等强国联盟” 救不了加拿大
  32. 在地下2400米寻找答案:永恒有多久?
  33. “空中炸弹卡车”亮相南海
  34. OpenAI官宣退役o3与GPT-4.5
  35. 马刺时隔12年重返总决赛!文班22+7隔扣霍姆格伦
  36. 中国古代具有辟邪功用的器物
  37. 【百年真相】秋收起义 毛骗了所有人?
  38. 这5种天然食物 比燕窝还养人
  39. 问题本身已经不重要了,重要的是:你属于哪一边
  40. 中共极权统治基础已呈现崩塌的迹象
  41. 川普拟设委员会管理美中贸易 企业界盼降税管道
  42. 耿同学为何会有这个下场?
  43. 戈巴契夫访中与赵紫阳面谈 邓小平动了杀机
  44. 现在的学术造假已经侮辱了造假行业
  45. 美军"空袭运毒船"炸死3人,累积击毙200毒贩
  46. 浙江三花智控公司5名高管集体减持股份
  47. 蚊子学习力惊人 竟让防蚊液成为“吸血大餐”讯号
  48. 全球投资者对中国兴趣持续上升
  49. 瑞典将向乌克兰交付36架“鹰狮”
  50. 美司法部巨资补偿川普遭诉盟友 法官裁暂缓执行
  51. 空气炸锅纸致癌?咖啡滤纸含荧光剂?
  52. 日本驳斥“新军国主义”指控
  53. 日本防务大臣否认新军国主义,并批评中国"武器库"
  54. 就业难叠加AI冲击 大陆高校外语院系掀撤并潮
  55. 用电高峰提前,AI和空调开始抢电
  56. 广西水稻育种专家邓国富被查 曾为院士候选人
  57. 阿联酋数十次空袭伊朗,遭飞弹报复
  58. 多城近50℃,印度为什么这么热?
  59. "车""油""死猪",全球性迷奸网络和对迷药来源的探寻
  60. 上海楼市为何先止跌?哪些城市有望跟进?