世界引擎:Post-Training开启Physical AGI

2026-04-22 08:25:24 · chineseheadlinenews.com · 来源: 机器之心

一年前,DeepSeek R1 横空出世,人们才意识到,真正让模型产生推理能力质变的,不必是更大的预训练规模 —— 后训练,用强化学习、过程奖励、闭环反馈,以极低的代价解锁了原本需要数倍算力才能触达的能力边界。

这场范式革命,正在物理世界重演。

自动驾驶系统已经在海量驾驶数据上完成了预训练,但距离真正的 Physical AGI,仍有一道鸿沟:模型知道 "该怎么开",却不知道“为什么这样开更好”。真正的进化,需要闭环、需要反馈、需要在与世界的交互中不断修正。

香港大学李弘扬团队联合华为、上海创智学院及清华大学李升波教授团队,共同给出了他们的答案——世界引擎:以后训练为核心范式,以闭环仿真为训练环境,驱动自动驾驶系统在海量真实与合成场景的交互中,涌现出真正的决策能力。

代码地址:https://github.com/OpenDriveLab/WorldEngine

主页:https://opendrivelab.com/WorldEngine/

作为自动驾驶领域的重要学术力量,2022 年底,OpenDriveLab 推出 UniAD—— 第一个将感知、预测、规划统一在单一框架下的端到端系统,以“规划为中心”重新定义了自动驾驶的建模范式,成为学术界公认的里程碑。

但 UniAD 之后,一个更深的问题浮出水面:端到端系统在学术 benchmark 上表现优异,真实世界却是另一回事。

雨夜里逆行的电动车,施工路段突然倒下的锥桶,大客车后方的鬼探头 —— 这些长尾场景,在训练数据里几乎不存在。靠更大的数据集、更深的网络,无法根本性地解决。

OpenDriveLab 开始从两个方向同时推进。一方面,MTGS 通过多次遍历的 3D 高斯泼溅技术,构建出高保真的可渲染驾驶场景 —— 这是闭环仿真的物理基础。另一方面,Nexus、Omega 等世界模型工作聚焦于反事实难例高动态交互模拟,突破真实数据对长尾场景覆盖的天然局限。

至此,一个核心问题自然浮现:有了高保真仿真环境,有了能生成难例的世界模型,如何让端到端系统真正在其中安全进化?

答案,就是后训练。

2025 年 4 月,华为发布 ADS 4.0,正式披露了全新技术架构 WEWA。其中云端核心 World Engine,正是华为与 OpenDriveLab 联合开发的成果。(https://auto.huawei.com/cn/ads)华为将这套架构的目标定义为:面向自动驾驶,从类人到超人。

World Engine,由此登场。

World Engine:迈向物理 AI 的后训练时代

如果说预训练让自动驾驶系统学会了“模仿”,那后训练要解决的,是如何让系统学会“判断”。

World Engine 的设计哲学,正是围绕这一目标展开。它不是一个单一模型,而是一套完整的后训练 pipeline,由三个核心能力构成:

3DGS 仿真环境 —— 基于 3DGS 构建的高保真视觉输入,为后训练提供了真正意义上的闭环反馈。系统的每一个决策,都能在环境中得到即时响应,而不是停留在数据回放。

难例挖掘 & 扩散生成 —— 真实世界的长尾场景稀缺且难以复现。World Engine 首先从海量真实驾驶数据中主动挖掘难例,再以世界模型为工具,对这些难例进行扩散生成后,依托仿真环境进行渲染,放大长尾场景的密度与多样性,让系统在训练中“见过”它在路上可能遇到的一切。

基于强化学习的后训练 ——World Engine 在仿真生成的大规模难例场景上,以强化学习驱动系统优化,将安全价值规范内化为奖励信号,让系统不只是“开得快”,更是“开得对”。

三者协同,构成了一个完整的飞轮:仿真生成难例,难例驱动后训练,后训练强化决策能力。

图 1 World Engine 架构总览

从暴露弱点到超越弱点

三个模块,一套飞轮。

难例挖掘与扩散生成

World Engine 首先让模型“自己暴露弱点”。将预训练好的端到端模型在训练集上做开环推理,以 PDMS 作为评判标准,自动筛选出模型表现差的场景 —— 碰撞、偏离道路、自车停滞不前。这些场景,就是模型的能力边界所在。

挖掘出难例之后,World Engine 并不止步于此。行为世界模型(Behaviour World Model) 以解耦扩散的方式,对这些难例场景进行变体生成 —— 在保持真实地图拓扑与场景布局的前提下,引入对抗性交通行为,批量合成高密度的安全关键场景。真实数据的长尾,由此被系统性地放大。

图 2 难例扩散生成典型 case

高保真闭环仿真

难例场景需要一个足够真实的舞台。World Engine 内置了基于 3DGS 的场景重建 pipeline—— 融合同一路段的多次真实驾驶记录,构建出扎根于真实世界的高保真三维场景。这不是凭空生成的虚拟沙盒,而是闭环训练的真实物理基础。

图 3 高保真闭环仿真效果图

基于强化学习的后训练

有了大规模难例数据,World Engine 以离线强化学习驱动端到端模型持续优化。奖励信号将舒适性、避障、道路合规等安全价值直接内化为训练目标。模型不再只是模仿人类驾驶员,而是在与难例的反复博弈中,学会真正的安全决策。

图 4 navsim 测试难例集对比

World Engine 发现了什么?

数据量上做加法,不如在训练范式上做乘法

图 5 验证 Data Scaling: 将预训练数据集场景数量从 12k 增广至 103k 进行对比

自动驾驶行业有一个长期信仰:数据越多,模型越安全。World Engine 给出了一个更复杂的答案。

将预训练数据从 1.3 万个场景一路扩大到 10.3 万个,在日常驾驶场景上,scaling law 如期生效 —— 数据越多,表现越好。但在安全关键的长尾场景上,曲线很快躺平。原因并不意外:真实路测中危险场景本就极度稀缺,堆再多常规数据,模型在关键时刻依然束手无策。

数据 scaling,在长尾场景这件事上,撞上了天花板。

World Engine 的后训练给出了另一条路径:在仿真环境中以强化学习反复博弈难例场景,将避障、合规、舒适性直接编码为优化目标,同时确保系统不丢失预训练阶段习得的基础驾驶能力。从同一个基础模型出发,后训练直接跨越了 scaling 曲线,实现了等效于将预训练数据扩大约 14 倍的闭环性能增益。

一块都不能少

后训练有效,但增益从何而来?World Engine 对自身的三个核心模块做逐一拆解。

图 6 navsim 数据集上不同训练后范式对比

光喂数据没用。 拿到稀有场景数据,模仿学习几乎不改善闭环表现。模型学会了“照做”,没学会“判断”。强化学习才是那个开关。

练什么比怎么练更重要。 同样是强化学习,在普通场景上练,闭环成功率反而下降 —— 就像一个学生只刷简单题,考试遇到难题反而更慌。只有聚焦难例,能力才真正提升。

仿真不是有就行,得“活”起来。 当仿真里的其他车辆只是录像回放,收益有限;当它们开始对自车行为做出反应、甚至主动制造对抗,闭环成功率从 76% 一路拉到 89% 。World Engine 的行为世界模型,补上的正是这最后一环。

从仿真到路测:World Engine 的工业级答卷

学术 benchmark 之外,World Engine 接受了一次更严苛的考验 —— 华为 ADS 系统的工业级验证。

基础模型在超过 8 万小时真实驾驶数据上完成预训练,覆盖全国 100 余座城市、逾千万条驾驶片段。这已经是一个极强的起点。World Engine 后训练在此基础上继续发力。

工业闭环仿真

图 7 ADS 工业级闭环仿真结果对比

团队利用华为 ADS 的工业级闭环仿真平台对后训练模型进行了全面评估 —— 超过 1 万个测试场景,累计模拟驾驶里程逾 3000 公里,全部为高密度交互的事件性场景,而非平淡的常规巡航。结果横跨六项安全指标,全面改善,其中切入碰撞更是下降 45.5%。

实车路测

仿真之后,World Engine 走上了上海真实路面。测试路线涵盖城市快速路与城区道路,总计约 200 公里,重复测试三次完成。

图 8 上海市内高架测试路线

图 9 上海市城区测试路线

测试覆盖的场景,是城市驾驶中真正让人惊出冷汗的时刻:夜间施工区的临时改道、行人从视觉盲区横穿、无保护左转后的施工区。 这些场景的共同特征是 —— 即便是经验丰富的人类驾驶员,也需要高度集中注意力,稍有迟疑就可能出事。

典型实车场景 1

典型实车场景 2

典型实车场景 3

而 World Engine 后训练模型全程无需人工介入。

Post Training,不止于自动驾驶

World Engine 的故事,从自动驾驶出发。但它真正想回答的问题,远不止于此。

回到最核心的洞见:当真实世界无法为你提供足够的关键失败场景时,就主动去创造它们。 在这些失败中反复博弈,在这些边界上持续进化。这个逻辑,和驾驶无关 —— 它是所有 Physical AI 系统共同面临的根本困境。

Physical AI 与数字 AI 最本质的区别,在于不可逆性。语言模型说错一句话,刷新重来;推荐系统给错一个结果,下一次纠正。但物理世界里,机器人打碎了一个杯子,手术机器人划错了一刀,自动驾驶追尾了一辆车 —— 错误已经发生,无法撤销。这意味着,Physical AI 必须在真正上线之前,就已经 "见过" 那些最危险的时刻。

但现实是,这些最危险的时刻,恰恰是最难收集的数据。

这些领域,和自动驾驶面对的是同一个结构性困境:最需要学习的场景,天然地缺席于训练数据。

World Engine 提供的范式正是针对这一困境的系统性回答。具体的技术实现会因领域而异:3DGS 渲染可以换成物理引擎或视频世界模型,行为世界模型可以换成机械臂动力学仿真或人体运动生成 —— 但核心逻辑不变:不被动等待数据,主动生成经验;不只模仿人类,在与世界的博弈中涌现能力。

OpenDriveLab 正在将这条路延伸到更广阔的具身智能领域。从端到端自动驾驶出发,走向能在物理世界中感知、推理、行动、进化的通用智能体 —— 这是具身智能研究的终极命题,也是 Physical AGI 真正的意涵所在。

自动驾驶,是这场旅程的第一个战场。

而 Post-Training,将是 Physical AGI 时代最重要的基础设施之一。


    24小时新闻排行榜更多>>
  1. 日本坦克“膛炸”酿惨剧!3男死1女重伤 原因曝光
  2. 金塑宝爆雷20亿货款蒸发 数百企业主维权
  3. 马斯克旗下SpaceX:或以600亿美元收购Cursor
  4. 中国AI出海奇景:定价是国内三倍 依然被外国“疯抢”
  5. 加州新建住房持续增加 供应为何极度紧缺
  6. 美军截获中国船送伊朗“礼物” 川普也感意外
  7. 东升西降是根本误判 国进民退是经济毒药
  8. 川普延长停火期限,金价暴跌
  9. 二战中英国为何执意摧毁盟友舰队?
  10. 中国原油版图大洗牌:中东大减25% 这国猛增!
  11. 西班牙斗牛士遭公牛角刺穿直肠
  12. 伊朗两艘满载油轮绕开美国封锁线
  13. 俄罗斯血腥扩张内幕
  14. 乐 可通天地 泣鬼神
  15. 有逆袭力的人物 必备3种修养
  16. 王小洪助理接连换人 公安部高层人事频繁变动
  17. 投资1.25亿,JFK机场8航厦翻新完工
  18. 移民局大规模追查旧案 绿卡、庇护恐遭“回头算账”
  19. 刘涛国民贤妻人设崩塌?
  20. 郑州女孩1700万打赏主播 致其父公司濒临破产
  21. 伊朗未崩塌 进入“集体决策时代” 新权力格局浮现
  22. 中共热炒央企官员醉酒登机旧事 转移军援伊朗热度?
  23. 称截获运往伊朗"礼物",川普暗指中国踩红线
  24. 中共最新司法解释引争议 分析:反腐转向
  25. 杀错人?美国"斩首"温和派高层 伊朗强硬派全面掌权
  26. 中共重判“组党”民众 美西华人集会抗议
  27. 波马花絮
  28. 拿大锤打黎巴嫩耶稣像,以军挨罚
  29. 肠癌新药太猛!32患者全有效 医生:癌症像融化了!
  30. 劳工部长将离职 成2月来第3位下台川普内阁成员
  31. 港府出手!黎智英资产面临全面充公 总额逾亿港元
  32. 纽约男想卖传家宝 竟“扯出40年离奇悬案”
  33. 美男女“扮熊诈保”案:破绽百出落网 终遭法院判刑
  34. 川普宣布“延长停火”:等伊朗提案
  35. 法轮功学员遭中共帮凶袭击 英国政要谴责
  36. 他接掌苹果千亿帝国 苹果换帅背后:AI压力全面来袭
  37. 康明凯警告:加中协议酿依赖和胁迫
  38. 航迹图曝!又1艘伊朗货轮通过海峡 企图硬闯美军封锁
  39. 北约批评中俄核子立场 敦促与美国合作
  40. 袜子在脚上有勒痕是怎么回事?别大意
  41. 川普称将与伊朗达成伟大协议!美股开盘走高
  42. 墨西哥枪手登金字塔疯狂扫射 1死13伤 最小仅6岁
  43. 他头穿洞死在狱中 家属不信“自然死亡” 9年终翻案!
  44. 川普:美国截获中国送给伊朗的“礼物”
  45. 这就是希特勒的牙齿吗?
  46. 党指挥枪还是枪指挥党?说破了是拿着枪指挥党
  47. 美军在印太扣押一艘受制裁船只 与伊朗相关
  48. 中共出手打压 赖总统暂缓出访行程
  49. 教育内卷、中年失业,坐困穷途的他们看起来很眼熟
  50. 照骗啊你!女子失踪4天 警方用美颜照全城找人 结果…
  51. 日经分析:为什么这次美伊会谈真的有可能成功
  52. 全美台湾同乡会谴责中共施压第三国打压台湾
  53. 为星际空间的旅行者1号延寿 NASA关闭一装置
  54. 她拒演王小蒙,17年后活成舞者
  55. 中国人脸识别好恐怖 普通人在街上被一眼认出
  56. 停火不到24小时到期 主谈者万斯仍在白宫未出发
  57. 越来越多日本青年走上街头
  58. 中共党媒批干部“过度请示” 罕见遭公开顶撞
  59. 周永康的儿媳致习近平的公开信再被疯传
  60. 分析:王小洪已被监控 旧部纷被撤 新任大管家无交集