不是什么都叫“世界模型”,李飞飞给出新定义

2026-06-04 22:26:05 · chineseheadlinenews.com · 来源: 腾讯科技

不是什么都叫“世界模型”,李飞飞给出新定义

斯坦福大学AI科学家、World Labs创始人李飞飞。图片经由AI处理

文丨谢瑞瑞

编辑丨徐青阳

“世界模型”是过去两年AI领域最常被提及的概念之一,但它的含义正在变得越来越模糊。

视频生成模型、语言模型,甚至连物理引擎都能自称是世界模型。

斯坦福大学AI科学家、World Labs创始人李飞飞于6月4日撰文,专门回应这种混乱。她开篇便给出判断:世界模型是当今AI领域最重要、也最被滥用的术语之一。

她在文中写道,连古希腊人都没给“世界”下过一个统一、公认的定义。“世界”从来不是一个具体的事物,今天,AI也继承了同样的问题——世界模型的边界在哪里?

李飞飞的解决思路很明确:先分清世界模型的三个核心功能——渲染、模拟、规划。

01 理解世界模型的钥匙,是一张旧图

在展开论述之前,李飞飞先回顾了一张在强化学习领域使用了几十年的框架图:部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)。这个框架的名称很复杂,但逻辑却简明。



李飞飞将目前的世界模型系统分为三类,分别是渲染器、模拟器以及规划器

它描述的是一个循环:智能体采取行动,行动改变世界的状态,智能体从环境中获得观测值,再依据观测采取下一步行动。循环持续进行。

文中的“状态”,指的是物理学和机器人学中的概念:在某个时刻对世界状况的完整描述,涵盖每一个物体、每一个位置、每一组速度和每一项属性,对身处其中的任何智能体而言,永远无法被完全直接感知。我们能得到的,只是对现实的部分观测。

李飞飞进一步指出,这个由“智能体—行动—状态—观测—回到智能体”构成的闭环,赋予了现代世界模型真正的技术内核。

“世界模型”概念,最早可以追溯到1943年,由心理学家肯尼斯·克雷克(Kenneth Craik)在1943年提出,即大脑通过运行现实的“小辨模模型”来进行推理。到了20世纪80年代末、90年代初,这个概念被引入神经网络研究。而今天,所有被称为世界模型的事物,本质上都是同一个循环在不同方向上的投影,每一类只输出循环中的一个片段。

02 三类世界模型:渲染器、模拟器与规划器

李飞飞认为,当前所有自称世界模型的系统可分为三类:渲染器、模拟器和规划器。

第一类世界模型是渲染器。它的输出是供人眼观看的像素,核心评估指标是视觉逼真度。



渲染器主要负责生成视觉画面,最主要的考核标准是逼真度

能将文本提示转化为电影级航拍镜头的视频生成模型属于这一类,谷歌的Genie 3、World Labs自研的RTFM等交互式生成系统也在此列。这类模型对三维结构没有显式理解,它们生成的是观众“会看到什么”,而不是“现实本身是什么”。

李飞飞在文中举了一个例子:航拍镜头中的建筑从上方看可能完美无缺,但如果试图驱车穿过下方的城市,画面就会分崩离析。原因很简单,渲染器的契约纯粹是视觉上的,它并不对画面背后的物理结构承担任何责任。

渲染器是当前商业落地最成熟的一类世界模型。谷歌的Nano Banana已经将渲染级别的图像生成能力交付到数亿用户手中。

但它的天花板同样清晰——渲染器优化的是视觉合理性,而非物理准确性。它的输出令人赞叹,但不能被信赖去设计建筑或训练机器人。李飞飞对此总结道:渲染器的输出固然美丽,但你无法信任它们去承担那些与现实世界紧密结合的任务。

第二类世界模型是模拟器。它输出的不是像素,而是状态,是一种在几何、物理和动力学层面高度保真的世界表征。



模拟器的职责是构建符合物理规则的三维结构

模拟器的契约是结构性的:几何必须经得起审视,物理必须尊重客观规律,动力学表现必须符合现实约束。

它同时服务于两类受众:一类是人类专业人士,包括建筑师、设计师、电影制作人和游戏开发者;另一类是计算机程序,包括强化学习智能体、机器人控制器和自动驾驶汽车,它们将模拟器作为训练场,测试那些在现实中过于危险或昂贵的场景。

李飞飞在文中有这样一段论述:如果说语言是对世界的一种抽象描述,像素是对世界的一种视觉投影,那么几何、物理和动力学才是世界的本来面目。模拟器必须建立在这个层面之上。

她举例说,模拟器生成的几何结构和物理规则就像一副骨骼——渲染器所需要的视觉外观、规划器所依赖的行动后果,都是从这副骨骼上生长出来的。

这意味着,一个精通模拟的模型,可以将其理解转化为供人观看的像素,也可以转化为供具身智能体使用的行动预测。而一个仅仅精通渲染或仅仅精通规划的模型,则做不到这一点。这是模拟器与其他两类在能力上的本质差异。

第三类世界模型是规划器,输出是行动。给定一个观测值和一个目标,规划器需要回答的核心问题是:智能体下一步应该做什么。



规划器的职责是给智能体下达行动指令

在许多方面,这恰好是渲染器的逆向过程。渲染器以行动为输入并产生观测值,规划器则以观测值为输入并产生行动,从而完成“感知—行动”的闭环。

视觉-语言-动作模型、基于模型的系统,以及新近兴起的世界动作模型,本质上都属于规划器的尝试。这些系统旨在让机器人在非结构化世界中自主决定下一步动作,直接输出一个可执行的决策。

这是最受关注的新兴方向,与机器人学习领域紧密相连。过去两年,各类机器人演示视频频频引发关注:机械臂灵活抓取物体,双足机器人在复杂地形上行走,机器人在桌面上完成精细操作等。

但李飞飞在文中指出,这些演示几乎全部局限在严格受控的实验室环境内,物体种类有限,任务周期很短。没有任何一个系统在真实世界部署所需的复杂性、多变性或持久性方面得到过验证。

尽管技术尚未成熟,商业层面的押注却已开始。一批资金雄厚的新玩家正竞相推出通用规划系统。另一边,大型基础设施巨头则已搭建起庞大的模拟平台,能处理从物理计算到环境生成的各种任务,现在正把规划能力作为新功能加进去。

03 模拟器被低估了

在渲染、模拟、规划这三个类别中,模拟器获得的大众关注最少,但它却是三者中影响最深远的一个。她的这篇文章,正是为了解决模拟器在关注度上的不对称。

商业层面的想象空间同样可观。李飞飞在文章中直接提及英伟达的Omniverse平台,它所瞄准的工厂、仓库、供应链和数字孪生领域,潜在市场辨模超过一万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程设计和药物研发等等,都依赖于模拟形态的技术能力。

但模拟器面临的挑战也最为严峻。

首先是数狙淌题:包含显式几何、材料属性和物理标注的三维数据,远比渲染器训练所依赖的互联网视频稀缺得多,相差以数量级计。互联网上有取之不尽的视频素材可以用来训练渲染器,但带有精确物理属性的3D资产却极其有限。

其次是长期存在的“模拟与现实差距”。无论模拟做得多么精细,虚拟环境中的测试结果迁移到真实世界时,总会产生偏差。这个问题在机器人学和自动驾驶领域已经被反复讨论,至今没有完全解决。

此外,生成式模拟器还引入了新的风险。AI生成的几何体看起来可能正确,但可能包含自相交或错误比例,一旦跑起物理模拟,就会产生荒谬的结果。

最后是计算成本的问题。在大规模多物理场景模拟中,刚体、可变形物体、流体和布料相互交织,其计算成本比单一领域的模拟高出太多。这意味着,即使有了足够的数据和模型,运行这些模拟本身也是一项昂贵的工程。

李飞飞创办的World Labs推出了Marble系统,这是朝“统一模拟”迈出的第一步。它接收文本、图像、视频或空间草图等输入,生成可交互的3D环境,同时输出两种结果:用于视觉呈现的高斯泼溅(Gaussian Splats),决定场景的视觉外观;用于物理计算的碰撞网格(Collision Meshes),决定物体的空间边界与碰撞响应。过去,视觉渲染和物理模拟是两套独立的系统,Marble把它们整合进了同一个模型。

Marble的出现让模拟器第一次同时兼顾视觉呈现与物理结构。但正如李飞飞所说,这只是一个开始。

04 三条界限,正在消失

李飞飞的另一项核心判断是:渲染、模拟、规划这三个类别,正在开始相互融合。

推动这种融合的是一个共识——渲染一个世界、模拟一个世界以及在那个世界中采取行动所需要的知识,在很大程度上是通用的。



渲染、模拟和规划三种能力的边界正在消失,最终指向一个统一的世界模型:既能生成画面,又能进行物理计算,还能自主决策

李飞飞用一个杯子的例子来说明这个观点。一个模型如果真正理解杯子如何放在桌面上,就能同时做到三件事:从任意角度渲染这个杯子,模拟它被推倒的过程,并规划一只手去将它捡起。

而这三类能力,是同一种底层理解的三个不同投影,也是一个完整的理解在不同场景下的不同输出。

实际进展已经出现。李飞飞在文中提到了来自不同机器人实验室的研究,研究表明,预训练的视频渲染器可以作为联合世界预测与行动预测的骨干网络,意味着同一个模型既能“想象”接下来发生什么,又能“决定”接下来做什么,从而在渲染器与规划器之间架起了一座桥梁。

她进一步指出,每一层都在从被动输出走向交互系统。渲染器正在变得可由行动调节,不再是单向的“输入文字、输出画面”,而是可以根据用户的交互实时调整生成内容。模拟器生成的世界正在变得更可控和可编辑,用户不再只是被动地观看模拟场景,还可以介入和修改。规划器则从单纯的“做出反应”走向“深思熟虑”,能够进行更长链条的推演和规划。

这些趋势的逻辑终点是一个统一的世界模型:一个既能渲染照片级真实视图、又能产生物理精确结构、还能规划行动序列的通用大模型,并可根据下游用户的需求自由切换输出模态。届时,“渲染器”“模拟器”“规划器”这些分类标签本身将变得不再重要,因为它们只是同一个模型的不同用法。

当然,这个目标还远未实现。数据图谱仍然严重失衡,过度追求视觉美感,可能牺牲掉机器人或高保真模拟所需的物理精准度。如何在单一架构中调和这些冲突,是当今世界模型研究最核心的开放问题。

结语:空间智能的漫长弧线

文章结尾,李飞飞回到了一个从上世纪末延续至今的判断:

也是整个AI领域一直在押注同一个判断:一个足够丰富的世界模型,就是一个智能体去观察世界、建造世界并置身其中采取行动所需要的一切。

而今天,这个判断已经出现融合的趋势。

渲染、模拟、规划,三条原本各自独立的研究路线呈现出另外一面。随着三者边界的彻底坍缩,它们将共同重塑一个更宏大的命题:机器智能与它所栖息的物理世界之间的关系。

“语言赋予了机器谈论这个世界的能力,”李飞飞在文末写道,“而世界模型,将是机器最终用来理解、想象、推理并与这个世界进行交互的方式。”


    24小时新闻排行榜更多>>
  1. 【百年真相】中共挺“小弟”全球出丑
  2. “六四”37周年 台湾正副总统、陆委会、民进党与民众党发文纪念
  3. 福建厅官蒋金明落马 曾任空军司令部军训部长
  4. 饶毅痛批中国学术造假
  5. 手机能充电一整晚?专家披露7个你不知道的事
  6. 北京招募线人最新流程曝光
  7. 中国已是乱世
  8. 每天不到一杯酒也会增加患癌风险
  9. 大陆前国企高管与妻子闹离婚 牵出近亿资产
  10. 中国消费者抛弃耐克的速度,比想象中快
  11. 浙江“赌石”骗局案 30人拼单29人全是托儿
  12. 盛雪:从跪求平反到历史清算
  13. 泽连斯基发表致普京的公开信(全文)
  14. 中共封杀信息 中国年轻人仍在了解六四真相
  15. BART开辟财源,新闸门变广告看板
  16. 亚洲首富只当了三天 孙正义是弄潮儿还是追泡沫?
  17. 130年前日本珍贵彩绘照片公开 一窥昔日风貌
  18. 天安门母亲被禁集体祭奠,以后须单独报批
  19. 六四37周年 天安门戒备森严 网络悼念遭封杀
  20. 川普签令要求海关加强执法 严查关税规避
  21. 关锦鹏回顾展播映7部经典电影
  22. 能源设施设学校对面,皇后区中村居民抗议
  23. 五国当选安理会非常任理事国 德国竞选失利
  24. 八宿——波密
  25. 加州校园毕业典礼传枪响,1死3伤
  26. 爆黎晓宏牵出蔡奇死党魏小东 习近平无意拿下王岐山
  27. 瑞幸咖啡去冰后缩杯引争议
  28. 赖清德六四周年撰文 呼吁北京正视历史并承认真相
  29. 美国女司机驾车开上高架轻轨轨道 致列车暂停运营
  30. 下个万亿美金企业,黄仁勋说是它,股价应声暴涨
  31. 公认4种人“最顾人怨”
  32. 多国驻华使团悼六四 欧盟:向遇难者致敬
  33. 中国首位情色女作家,28岁跳海自杀
  34. 神农架景区圈占国道收费 湖北神旅集团道歉
  35. 黄仁勋:家长不必过度担心孩子念什么
  36. 美百万富翁激增 总人数达到870万创纪录
  37. 小区推硬核福利:清北终身免交物业
  38. 川普团队内斗传闻再被翻出 美财长这回亲口承认
  39. 韩国财长:必要时出手干预汇市
  40. 运行超11年后失联 NASA宣布结束MAVEN火星探测
  41. 河北多地6月冰雹大如鸡蛋 人被砸蒙西瓜被砸烂
  42. 美媒开始探讨,与印度关系是否会走向“文明冲突”?
  43. 濒死体验 死后被救活所见到景象
  44. 身为“普通人”,他们挑选弱者下手的能力是很强的
  45. 微软宣布将终止支持Mac、iPhone、iPad
  46. 美国民众对同性婚姻和跨性别议题的态度正在转变
  47. 像极了1998 美股已无恐慌 科技版超买 只剩FOMO!
  48. 六四沉冤未雪悲剧一代代重演 因中共权力缺乏制衡
  49. 台反舰导弹密度全球最高 2029年增至逾1800枚
  50. 流程正确,无人生还的平庸之恶
  51. 财富代际传承,正在悄然进行
  52. 欧盟:值六四37周年 向遇难者致敬永不忘记
  53. 天涯社区为何要重启?前天涯员工爆料 创始人回应
  54. 即使有马克龙亲自“带货”,这家公司仍然破产了
  55. 王莉霞被“游街” 反习派释信号:胡春华是“禁区”
  56. 央视突然吹嘘中国股市 次日沪深港三市齐跌
  57. 普京谈乌克兰战争与权力 赞同川普和平提议
  58. 不,人工智能没有意识
  59. 中国高考报名人数已连续两年下降
  60. 黄一鸣签约男友,公开征询分成比例