不是什么都叫“世界模型”，李飞飞给出新定义-墙外头条

斯坦福大学AI科学家、World Labs创始人李飞飞。图片经由AI处理

文丨谢瑞瑞

编辑丨徐青阳

“世界模型”是过去两年AI领域最常被提及的概念之一，但它的含义正在变得越来越模糊。

视频生成模型、语言模型，甚至连物理引擎都能自称是世界模型。

斯坦福大学AI科学家、World Labs创始人李飞飞于6月4日撰文，专门回应这种混乱。她开篇便给出判断：世界模型是当今AI领域最重要、也最被滥用的术语之一。

她在文中写道，连古希腊人都没给“世界”下过一个统一、公认的定义。“世界”从来不是一个具体的事物，今天，AI也继承了同样的问题——世界模型的边界在哪里？

李飞飞的解决思路很明确：先分清世界模型的三个核心功能——渲染、模拟、规划。

01 理解世界模型的钥匙，是一张旧图

在展开论述之前，李飞飞先回顾了一张在强化学习领域使用了几十年的框架图：部分可观测马尔可夫决策过程（Partially Observable Markov Decision Process，POMDP）。这个框架的名称很复杂，但逻辑却简明。

李飞飞将目前的世界模型系统分为三类，分别是渲染器、模拟器以及规划器

它描述的是一个循环：智能体采取行动，行动改变世界的状态，智能体从环境中获得观测值，再依据观测采取下一步行动。循环持续进行。

文中的“状态”，指的是物理学和机器人学中的概念：在某个时刻对世界状况的完整描述，涵盖每一个物体、每一个位置、每一组速度和每一项属性，对身处其中的任何智能体而言，永远无法被完全直接感知。我们能得到的，只是对现实的部分观测。

李飞飞进一步指出，这个由“智能体—行动—状态—观测—回到智能体”构成的闭环，赋予了现代世界模型真正的技术内核。

“世界模型”概念，最早可以追溯到1943年，由心理学家肯尼斯·克雷克（Kenneth Craik）在1943年提出，即大脑通过运行现实的“小辨模模型”来进行推理。到了20世纪80年代末、90年代初，这个概念被引入神经网络研究。而今天，所有被称为世界模型的事物，本质上都是同一个循环在不同方向上的投影，每一类只输出循环中的一个片段。

02 三类世界模型：渲染器、模拟器与规划器

李飞飞认为，当前所有自称世界模型的系统可分为三类：渲染器、模拟器和规划器。

第一类世界模型是渲染器。它的输出是供人眼观看的像素，核心评估指标是视觉逼真度。

渲染器主要负责生成视觉画面，最主要的考核标准是逼真度

能将文本提示转化为电影级航拍镜头的视频生成模型属于这一类，谷歌的Genie 3、World Labs自研的RTFM等交互式生成系统也在此列。这类模型对三维结构没有显式理解，它们生成的是观众“会看到什么”，而不是“现实本身是什么”。

李飞飞在文中举了一个例子：航拍镜头中的建筑从上方看可能完美无缺，但如果试图驱车穿过下方的城市，画面就会分崩离析。原因很简单，渲染器的契约纯粹是视觉上的，它并不对画面背后的物理结构承担任何责任。

渲染器是当前商业落地最成熟的一类世界模型。谷歌的Nano Banana已经将渲染级别的图像生成能力交付到数亿用户手中。

但它的天花板同样清晰——渲染器优化的是视觉合理性，而非物理准确性。它的输出令人赞叹，但不能被信赖去设计建筑或训练机器人。李飞飞对此总结道：渲染器的输出固然美丽，但你无法信任它们去承担那些与现实世界紧密结合的任务。

第二类世界模型是模拟器。它输出的不是像素，而是状态，是一种在几何、物理和动力学层面高度保真的世界表征。

模拟器的职责是构建符合物理规则的三维结构

模拟器的契约是结构性的：几何必须经得起审视，物理必须尊重客观规律，动力学表现必须符合现实约束。

它同时服务于两类受众：一类是人类专业人士，包括建筑师、设计师、电影制作人和游戏开发者；另一类是计算机程序，包括强化学习智能体、机器人控制器和自动驾驶汽车，它们将模拟器作为训练场，测试那些在现实中过于危险或昂贵的场景。

李飞飞在文中有这样一段论述：如果说语言是对世界的一种抽象描述，像素是对世界的一种视觉投影，那么几何、物理和动力学才是世界的本来面目。模拟器必须建立在这个层面之上。

她举例说，模拟器生成的几何结构和物理规则就像一副骨骼——渲染器所需要的视觉外观、规划器所依赖的行动后果，都是从这副骨骼上生长出来的。

这意味着，一个精通模拟的模型，可以将其理解转化为供人观看的像素，也可以转化为供具身智能体使用的行动预测。而一个仅仅精通渲染或仅仅精通规划的模型，则做不到这一点。这是模拟器与其他两类在能力上的本质差异。

第三类世界模型是规划器，输出是行动。给定一个观测值和一个目标，规划器需要回答的核心问题是：智能体下一步应该做什么。

规划器的职责是给智能体下达行动指令

在许多方面，这恰好是渲染器的逆向过程。渲染器以行动为输入并产生观测值，规划器则以观测值为输入并产生行动，从而完成“感知—行动”的闭环。

视觉-语言-动作模型、基于模型的系统，以及新近兴起的世界动作模型，本质上都属于规划器的尝试。这些系统旨在让机器人在非结构化世界中自主决定下一步动作，直接输出一个可执行的决策。

这是最受关注的新兴方向，与机器人学习领域紧密相连。过去两年，各类机器人演示视频频频引发关注：机械臂灵活抓取物体，双足机器人在复杂地形上行走，机器人在桌面上完成精细操作等。

但李飞飞在文中指出，这些演示几乎全部局限在严格受控的实验室环境内，物体种类有限，任务周期很短。没有任何一个系统在真实世界部署所需的复杂性、多变性或持久性方面得到过验证。

尽管技术尚未成熟，商业层面的押注却已开始。一批资金雄厚的新玩家正竞相推出通用规划系统。另一边，大型基础设施巨头则已搭建起庞大的模拟平台，能处理从物理计算到环境生成的各种任务，现在正把规划能力作为新功能加进去。

03 模拟器被低估了

在渲染、模拟、规划这三个类别中，模拟器获得的大众关注最少，但它却是三者中影响最深远的一个。她的这篇文章，正是为了解决模拟器在关注度上的不对称。

商业层面的想象空间同样可观。李飞飞在文章中直接提及英伟达的Omniverse平台，它所瞄准的工厂、仓库、供应链和数字孪生领域，潜在市场辨模超过一万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程设计和药物研发等等，都依赖于模拟形态的技术能力。

但模拟器面临的挑战也最为严峻。

首先是数狙淌题：包含显式几何、材料属性和物理标注的三维数据，远比渲染器训练所依赖的互联网视频稀缺得多，相差以数量级计。互联网上有取之不尽的视频素材可以用来训练渲染器，但带有精确物理属性的3D资产却极其有限。

其次是长期存在的“模拟与现实差距”。无论模拟做得多么精细，虚拟环境中的测试结果迁移到真实世界时，总会产生偏差。这个问题在机器人学和自动驾驶领域已经被反复讨论，至今没有完全解决。

此外，生成式模拟器还引入了新的风险。AI生成的几何体看起来可能正确，但可能包含自相交或错误比例，一旦跑起物理模拟，就会产生荒谬的结果。

最后是计算成本的问题。在大规模多物理场景模拟中，刚体、可变形物体、流体和布料相互交织，其计算成本比单一领域的模拟高出太多。这意味着，即使有了足够的数据和模型，运行这些模拟本身也是一项昂贵的工程。

李飞飞创办的World Labs推出了Marble系统，这是朝“统一模拟”迈出的第一步。它接收文本、图像、视频或空间草图等输入，生成可交互的3D环境，同时输出两种结果：用于视觉呈现的高斯泼溅（Gaussian Splats），决定场景的视觉外观；用于物理计算的碰撞网格（Collision Meshes），决定物体的空间边界与碰撞响应。过去，视觉渲染和物理模拟是两套独立的系统，Marble把它们整合进了同一个模型。

Marble的出现让模拟器第一次同时兼顾视觉呈现与物理结构。但正如李飞飞所说，这只是一个开始。

04 三条界限，正在消失

李飞飞的另一项核心判断是：渲染、模拟、规划这三个类别，正在开始相互融合。

推动这种融合的是一个共识——渲染一个世界、模拟一个世界以及在那个世界中采取行动所需要的知识，在很大程度上是通用的。

渲染、模拟和规划三种能力的边界正在消失，最终指向一个统一的世界模型：既能生成画面，又能进行物理计算，还能自主决策

李飞飞用一个杯子的例子来说明这个观点。一个模型如果真正理解杯子如何放在桌面上，就能同时做到三件事：从任意角度渲染这个杯子，模拟它被推倒的过程，并规划一只手去将它捡起。

而这三类能力，是同一种底层理解的三个不同投影，也是一个完整的理解在不同场景下的不同输出。

实际进展已经出现。李飞飞在文中提到了来自不同机器人实验室的研究，研究表明，预训练的视频渲染器可以作为联合世界预测与行动预测的骨干网络，意味着同一个模型既能“想象”接下来发生什么，又能“决定”接下来做什么，从而在渲染器与规划器之间架起了一座桥梁。

她进一步指出，每一层都在从被动输出走向交互系统。渲染器正在变得可由行动调节，不再是单向的“输入文字、输出画面”，而是可以根据用户的交互实时调整生成内容。模拟器生成的世界正在变得更可控和可编辑，用户不再只是被动地观看模拟场景，还可以介入和修改。规划器则从单纯的“做出反应”走向“深思熟虑”，能够进行更长链条的推演和规划。

这些趋势的逻辑终点是一个统一的世界模型：一个既能渲染照片级真实视图、又能产生物理精确结构、还能规划行动序列的通用大模型，并可根据下游用户的需求自由切换输出模态。届时，“渲染器”“模拟器”“规划器”这些分类标签本身将变得不再重要，因为它们只是同一个模型的不同用法。

当然，这个目标还远未实现。数据图谱仍然严重失衡，过度追求视觉美感，可能牺牲掉机器人或高保真模拟所需的物理精准度。如何在单一架构中调和这些冲突，是当今世界模型研究最核心的开放问题。

结语：空间智能的漫长弧线

文章结尾，李飞飞回到了一个从上世纪末延续至今的判断：

也是整个AI领域一直在押注同一个判断：一个足够丰富的世界模型，就是一个智能体去观察世界、建造世界并置身其中采取行动所需要的一切。

而今天，这个判断已经出现融合的趋势。

渲染、模拟、规划，三条原本各自独立的研究路线呈现出另外一面。随着三者边界的彻底坍缩，它们将共同重塑一个更宏大的命题：机器智能与它所栖息的物理世界之间的关系。

“语言赋予了机器谈论这个世界的能力，”李飞飞在文末写道，“而世界模型，将是机器最终用来理解、想象、推理并与这个世界进行交互的方式。”