李飞飞：LLM做不到的事，世界模型可以-墙外头条

“在机器中解锁生成奇异的 3D和 4D 世界、在任何世界中进行推理、训练智能体或机器人，或者辅助人类与世界互动的能力，正是空间智能的全部意义所在。”

“模拟器可以变成渲染器或规划器，在我看来，这个模拟器是解锁空间智能的一条巨大且关键的路径。”

“我们需要改变教育体系，我们需要改变评估的方式，我们需要改变教师教学的方式，从而让下一代学生能够被这些 AI 工具赋能，并做到我们从未想象过的事情。”

当下致力于实现空间智能和构建世界模型的李飞飞，近期亮相 Bloomberg Tech 2026 大会，接受了专属采访。

在访谈中，她真诚地分享了自己创立 World Labs 的初心，那就是通过构建世界模型来实现空间智能。

在她看来，智能，始于动物在物理世界中的观察和移动。进化，始于动物和物理世界的互动，与由此增进的世界认知和自我认知。我们人类的日常生活，很大一部分都与物理世界的交互有关。

所以说，让 AI 拥有对物理世界的理解、推理、模拟生成和模拟互动的能力，也就是空间智能，是人工智能发展的关键突破口。同时，这不仅有可能助力人类文明进步，还能极大便利我们的日常生活，具有巨大的价值和意义。

其实在我们的生活中，有很多日常行为是不能用语言表达、或靠语言做到的。李飞飞举出一些有趣例子：语言不能灭火，也不能煎出香喷喷的鸡蛋。然而世界模型的下游应用却能够填补这些空缺，搞定语言模型做不到的事情。

不过目前“世界模型”的概念十分混淆，被用于太多情境。为了让大家更清晰地明白世界模型是什么，她将世界模型依据不同的功能划分了三大类别。

其一是为了满足人类眼球的“渲染器”，致力于在屏幕上呈现美丽的像素。

其二是为机器或机器人预测下一步要采取的动作的“规划器”。

其三是模拟真实 3D、4D 物理世界的“模拟器”，它是关键枢纽，可以变成渲染器或规划器。在李飞飞看来，这条路径才是解锁空间智能的关键路径。

此外，在主持人问及 AI 会如何改变大学学习体验时，李飞飞直言，AI 将会改变从幼儿园到大学的整个教育体系，从能力评估方式到教师教学模式，都会迎来全方位的变革。

人力资本是世界上最宝贵的资源，有 AI 的加持，未来人们的创造能力和生产能力会超出我们的想象。

以下为此次访谈的全部内容，enjoy：

LLM 做不到的事，世界模型可以

主持人：每个人都在关注大语言模型（LLM），比如 ChatGPT 和 Claude。但你却筹集了 10 亿美元来构建一些截然不同的东西。大世界模型（Large World Models）就是佐证。其他人没做，而你正在做的赌注是什么？

李飞飞：这就是我共同创立的初创公司 World Labs，我们正全力投入“空间智能”，而实现空间智能的手段就是构建一个大世界模型。那么它的依据是什么呢？

对我们来说，这是一个长达 5 亿年的故事，即动物的智能始于在物理世界中的观察和移动。进化始于我们作为动物，了解这个世界是什么，了解我们是谁，了解如何在其中移动并与之互动。人类生活、人类工作生活、人类私生活的很大一部分都与感知、理解、推理以及与世界的互动密切相关，这也包括充满创造力的想象世界和具有生产力的虚拟世界。

因此，在机器中解锁这种能力，解锁生成奇异的 3D、4D 世界的能力，解锁在任何世界中进行推理的能力，解锁训练智能体或机器人、或者辅助人类与世界互动的能力，正是空间智能的全部意义所在。这就是我们所专注于的方向。

主持人：那么，世界模型最终能做哪些大语言模型永远无法做到的事情？

李飞飞：能用语言灭火吗？能用语言做出一份煎蛋吗？我认为这其中有太多的可能性。比如创造力，人们在进行设计，无论是设计室内空间、设计机器、设计房屋还是设计故事，这其中的很大一部分是无法用言语表达的。

我们也会使用智能体，无论是在虚拟世界中，比如游戏娱乐，还是在更严肃的工业应用中，比如数字孪生设计、检测或各种优化任务；或者我们制造机器人，来帮助我们做很多事情，从灭火到辅助医疗场景，再到制造业，所有这些都是解锁空间智能和构建世界模型的下游应用。

主持人：那么，你认为世界模型迎来属于它的“ChatGPT时刻”会是什么样子？我们该如何知道这一时刻已经到来？

李飞飞：这是一个非常好的问题。因为“聊天”是一种非常大众化的消费者行为，所以“ChatGPT时刻”往往被用来描述一个最接近“AI能做什么”在公众或消费者中引发病毒式传播的时刻。

关于我们试图解锁的这种空间智能，我仍在试图弄清楚是否存在一个相对应的消费者时刻，因为我们所谈论的这类应用往往会首先进入专业人士的视野，专业创作者、专业设计师、专业开发者、专业研究人员和工程师，他们将其用于机器人技术和工业设计等领域。

所以，也许我们不一定会有属于消费者的标志性时刻，但也许我们会有。而且，你知道，我也很想能用一种更简单的方式来设计我的房子，比如只需点击一下就能改变窗帘的颜色。

告别概念混淆，世界模型中的模拟器才是关键

主持人：听起来确实很酷。在过去的六个月里，其他人也在世界模型上展开了布局。谷歌推出了 Project Genie，英伟达拥有自己的世界模型 Cosmos，英伟达同时也是你的投资者之一。你拥有哪些他们没有的优势？在所有的竞争对手中，你最担心哪一个？

李飞飞：是的。首先，我们在 2024 年创立了 World Labs。我还记得当我们出去谈论我们的模型和空间类比时，那就在一年前，大家还完全在讨论语言模型。所以我们确实占得了先机，并意识到这将是 AI 的下一个前沿，对此我感到非常兴奋。

我认为我们拥有一支不可思议的团队，我们有坚定的信念。但世界很大，我认为这就像大语言模型一样，会有很多公司在世界模型领域做出令人内难以置信的工作。

就在 24 小时前，我们实在受够了“世界模型”这个词被如此混淆并在这么多不同的语境下被使用，所以我们实际上发布了一篇博客，专门解释世界模型的功能分类法，而不是把所有东西混为一谈。

在我看来，目前在谈到空间智能时，有三种方式可以描述“世界模型”。

第一种我称之为“渲染器”（renderer），即模型在屏幕上呈现美丽的像素，大多类似于视频生成模型，其消费者主要是人类的眼球。

虽然模型致力于在屏幕上呈现美丽的像素，但它并不一定符合物理学、动力学和几何的正确性，因为这只是为了满足人类的眼球，而不一定是为了计算和其他任务。

第二种世界模型我们称之为“规划器”（planner），它更多是为机器和机器人服务的。无论输入的是世界的状态还是动作，它都会输出下一步要采取的正确动作。你会在机器人应用中经常看到这种世界模型，并且在那个语境下听到它。

第三种，我认为是这三者之中的核心纽带，那就是“模拟器”（simulator）。它实际上既服务于人类，也服务于机器，试图尊重世界的结构、物理学和动力学，并真正模拟世界的 3D 和 4D 信息以及语义信息。模拟器可以变成渲染器，模拟器也可以变成规划器，但在我看来，这个模拟器是解锁空间智能的一条巨大且关键的路径。这就是 World Labs 正在努力研究的方向。

人形机器人的投资远不止 60 亿美元，空间智能是核心技术之一

主持人：所有这一切最终都汇聚到了机器人技术上。所以我想听听你对这个领域、尤其是对人形机器人的看法。对人形机器人的投资已经达到了 60 亿美元。但是，你知道，它们操作洗碗机的速度还是没我快，它们也依然不能去帮我拿亚马逊的快递。那么，世界模型和 World Labs 会弥合这种炒作与现实之间的差距吗？

李飞飞：这是一个复杂的问题。首先，机器人技术将是人类工业化进程中最重大的革命之一，60 亿美元太少了。如果你看看自动驾驶汽车的投资，如果你看看语言模型的投资，耗资远不止 60 亿美元。

我并不是说我们现在就要盲目跟风。我认为投资需要时间，同时也希望大家不要盲目炒作，而是能深思熟虑地投资于正确的努力。例如，解锁世界建模、空间智能和模拟器，所有这些都是这项重要努力的一部分。

那么，我们是否会弥合这一差距？我确实相信 World Labs 正在研究空间物理智能领域最核心的技术之一。显然，这就是我们的希望。

摒弃炒作，AI 的目标是赋能人类

主持人：你对 AI 安全（AI safety）一直保持着较为克制的态度，对“人类灭绝”的末日叙事持怀疑态度，但也对过于粗暴的监管持保留意见。当你审视整个行业时，你认为哪里是真正的安全工作，哪里又是“安全作秀”？有人做对了吗？

李飞飞：总的来说，我对每一种激进言论都比较克制，说实话，这让我显得很无聊。我认为现在真的有太多的炒作。显然，我们需要构建正确的技术，我们需要给技术加上护栏。无论你是使用“负责任”这个词，还是使用“安全”，或者是使用“值得信赖”，构建正确的技术和产品，使其能够赋能、增强、提升人类，而不是伤害人类，这才是关键。这难道不是我们所做的任何工作的目标吗，无论它是不是 AI？

我真心希望每一家公司、每一个正在打造的产品，其幕后人员都能非常清醒地意识到这一点，并去思考：我们正在使用什么数据？我们正在构建什么系统？我们正在进行什么评估？我们正在设置什么护栏？我们如何与我们的用户和客户沟通？我们如何与监管机构合作，以便在关键时刻我们能够履行责任？我确实相信很多这样的工作正在发生。老实说，这并不是在作秀。

例如，制药和医疗保健行业的公司正在整合 AI。毫不夸张地说，我刚才就是从医院赶来参加你的圆桌讨论的，因为我有一位家人大约在接下来的一个小时内要动手术。我刚才就在她的医院里，看着 AI 已经在哪些地方被使用，以及可以在哪些地方被使用，而这一切已经在发生了。医生正在使用 AI 来协助他们记录病历。放射科医生正在使用 AI 来协助他们读取核磁共振（MRI）和 CT 扫描。我真的希望我们能有更多的 AI 来帮助我们的护士，帮助家属。昨晚我收到了一份很长的放射学报告，我做的第一件事就是把它发给 AI，让它帮我解释。所以这一切都在发生，安全措施也在跟进。但我们需要更多正确的方法，以一种有科学依据的方式来进行。这才是应该进行的对话，而不是你所说的“作秀”。

舆论两极化，对 AI 的讨论缺乏深度和理性

主持人：非常感谢你能来，希望你的家人一切顺利，我们大家都这么祝愿。当前公众的反弹是真实的，这被称为“AI 仇恨浪潮”。我相信你一定看过那个视频，谷歌前首席执行官埃里克·施密特（Eric Schmidt）在大学毕业典礼上被喝倒彩。你和学生们相处的时间很多，他们是怎么说的？如果他们感到害怕，这种恐惧是合理的吗？

李飞飞：我确实花了很多时间和学生在一起。不过客观地说，我的学生相当享有特权，因为他们是斯坦福大学的学生。我认为更重要的是，我自己也努力去践行，我们要花时间与我们的老师、护士、父母、祖父母在一起。这实际上是我一直努力在做的事。我试着与 K-12（基础教育）的教育工作者交谈。我试着去到不同的地方，与那些觉得自己被排除在对话之外的人交谈。

我们的学生也反映出了这种复杂的情绪。社会中存在着一种希望，也有兴奋，同时也有困惑。而且，它伴随着一种双重感受：一方面，当 AI 能帮我做到以前做不到的事情时，会带来一种尊严感和能动性；而另一方面，如果 AI 要抢走我的工作，又会带来一种尊严和能动性的丧失。

所以我认为这种情绪是复杂的。我真的很想指出，这种情绪在很大程度上是因为缺乏有深度、理性的公众讨论。现在，所有的空间和关注度都被吸进了两极分化的极端中，要么是彻底的毁灭论，要么是完全的乌托邦主义。当炒作占据了所有的关注时，那种空白就会滋生焦虑。而这片空白恰恰是我们真正需要关心的，因为真实的人们就生活在那里，真实的人们正在那里寻找答案。

我认为，作为一名科学家、教育家和创业者，我与学生、教育工作者和创业者并肩站在第一线。我深信不疑，我的责任之一就是不搞炒作，努力用科学和谦逊的态度去发声，并启发人们认识到，这是一项如果走对路，就能真正赋能我们许多工作和生活、真正帮我们建立更好的医疗体系、带来更好的科学发现、更好的环境和更好的教育的技术。

教育体系变革将至，AI 将重塑全学段学习模式

主持人：我们都是母亲，都有十几岁的青少年孩子。你认为 AI 将如何改变大学阶段的学习体验？

李飞飞：AI 必定会改变学习，它必定会改变从幼儿园到大学（K-16）的学习。我认为这是人类在未来十年中面临的最大机遇之一。

我们整个世界最宝贵的资源是什么？是人力资本。当我们拥有一种能够应对标准化考试的技术,无论是核心课程类的测试，还是一直到国际数学奥林匹克竞赛的试题，AI 都能比普通人做得更好。这并不是说人类很差，而是说我们需要改变教育体系，我们需要改变评估的方式，我们需要改变赋能教师教学的方式，以此来教育下一代学生，让他们能够被这些工具赋能，并做到我们从未想象过的事情。

主持人：那么，你认为我们的孩子还会学习吗？

李飞飞：当然会。如果我们能正确地教导他们。如果社会能让他们做好正确的准备，他们就不应该感到害怕。当今所有的孩子都不应该害怕 AI。他们应当感受到人类的主观能动性去引领 AI、以正确的方式使用 AI，并用 AI 产生他们想为这个世界带来的影响。

主持人：Anthropic 的首席执行官 Dario Amodei 曾暗示，通用人工智能（AGI）还有 2 到 3 年的时间就会实现，我们通过扩展现有的范式就能达到那个阶段。Demis Hassabis 则说我们正处于奇点（singularity）的山脚下。而你曾说过你甚至不想谈论 AGI 这个词。是他们错了吗？还是说大家的争论其实在于我们把什么定义为目标？

李飞飞：我不讨论 AGI 这个词，是因为让人工智能成为一个科学领域的奠基者们，有这个创造能够思考和行动的机器的梦想。那是一个科学探索。而那项探索是我毕生的事业，而且我依然在这条探索之路上。现在，我正在将这种科学探索与打造能改善人们生活的产品结合起来，这就是被称为“人工智能”的领域。人们想怎么称呼它都行，叫它“苹果”也没关系。我所专注于的，是构建一项真正能够彻底改变人们生活和工作的技术。

主持人：那么，你们今年将交付哪一样东西，是我们在明年会津津乐道的？

李飞飞：我希望我们将交付一个空间智能模型，它将激发出人们以前从未见过的、令人无比兴奋的产品机遇。