李飞飞:LLM做不到的事,世界模型可以
2026-06-11 04:25:27 · chineseheadlinenews.com · 来源: 51CTO技术栈
“在机器中解锁生成奇异的 3D和 4D 世界、在任何世界中进行推理、训练智能体或机器人,或者辅助人类与世界互动的能力,正是空间智能的全部意义所在。”

“模拟器可以变成渲染器或规划器,在我看来,这个模拟器是解锁空间智能的一条巨大且关键的路径。”
“我们需要改变教育体系,我们需要改变评估的方式,我们需要改变教师教学的方式,从而让下一代学生能够被这些 AI 工具赋能,并做到我们从未想象过的事情。”
当下致力于实现空间智能和构建世界模型的李飞飞,近期亮相 Bloomberg Tech 2026 大会,接受了专属采访。
在访谈中,她真诚地分享了自己创立 World Labs 的初心,那就是通过构建世界模型来实现空间智能。
在她看来,智能,始于动物在物理世界中的观察和移动。进化,始于动物和物理世界的互动,与由此增进的世界认知和自我认知。我们人类的日常生活,很大一部分都与物理世界的交互有关。
所以说,让 AI 拥有对物理世界的理解、推理、模拟生成和模拟互动的能力,也就是空间智能,是人工智能发展的关键突破口。同时,这不仅有可能助力人类文明进步,还能极大便利我们的日常生活,具有巨大的价值和意义。
其实在我们的生活中,有很多日常行为是不能用语言表达、或靠语言做到的。李飞飞举出一些有趣例子:语言不能灭火,也不能煎出香喷喷的鸡蛋。然而世界模型的下游应用却能够填补这些空缺,搞定语言模型做不到的事情。
不过目前“世界模型”的概念十分混淆,被用于太多情境。为了让大家更清晰地明白世界模型是什么,她将世界模型依据不同的功能划分了三大类别。
其一是为了满足人类眼球的“渲染器”,致力于在屏幕上呈现美丽的像素。
其二是为机器或机器人预测下一步要采取的动作的“规划器”。
其三是模拟真实 3D、4D 物理世界的“模拟器”,它是关键枢纽,可以变成渲染器或规划器。在李飞飞看来,这条路径才是解锁空间智能的关键路径。
此外,在主持人问及 AI 会如何改变大学学习体验时,李飞飞直言,AI 将会改变从幼儿园到大学的整个教育体系,从能力评估方式到教师教学模式,都会迎来全方位的变革。
人力资本是世界上最宝贵的资源,有 AI 的加持,未来人们的创造能力和生产能力会超出我们的想象。
以下为此次访谈的全部内容,enjoy:
LLM 做不到的事,世界模型可以
主持人:每个人都在关注大语言模型(LLM),比如 ChatGPT 和 Claude。但你却筹集了 10 亿美元来构建一些截然不同的东西。大世界模型(Large World Models)就是佐证。其他人没做,而你正在做的赌注是什么?
李飞飞:这就是我共同创立的初创公司 World Labs,我们正全力投入“空间智能”,而实现空间智能的手段就是构建一个大世界模型。那么它的依据是什么呢?
对我们来说,这是一个长达 5 亿年的故事,即动物的智能始于在物理世界中的观察和移动。进化始于我们作为动物,了解这个世界是什么,了解我们是谁,了解如何在其中移动并与之互动。人类生活、人类工作生活、人类私生活的很大一部分都与感知、理解、推理以及与世界的互动密切相关,这也包括充满创造力的想象世界和具有生产力的虚拟世界。
因此,在机器中解锁这种能力,解锁生成奇异的 3D、4D 世界的能力,解锁在任何世界中进行推理的能力,解锁训练智能体或机器人、或者辅助人类与世界互动的能力,正是空间智能的全部意义所在。这就是我们所专注于的方向。
主持人:那么,世界模型最终能做哪些大语言模型永远无法做到的事情?
李飞飞:能用语言灭火吗?能用语言做出一份煎蛋吗?我认为这其中有太多的可能性。比如创造力,人们在进行设计,无论是设计室内空间、设计机器、设计房屋还是设计故事,这其中的很大一部分是无法用言语表达的。
我们也会使用智能体,无论是在虚拟世界中,比如游戏娱乐,还是在更严肃的工业应用中,比如数字孪生设计、检测或各种优化任务;或者我们制造机器人,来帮助我们做很多事情,从灭火到辅助医疗场景,再到制造业,所有这些都是解锁空间智能和构建世界模型的下游应用。
主持人:那么,你认为世界模型迎来属于它的“ChatGPT时刻”会是什么样子?我们该如何知道这一时刻已经到来?
李飞飞:这是一个非常好的问题。因为“聊天”是一种非常大众化的消费者行为,所以“ChatGPT时刻”往往被用来描述一个最接近“AI能做什么”在公众或消费者中引发病毒式传播的时刻。
关于我们试图解锁的这种空间智能,我仍在试图弄清楚是否存在一个相对应的消费者时刻,因为我们所谈论的这类应用往往会首先进入专业人士的视野,专业创作者、专业设计师、专业开发者、专业研究人员和工程师,他们将其用于机器人技术和工业设计等领域。
所以,也许我们不一定会有属于消费者的标志性时刻,但也许我们会有。而且,你知道,我也很想能用一种更简单的方式来设计我的房子,比如只需点击一下就能改变窗帘的颜色。
告别概念混淆,世界模型中的模拟器才是关键
主持人:听起来确实很酷。在过去的六个月里,其他人也在世界模型上展开了布局。谷歌推出了 Project Genie,英伟达拥有自己的世界模型 Cosmos,英伟达同时也是你的投资者之一。你拥有哪些他们没有的优势?在所有的竞争对手中,你最担心哪一个?
李飞飞:是的。首先,我们在 2024 年创立了 World Labs。我还记得当我们出去谈论我们的模型和空间类比时,那就在一年前,大家还完全在讨论语言模型。所以我们确实占得了先机,并意识到这将是 AI 的下一个前沿,对此我感到非常兴奋。
我认为我们拥有一支不可思议的团队,我们有坚定的信念。但世界很大,我认为这就像大语言模型一样,会有很多公司在世界模型领域做出令人内难以置信的工作。
就在 24 小时前,我们实在受够了“世界模型”这个词被如此混淆并在这么多不同的语境下被使用,所以我们实际上发布了一篇博客,专门解释世界模型的功能分类法,而不是把所有东西混为一谈。
在我看来,目前在谈到空间智能时,有三种方式可以描述“世界模型”。
第一种我称之为“渲染器”(renderer),即模型在屏幕上呈现美丽的像素,大多类似于视频生成模型,其消费者主要是人类的眼球。
虽然模型致力于在屏幕上呈现美丽的像素,但它并不一定符合物理学、动力学和几何的正确性,因为这只是为了满足人类的眼球,而不一定是为了计算和其他任务。
第二种世界模型我们称之为“规划器”(planner),它更多是为机器和机器人服务的。无论输入的是世界的状态还是动作,它都会输出下一步要采取的正确动作。你会在机器人应用中经常看到这种世界模型,并且在那个语境下听到它。
第三种,我认为是这三者之中的核心纽带,那就是“模拟器”(simulator)。它实际上既服务于人类,也服务于机器,试图尊重世界的结构、物理学和动力学,并真正模拟世界的 3D 和 4D 信息以及语义信息。模拟器可以变成渲染器,模拟器也可以变成规划器,但在我看来,这个模拟器是解锁空间智能的一条巨大且关键的路径。这就是 World Labs 正在努力研究的方向。
人形机器人的投资远不止 60 亿美元,空间智能是核心技术之一
主持人:所有这一切最终都汇聚到了机器人技术上。所以我想听听你对这个领域、尤其是对人形机器人的看法。对人形机器人的投资已经达到了 60 亿美元。但是,你知道,它们操作洗碗机的速度还是没我快,它们也依然不能去帮我拿亚马逊的快递。那么,世界模型和 World Labs 会弥合这种炒作与现实之间的差距吗?
李飞飞:这是一个复杂的问题。首先,机器人技术将是人类工业化进程中最重大的革命之一,60 亿美元太少了。如果你看看自动驾驶汽车的投资,如果你看看语言模型的投资,耗资远不止 60 亿美元。
我并不是说我们现在就要盲目跟风。我认为投资需要时间,同时也希望大家不要盲目炒作,而是能深思熟虑地投资于正确的努力。例如,解锁世界建模、空间智能和模拟器,所有这些都是这项重要努力的一部分。
那么,我们是否会弥合这一差距?我确实相信 World Labs 正在研究空间物理智能领域最核心的技术之一。显然,这就是我们的希望。
摒弃炒作,AI 的目标是赋能人类
主持人:你对 AI 安全(AI safety)一直保持着较为克制的态度,对“人类灭绝”的末日叙事持怀疑态度,但也对过于粗暴的监管持保留意见。当你审视整个行业时,你认为哪里是真正的安全工作,哪里又是“安全作秀”?有人做对了吗?
李飞飞:总的来说,我对每一种激进言论都比较克制,说实话,这让我显得很无聊。我认为现在真的有太多的炒作。显然,我们需要构建正确的技术,我们需要给技术加上护栏。无论你是使用“负责任”这个词,还是使用“安全”,或者是使用“值得信赖”,构建正确的技术和产品,使其能够赋能、增强、提升人类,而不是伤害人类,这才是关键。这难道不是我们所做的任何工作的目标吗,无论它是不是 AI?
我真心希望每一家公司、每一个正在打造的产品,其幕后人员都能非常清醒地意识到这一点,并去思考:我们正在使用什么数据?我们正在构建什么系统?我们正在进行什么评估?我们正在设置什么护栏?我们如何与我们的用户和客户沟通?我们如何与监管机构合作,以便在关键时刻我们能够履行责任?我确实相信很多这样的工作正在发生。老实说,这并不是在作秀。
例如,制药和医疗保健行业的公司正在整合 AI。毫不夸张地说,我刚才就是从医院赶来参加你的圆桌讨论的,因为我有一位家人大约在接下来的一个小时内要动手术。我刚才就在她的医院里,看着 AI 已经在哪些地方被使用,以及可以在哪些地方被使用,而这一切已经在发生了。医生正在使用 AI 来协助他们记录病历。放射科医生正在使用 AI 来协助他们读取核磁共振(MRI)和 CT 扫描。我真的希望我们能有更多的 AI 来帮助我们的护士,帮助家属。昨晚我收到了一份很长的放射学报告,我做的第一件事就是把它发给 AI,让它帮我解释。所以这一切都在发生,安全措施也在跟进。但我们需要更多正确的方法,以一种有科学依据的方式来进行。这才是应该进行的对话,而不是你所说的“作秀”。
舆论两极化,对 AI 的讨论缺乏深度和理性
主持人:非常感谢你能来,希望你的家人一切顺利,我们大家都这么祝愿。当前公众的反弹是真实的,这被称为“AI 仇恨浪潮”。我相信你一定看过那个视频,谷歌前首席执行官埃里克·施密特(Eric Schmidt)在大学毕业典礼上被喝倒彩。你和学生们相处的时间很多,他们是怎么说的?如果他们感到害怕,这种恐惧是合理的吗?
李飞飞:我确实花了很多时间和学生在一起。不过客观地说,我的学生相当享有特权,因为他们是斯坦福大学的学生。我认为更重要的是,我自己也努力去践行,我们要花时间与我们的老师、护士、父母、祖父母在一起。这实际上是我一直努力在做的事。我试着与 K-12(基础教育)的教育工作者交谈。我试着去到不同的地方,与那些觉得自己被排除在对话之外的人交谈。
我们的学生也反映出了这种复杂的情绪。社会中存在着一种希望,也有兴奋,同时也有困惑。而且,它伴随着一种双重感受:一方面,当 AI 能帮我做到以前做不到的事情时,会带来一种尊严感和能动性;而另一方面,如果 AI 要抢走我的工作,又会带来一种尊严和能动性的丧失。
所以我认为这种情绪是复杂的。我真的很想指出,这种情绪在很大程度上是因为缺乏有深度、理性的公众讨论。现在,所有的空间和关注度都被吸进了两极分化的极端中,要么是彻底的毁灭论,要么是完全的乌托邦主义。当炒作占据了所有的关注时,那种空白就会滋生焦虑。而这片空白恰恰是我们真正需要关心的,因为真实的人们就生活在那里,真实的人们正在那里寻找答案。
我认为,作为一名科学家、教育家和创业者,我与学生、教育工作者和创业者并肩站在第一线。我深信不疑,我的责任之一就是不搞炒作,努力用科学和谦逊的态度去发声,并启发人们认识到,这是一项如果走对路,就能真正赋能我们许多工作和生活、真正帮我们建立更好的医疗体系、带来更好的科学发现、更好的环境和更好的教育的技术。
教育体系变革将至,AI 将重塑全学段学习模式
主持人:我们都是母亲,都有十几岁的青少年孩子。你认为 AI 将如何改变大学阶段的学习体验?
李飞飞:AI 必定会改变学习,它必定会改变从幼儿园到大学(K-16)的学习。我认为这是人类在未来十年中面临的最大机遇之一。
我们整个世界最宝贵的资源是什么?是人力资本。当我们拥有一种能够应对标准化考试的技术,无论是核心课程类的测试,还是一直到国际数学奥林匹克竞赛的试题,AI 都能比普通人做得更好。这并不是说人类很差,而是说我们需要改变教育体系,我们需要改变评估的方式,我们需要改变赋能教师教学的方式,以此来教育下一代学生,让他们能够被这些工具赋能,并做到我们从未想象过的事情。
主持人:那么,你认为我们的孩子还会学习吗?
李飞飞:当然会。如果我们能正确地教导他们。如果社会能让他们做好正确的准备,他们就不应该感到害怕。当今所有的孩子都不应该害怕 AI。他们应当感受到人类的主观能动性去引领 AI、以正确的方式使用 AI,并用 AI 产生他们想为这个世界带来的影响。
主持人:Anthropic 的首席执行官 Dario Amodei 曾暗示,通用人工智能(AGI)还有 2 到 3 年的时间就会实现,我们通过扩展现有的范式就能达到那个阶段。Demis Hassabis 则说我们正处于奇点(singularity)的山脚下。而你曾说过你甚至不想谈论 AGI 这个词。是他们错了吗?还是说大家的争论其实在于我们把什么定义为目标?
李飞飞:我不讨论 AGI 这个词,是因为让人工智能成为一个科学领域的奠基者们,有这个创造能够思考和行动的机器的梦想。那是一个科学探索。而那项探索是我毕生的事业,而且我依然在这条探索之路上。现在,我正在将这种科学探索与打造能改善人们生活的产品结合起来,这就是被称为“人工智能”的领域。人们想怎么称呼它都行,叫它“苹果”也没关系。我所专注于的,是构建一项真正能够彻底改变人们生活和工作的技术。
主持人:那么,你们今年将交付哪一样东西,是我们在明年会津津乐道的?
李飞飞:我希望我们将交付一个空间智能模型,它将激发出人们以前从未见过的、令人无比兴奋的产品机遇。