李飞飞:LLM做不到的事,世界模型可以

2026-06-11 04:25:27 · chineseheadlinenews.com · 来源: 51CTO技术栈

“在机器中解锁生成奇异的 3D和 4D 世界、在任何世界中进行推理、训练智能体或机器人,或者辅助人类与世界互动的能力,正是空间智能的全部意义所在。”

“模拟器可以变成渲染器或规划器,在我看来,这个模拟器是解锁空间智能的一条巨大且关键的路径。”

“我们需要改变教育体系,我们需要改变评估的方式,我们需要改变教师教学的方式,从而让下一代学生能够被这些 AI 工具赋能,并做到我们从未想象过的事情。”

当下致力于实现空间智能和构建世界模型的李飞飞,近期亮相 Bloomberg Tech 2026 大会,接受了专属采访。

在访谈中,她真诚地分享了自己创立 World Labs 的初心,那就是通过构建世界模型来实现空间智能。

在她看来,智能,始于动物在物理世界中的观察和移动。进化,始于动物和物理世界的互动,与由此增进的世界认知和自我认知。我们人类的日常生活,很大一部分都与物理世界的交互有关。

所以说,让 AI 拥有对物理世界的理解、推理、模拟生成和模拟互动的能力,也就是空间智能,是人工智能发展的关键突破口。同时,这不仅有可能助力人类文明进步,还能极大便利我们的日常生活,具有巨大的价值和意义。

其实在我们的生活中,有很多日常行为是不能用语言表达、或靠语言做到的。李飞飞举出一些有趣例子:语言不能灭火,也不能煎出香喷喷的鸡蛋。然而世界模型的下游应用却能够填补这些空缺,搞定语言模型做不到的事情。

不过目前“世界模型”的概念十分混淆,被用于太多情境。为了让大家更清晰地明白世界模型是什么,她将世界模型依据不同的功能划分了三大类别。

其一是为了满足人类眼球的“渲染器”,致力于在屏幕上呈现美丽的像素。

其二是为机器或机器人预测下一步要采取的动作的“规划器”。

其三是模拟真实 3D、4D 物理世界的“模拟器”,它是关键枢纽,可以变成渲染器或规划器。在李飞飞看来,这条路径才是解锁空间智能的关键路径。

此外,在主持人问及 AI 会如何改变大学学习体验时,李飞飞直言,AI 将会改变从幼儿园到大学的整个教育体系,从能力评估方式到教师教学模式,都会迎来全方位的变革。

人力资本是世界上最宝贵的资源,有 AI 的加持,未来人们的创造能力和生产能力会超出我们的想象。

以下为此次访谈的全部内容,enjoy:

LLM 做不到的事,世界模型可以

主持人:每个人都在关注大语言模型(LLM),比如 ChatGPT 和 Claude。但你却筹集了 10 亿美元来构建一些截然不同的东西。大世界模型(Large World Models)就是佐证。其他人没做,而你正在做的赌注是什么?

李飞飞:这就是我共同创立的初创公司 World Labs,我们正全力投入“空间智能”,而实现空间智能的手段就是构建一个大世界模型。那么它的依据是什么呢?

对我们来说,这是一个长达 5 亿年的故事,即动物的智能始于在物理世界中的观察和移动。进化始于我们作为动物,了解这个世界是什么,了解我们是谁,了解如何在其中移动并与之互动。人类生活、人类工作生活、人类私生活的很大一部分都与感知、理解、推理以及与世界的互动密切相关,这也包括充满创造力的想象世界和具有生产力的虚拟世界。

因此,在机器中解锁这种能力,解锁生成奇异的 3D、4D 世界的能力,解锁在任何世界中进行推理的能力,解锁训练智能体或机器人、或者辅助人类与世界互动的能力,正是空间智能的全部意义所在。这就是我们所专注于的方向。

主持人:那么,世界模型最终能做哪些大语言模型永远无法做到的事情?

李飞飞:能用语言灭火吗?能用语言做出一份煎蛋吗?我认为这其中有太多的可能性。比如创造力,人们在进行设计,无论是设计室内空间、设计机器、设计房屋还是设计故事,这其中的很大一部分是无法用言语表达的。

我们也会使用智能体,无论是在虚拟世界中,比如游戏娱乐,还是在更严肃的工业应用中,比如数字孪生设计、检测或各种优化任务;或者我们制造机器人,来帮助我们做很多事情,从灭火到辅助医疗场景,再到制造业,所有这些都是解锁空间智能和构建世界模型的下游应用。

主持人:那么,你认为世界模型迎来属于它的“ChatGPT时刻”会是什么样子?我们该如何知道这一时刻已经到来?

李飞飞:这是一个非常好的问题。因为“聊天”是一种非常大众化的消费者行为,所以“ChatGPT时刻”往往被用来描述一个最接近“AI能做什么”在公众或消费者中引发病毒式传播的时刻。

关于我们试图解锁的这种空间智能,我仍在试图弄清楚是否存在一个相对应的消费者时刻,因为我们所谈论的这类应用往往会首先进入专业人士的视野,专业创作者、专业设计师、专业开发者、专业研究人员和工程师,他们将其用于机器人技术和工业设计等领域。

所以,也许我们不一定会有属于消费者的标志性时刻,但也许我们会有。而且,你知道,我也很想能用一种更简单的方式来设计我的房子,比如只需点击一下就能改变窗帘的颜色。

告别概念混淆,世界模型中的模拟器才是关键

主持人:听起来确实很酷。在过去的六个月里,其他人也在世界模型上展开了布局。谷歌推出了 Project Genie,英伟达拥有自己的世界模型 Cosmos,英伟达同时也是你的投资者之一。你拥有哪些他们没有的优势?在所有的竞争对手中,你最担心哪一个?

李飞飞:是的。首先,我们在 2024 年创立了 World Labs。我还记得当我们出去谈论我们的模型和空间类比时,那就在一年前,大家还完全在讨论语言模型。所以我们确实占得了先机,并意识到这将是 AI 的下一个前沿,对此我感到非常兴奋。

我认为我们拥有一支不可思议的团队,我们有坚定的信念。但世界很大,我认为这就像大语言模型一样,会有很多公司在世界模型领域做出令人内难以置信的工作。

就在 24 小时前,我们实在受够了“世界模型”这个词被如此混淆并在这么多不同的语境下被使用,所以我们实际上发布了一篇博客,专门解释世界模型的功能分类法,而不是把所有东西混为一谈。

在我看来,目前在谈到空间智能时,有三种方式可以描述“世界模型”。

第一种我称之为“渲染器”(renderer),即模型在屏幕上呈现美丽的像素,大多类似于视频生成模型,其消费者主要是人类的眼球。

虽然模型致力于在屏幕上呈现美丽的像素,但它并不一定符合物理学、动力学和几何的正确性,因为这只是为了满足人类的眼球,而不一定是为了计算和其他任务。

第二种世界模型我们称之为“规划器”(planner),它更多是为机器和机器人服务的。无论输入的是世界的状态还是动作,它都会输出下一步要采取的正确动作。你会在机器人应用中经常看到这种世界模型,并且在那个语境下听到它。

第三种,我认为是这三者之中的核心纽带,那就是“模拟器”(simulator)。它实际上既服务于人类,也服务于机器,试图尊重世界的结构、物理学和动力学,并真正模拟世界的 3D 和 4D 信息以及语义信息。模拟器可以变成渲染器,模拟器也可以变成规划器,但在我看来,这个模拟器是解锁空间智能的一条巨大且关键的路径。这就是 World Labs 正在努力研究的方向。

人形机器人的投资远不止 60 亿美元,空间智能是核心技术之一

主持人:所有这一切最终都汇聚到了机器人技术上。所以我想听听你对这个领域、尤其是对人形机器人的看法。对人形机器人的投资已经达到了 60 亿美元。但是,你知道,它们操作洗碗机的速度还是没我快,它们也依然不能去帮我拿亚马逊的快递。那么,世界模型和 World Labs 会弥合这种炒作与现实之间的差距吗?

李飞飞:这是一个复杂的问题。首先,机器人技术将是人类工业化进程中最重大的革命之一,60 亿美元太少了。如果你看看自动驾驶汽车的投资,如果你看看语言模型的投资,耗资远不止 60 亿美元。

我并不是说我们现在就要盲目跟风。我认为投资需要时间,同时也希望大家不要盲目炒作,而是能深思熟虑地投资于正确的努力。例如,解锁世界建模、空间智能和模拟器,所有这些都是这项重要努力的一部分。

那么,我们是否会弥合这一差距?我确实相信 World Labs 正在研究空间物理智能领域最核心的技术之一。显然,这就是我们的希望。

摒弃炒作,AI 的目标是赋能人类

主持人:你对 AI 安全(AI safety)一直保持着较为克制的态度,对“人类灭绝”的末日叙事持怀疑态度,但也对过于粗暴的监管持保留意见。当你审视整个行业时,你认为哪里是真正的安全工作,哪里又是“安全作秀”?有人做对了吗?

李飞飞:总的来说,我对每一种激进言论都比较克制,说实话,这让我显得很无聊。我认为现在真的有太多的炒作。显然,我们需要构建正确的技术,我们需要给技术加上护栏。无论你是使用“负责任”这个词,还是使用“安全”,或者是使用“值得信赖”,构建正确的技术和产品,使其能够赋能、增强、提升人类,而不是伤害人类,这才是关键。这难道不是我们所做的任何工作的目标吗,无论它是不是 AI?

我真心希望每一家公司、每一个正在打造的产品,其幕后人员都能非常清醒地意识到这一点,并去思考:我们正在使用什么数据?我们正在构建什么系统?我们正在进行什么评估?我们正在设置什么护栏?我们如何与我们的用户和客户沟通?我们如何与监管机构合作,以便在关键时刻我们能够履行责任?我确实相信很多这样的工作正在发生。老实说,这并不是在作秀。

例如,制药和医疗保健行业的公司正在整合 AI。毫不夸张地说,我刚才就是从医院赶来参加你的圆桌讨论的,因为我有一位家人大约在接下来的一个小时内要动手术。我刚才就在她的医院里,看着 AI 已经在哪些地方被使用,以及可以在哪些地方被使用,而这一切已经在发生了。医生正在使用 AI 来协助他们记录病历。放射科医生正在使用 AI 来协助他们读取核磁共振(MRI)和 CT 扫描。我真的希望我们能有更多的 AI 来帮助我们的护士,帮助家属。昨晚我收到了一份很长的放射学报告,我做的第一件事就是把它发给 AI,让它帮我解释。所以这一切都在发生,安全措施也在跟进。但我们需要更多正确的方法,以一种有科学依据的方式来进行。这才是应该进行的对话,而不是你所说的“作秀”。

舆论两极化,对 AI 的讨论缺乏深度和理性

主持人:非常感谢你能来,希望你的家人一切顺利,我们大家都这么祝愿。当前公众的反弹是真实的,这被称为“AI 仇恨浪潮”。我相信你一定看过那个视频,谷歌前首席执行官埃里克·施密特(Eric Schmidt)在大学毕业典礼上被喝倒彩。你和学生们相处的时间很多,他们是怎么说的?如果他们感到害怕,这种恐惧是合理的吗?

李飞飞:我确实花了很多时间和学生在一起。不过客观地说,我的学生相当享有特权,因为他们是斯坦福大学的学生。我认为更重要的是,我自己也努力去践行,我们要花时间与我们的老师、护士、父母、祖父母在一起。这实际上是我一直努力在做的事。我试着与 K-12(基础教育)的教育工作者交谈。我试着去到不同的地方,与那些觉得自己被排除在对话之外的人交谈。

我们的学生也反映出了这种复杂的情绪。社会中存在着一种希望,也有兴奋,同时也有困惑。而且,它伴随着一种双重感受:一方面,当 AI 能帮我做到以前做不到的事情时,会带来一种尊严感和能动性;而另一方面,如果 AI 要抢走我的工作,又会带来一种尊严和能动性的丧失。

所以我认为这种情绪是复杂的。我真的很想指出,这种情绪在很大程度上是因为缺乏有深度、理性的公众讨论。现在,所有的空间和关注度都被吸进了两极分化的极端中,要么是彻底的毁灭论,要么是完全的乌托邦主义。当炒作占据了所有的关注时,那种空白就会滋生焦虑。而这片空白恰恰是我们真正需要关心的,因为真实的人们就生活在那里,真实的人们正在那里寻找答案。

我认为,作为一名科学家、教育家和创业者,我与学生、教育工作者和创业者并肩站在第一线。我深信不疑,我的责任之一就是不搞炒作,努力用科学和谦逊的态度去发声,并启发人们认识到,这是一项如果走对路,就能真正赋能我们许多工作和生活、真正帮我们建立更好的医疗体系、带来更好的科学发现、更好的环境和更好的教育的技术。

教育体系变革将至,AI 将重塑全学段学习模式

主持人:我们都是母亲,都有十几岁的青少年孩子。你认为 AI 将如何改变大学阶段的学习体验?

李飞飞:AI 必定会改变学习,它必定会改变从幼儿园到大学(K-16)的学习。我认为这是人类在未来十年中面临的最大机遇之一。

我们整个世界最宝贵的资源是什么?是人力资本。当我们拥有一种能够应对标准化考试的技术,无论是核心课程类的测试,还是一直到国际数学奥林匹克竞赛的试题,AI 都能比普通人做得更好。这并不是说人类很差,而是说我们需要改变教育体系,我们需要改变评估的方式,我们需要改变赋能教师教学的方式,以此来教育下一代学生,让他们能够被这些工具赋能,并做到我们从未想象过的事情。

主持人:那么,你认为我们的孩子还会学习吗?

李飞飞:当然会。如果我们能正确地教导他们。如果社会能让他们做好正确的准备,他们就不应该感到害怕。当今所有的孩子都不应该害怕 AI。他们应当感受到人类的主观能动性去引领 AI、以正确的方式使用 AI,并用 AI 产生他们想为这个世界带来的影响。

主持人:Anthropic 的首席执行官 Dario Amodei 曾暗示,通用人工智能(AGI)还有 2 到 3 年的时间就会实现,我们通过扩展现有的范式就能达到那个阶段。Demis Hassabis 则说我们正处于奇点(singularity)的山脚下。而你曾说过你甚至不想谈论 AGI 这个词。是他们错了吗?还是说大家的争论其实在于我们把什么定义为目标?

李飞飞:我不讨论 AGI 这个词,是因为让人工智能成为一个科学领域的奠基者们,有这个创造能够思考和行动的机器的梦想。那是一个科学探索。而那项探索是我毕生的事业,而且我依然在这条探索之路上。现在,我正在将这种科学探索与打造能改善人们生活的产品结合起来,这就是被称为“人工智能”的领域。人们想怎么称呼它都行,叫它“苹果”也没关系。我所专注于的,是构建一项真正能够彻底改变人们生活和工作的技术。

主持人:那么,你们今年将交付哪一样东西,是我们在明年会津津乐道的?

李飞飞:我希望我们将交付一个空间智能模型,它将激发出人们以前从未见过的、令人无比兴奋的产品机遇。


    24小时新闻排行榜更多>>
  1. 习近平访朝不利 金正恩四次公开羞辱 接待规格暗降
  2. 美国通胀升至三年最高
  3. 上海70后副市长陈宇剑落马
  4. 重庆市民抗议虐狗男,遭警方抢夺手机、暴力拖拽
  5. 川普: 击中美军机的伊朗炸弹未爆炸 已被美方获取
  6. 离谱!加航机长“无照”飞17年、900航班才被抓
  7. “老师,我是中华民国人”云南大学思政课上学生怼老师课堂炸锅
  8. 中共操纵舆论 煽动美民众抵制关税和数据中心
  9. 奔赴开罗,探秘解锁古埃及神秘历史
  10. 一代国民神车走下神坛
  11. 日央行长因病“错过”利率决议
  12. 台湾军方举行沿海演习
  13. 胰腺癌迎来历史性突破
  14. 中国存储穿越被围堵的10年
  15. 美军周三对伊朗多个目标发动新一轮空袭
  16. 每天只睡5小时?阿里巴巴前高层爆内部高压氛围
  17. 刘小东把人画“丑”了?
  18. 美联储降息还是加息?经济学家看法不一
  19. 鲁比奥一句“战略稳定” 北京抓住讯号 美中关系升级
  20. 赫格塞思视察位于古巴的美军基地
  21. 印度取消对中豁免,想空手套中国技术
  22. SpaceX IPO或诞生4000名百万富翁
  23. 战争纪念馆活动海报提“抗美援朝” 韩防长下令彻查
  24. IPO前夜,马斯克把自己的太空算力蓝图公开了
  25. 分析:中朝不谈无核化另有隐情 或震醒韩国
  26. 广西桂林发生大爆炸 酿7死17伤惨剧
  27. 全球人民大对账,马斯克这回把“墙”砸了
  28. 无人机卡驾驶舱 川普:阿帕奇直升机创奇迹
  29. 谷爱凌遭美国邻居投诉,人行道“乱摆”杂物
  30. OpenAI称已向美证交会保密提交首次IPO申请
  31. 川普:伊朗拖得太久,必须付出代价
  32. 连印度也生不动了 生育率出人意料骤降警示世界
  33. 消费不足 中国5月CPI同比低于预期
  34. 世界杯开幕式 三国三地精彩表演等你看
  35. 中国机器人“网红”,在外网杀疯了
  36. 中国常驻联合国副代表:对投票结果表示失望
  37. 杀妻为何难偿命:婚内命案“少杀慎杀”这二十余年
  38. NBA总决赛开打,纽约MSG周边全面大封锁
  39. “女主播遭快递盒爆炸烧伤案”更多细节曝光
  40. 世界杯就要开幕了 有哪些亮点一文看懂
  41. 61岁,被工地清退后,新规来了
  42. 【百年真相】中共越反越腐三大现象四大原因
  43. 美驳斥伊朗谣言:无美舰遇袭 海峡未关闭
  44. 湖南建投董事长蔡典维落马 两名老领导投案
  45. 上海又一高官落马 副市长陈宇剑遭中纪委调查
  46. 外交部:日本这一动向十分危险
  47. “残障老人被奴役20年”通报来了,好一个“同处居住”
  48. 川普不担忧通货膨胀,放言:我爱通胀!
  49. 卖鸭腿的“鹅腿阿姨”,以后怎么面对清北学生
  50. 中国造船业的燃眉之急 下一代工人到哪去找
  51. 狂风80迈横扫芝加哥,25万户停电
  52. 伊朗公布最新海上损失情况
  53. 美将188中企列黑名单 分析:封堵中共AI生态链
  54. 捷克国防部限制中国汽车进入敏感军事区域
  55. 美国会委员会审议《2027年国防授权法》
  56. 单车撞上黑熊,骑士昏倒熊跑了
  57. 当科技试图改写生命 古老预言正在实现
  58. UFC即将开打:白宫南草坪拥有悠久的体育历史
  59. 川普:80岁生日愿望是世界和平
  60. 世界杯梗最多的男人,靠狂野长相在全网横行霸道