谷歌世界模型如何攻克“未来不可知”?
2026-02-01 10:25:27 · chineseheadlinenews.com · 来源: 数字开物
本周,随着谷歌 Project Genie 正式向美国 Google Ultra 用户开放,社交媒体上掀起了一股“复古游戏风”,许多网友利用它生成了大量画质略显粗糙、却能实时跑跳的 3D 环境,有人称其为“任天堂世界的拙劣仿制品”。Project Genie 是由 Google DeepMind、Google Labs 以及 Creative Lab 联合打造的一款交互式世界模型 Web 应用。去年 8 月,Google 官方发布了由 Genie 3 驱动的演示视频。

1 月 30 日,Google DeepMind 的 Logan Kilpatrick 对 Project Genie 团队核心成员 Diego Rivas、Shlomi Fruchter 和 Jack Parker-Holder 进行了专访。本次对话全面探讨了世界模型与传统视频生成的本质区别、Genie 3 的实时交互逻辑、物理模拟在生成环境中的演化机制、从 2D 图像步入 3D 虚拟世界的实现路径、AI Agent 在模拟环境中的训练范式、硬件算力与显存对实时生成的约束、Scaling Law 在交互式模型中的应用,以及世界模型在教育、医疗和具身智能领域的长远布局。
Project Genie 团队成员指出,世界模型不仅是视频生成的演进,更是其“交互版本”。世界模型的技术实现难度远高于视频生成,传统视频模型可以通盘考虑过去和未来的帧来保证一致性,但世界模型必须在用户动作不可知的情况下,实现每一帧的实时逻辑自洽,即模型必须在缺乏“未来信息”的前提下预测世界的演变。
在推理模型趋于自动化的背景下,Genie 3 重新证明了精准指令在探索 AI 边界中的价值。Jack 认为,当前模型在提示词工程上的“不稳健”反而为用户提供了亲历前沿技术的机会。同时,针对 60 秒生成时长限制,团队给出了解释:这是一种基于“边际愉悦感”的权衡,即让用户在两个不同的世界各体验一分钟,其交互价值远高于在同一个单调场景中停留过久。
针对技术落地,团队深入展示了 Nano Banana Pro 模型与 Genie 3 的协同效应。用户可以通过一张现实照片作为条件化引导,让静态物体在 3D 空间中“活过来”,并补全其背后的逻辑细节。在具身智能方面,团队强调未来的机器人控制将不再依赖键盘,世界模型将作为 AI Agent 训练的“模拟器”。本次对话还揭示了 SIMA(通用游戏 AI Agent)与 Genie 3 的天然联系:通过文本指令直接创建一个照片级逼真的新世界,并将智能体置于其中观察其行为,这为通往 AGI 开辟了新路径。
在社会应用层面,团队指出,世界模型具备高度个性化的教育与疗愈价值,例如通过 AI 生成特定场景帮助儿童克服恐惧症,或为阿尔茨海默症患者重构童年记忆。团队最后指出,Google 的垂直技术栈优势是实现实时交互的关键,尽管目前仍受限于硬件物理极限,但随着效率优化,未来用户有望在个人设备上运行完整的“宇宙副本”。
01
重新定义世界模型:从被动观看到主动交互
在深入探讨 Project Genie 以及 Genie 3 之前,请先为尚不了解该领域的观众明确“世界模型”的定义,并阐述它与传统视频模型的核心区别。同时,从强化学习的角度来看,世界模型在 AI Agent 学习中扮演着怎样的角色?
Shlomi Fruchter:可以这样理解,传统的视频模型主要是根狙棠本生成几秒钟的视频。而世界模型的功能远不止于此,你只需向它描述一个环境,它就会开始逐帧生成这个世界最核心的区别在于它是交互式的,在任何时间点你都可以决定向左或向右移动,或者在这个世界里进行特定操作。它是视频生成模型的交互版本,正如我们之前演示的那样,用户可以置身于生成的环境中到处走动并进行互动。因为它模拟了现实世界的物理运行逻辑,所以我们称之为世界模型。
Jack Parker-Holder:世界模型在强化学习领域有着深厚的渊源,最初被用作让 AI Agent 学习如何在现实中执行任务的一种方式。但我们意识到,凭借最新的生成式 AI 技术,创造新世界的能力本身就极具吸引力且充满乐趣。这正是我们目前研究的重点。
02
Project Genie,让创意从 2D 画布步入 3D 世界
既然世界模型具备如此强的吸引力,那么 Project Genie 具体是指什么产品?在实际的操作演示中,我观察到系统会先调用 Nano Banana 模型创建图像画布。请介绍一下该产品的定位,用户如何定义角色与环境,以及为什么先创建图像画布对提升用户体验至关重要?
Diego Rivas:Project Genie 是我们与 Google Labs 以及 Creative Lab 合作构建的 Web 应用,现已正式向美国所有的 Google Ultra 订阅用户发布。它的定位类似于 Veo 对应的 Flow,或者是 Imagen 对应的 ImageFX。简单来说,它是一个可以让你构建专属世界的应用。稍后我们会通过演示看到,你可以定义角色和环境,在正式踏入世界之前,还可以利用 Nano Banana Pro 创建一张画布作为视觉基础。Creative Lab 在画廊中展示的各类世界中投入了大量心血,稍后我们会挑选其中一个进行展示。
(关于创建世界)现在我先介绍如何创建专属世界。得益于 Project Genie 和 Genie 3 的强大性能,用户可以随心所欲地创造并进入任何想去的世界。我们先从简单的开始,比如输入“珊瑚礁和一条金鱼”。第一步是调用 Nano Banana Pro。通过信任测试员的反馈,我们发现进入世界前先创建这样一个图像画布非常有价值。接着你会看到图像生成的全过程。此外,我们还提供了包括上传照片在内的多项控制功能。从信任测试员的反馈来看,最惊艳的瞬间莫过于从 2D 素材直接步入这个素材内部。
03
实时生成的幕后逻辑:操控、反馈与物理模拟
当用户点击“生成世界”按钮时,系统后台是如何在极短时间内完成准备工作的?另外,针对生成世界中的交互细节,模型是否能实现复杂的角色反应?例如,我能否将演示中的金鱼换成鲨鱼,或者增加沉船背景?用户在其中的导航和物体碰撞是否遵循物理逻辑?
Diego Rivas:没问题,我们来尝试换成鲨鱼并加上沉船。
Shlomi Fruchter:在幕后,AI 系统正在为这个世界准备更详尽的描述。如你所见,生成速度非常快。它目前还不完全算是一款游戏。你可以在其中导航、移动,观察其他角色你有时会撞到某些物体并使其发生位移,这些都是通过导航实现的。虽然现阶段还没有复杂的剧情或叙事线,但在原理上,实现这些功能并不存在障碍。模型的核心目标是逐帧生成一个尽可能写实的世界。比如你撞到一个球,球会自然滚动。模型在训练过程中隐含地学习了世界的演化逻辑。除了娱乐价值,这种能力在其他应用领域也极具潜力。
04
世界模型技术实现难度高于可全局优化的视频生成
我们在演示中看到水花飞溅等效果非常写实,这种物理真实感是否源于 Veo 等视频生成模型的研究突破?从技术角度看,生成一个实时演化的世界模型,与生成一段预设好的视频相比,哪一个挑战更大?
Shlomi Fruchter:两者确实相关,但世界模型的挑战更大。生成视频时,模型可以通盘考虑过去和未来的帧来保证一致性,自由度更高。而世界模型必须面对实时演化的环境 AI 无法预知用户的下一个动作。因此,每一帧都必须与过去的操作以及当前的即时动作保持高度一致,这在定义上就是一个更难解决的问题。
05
画廊通过展示创意案例帮助用户跨越提示词门槛,未来将探索复杂的多人交互方向
面对这种新型模型,用户常常会因面对空白提示词框而感到手足无措。画廊中的案例如何帮助用户将创意具象化?此外,运行这些世界需要专门的算力支持,这是否预示着未来用户可以携带个人素材(如纸飞机)进入他人的世界进行多人交互?
Diego Rivas:回到画廊,我来展示一个我最喜欢的、由 Creative Lab 制作的世界。它的价值在于,如果用户打开 Project Genie 却不知道从何下手,这些案例可以作为起点或灵感来源。画廊中的案例很好地将各种独特的创意具象化了,这非常有意义。
Jack Parker-Holder:面对一种新型模型时确实会有这种感觉,因为社交媒体上还没有足够的使用案例供大家参考。就像去年发布的 Veo 3,用户玩出的很多花样是我们开发者完全没想到的。我期待 Project Genie 的下一批用户也能挖掘出我们尚未发现的惊喜。(关于多人交互的可能性)这确实在我们的路线图中,但多人交互比单人模式复杂得多。主要挑战在于多人同时与同一个模型交互时的延迟问题。虽然有很多技术细节需要完善,但这绝对是一个令人兴奋的方向。
06
用户能轻松修改世界元素并学习后台复杂的提示词结构
现在的推理模型会在幕后自动完善指令,导致用户的提示词技巧似乎在退步。如果用户想要修改已生成的世界(例如改变球的颜色),该如何操作?另外,用户在哪里可以学习到系统生成的具体提示词,Nano Banana 在这一演进过程中起到了什么作用?
Diego Rivas:比如你很喜欢这个世界,但想把球换成红色,只需点击 Remix 并输入“将球改为红色”。在生成世界后,点击“复用提示词”,就能看到后台生成的具体指令。
Jack Parker-Holder:这又是 Nano Banana 的应用案例。回想 Genie 1 时代,我们使用的是 Imagen 1,当时生成的图像质量很不稳定。Nano Banana 在 Genie 3 之后发布,它所带来的进步是飞跃性的。也许未来,定义一个世界将不再局限于文本和图像。
Shlomi Fruchter:我们设想以后你只需提供一段视频或喜欢的素材,就能直接步入那个场景,与里面的人交谈,完全沉浸在那个世界中。
07
赋予静态图像生命
针对该模型的复杂度上限,它能否处理大量并行的动态事件?从测试员的反馈来看,有没有什么非常酷的用法?例如,我们能否将现实生活中的物体(如吉祥物 Bob 的照片)上传并赋予其生命?
Shlomi Fruchter:模型目前还不完美,这也是发布研究预览版的原因,我们希望通过用户的使用来发现其优缺点。它在视觉效果极其复杂的创意环境中表现出色,但在动态演化方面,有时会出现动力随时间减弱的情况,这是我们正在优化的方向。我建议大家多去尝试,边界往往是在玩的过程中被发现的。
Diego Rivas:我们从测试员那里看到一个非常酷的用法,就是拍下现实世界的照片或物体并赋予它们生命。我们邀请了一位特别嘉宾,Nano Banana 的恐龙吉祥物 Bob。我们刚给它拍了照并上传到应用中。输入“照片中的房间和玩具”,进入世界。你看,Bob 就在这个基于真实照片生成的图书馆场景中。我可以实时控制这个角色。这种赋予任何角色生命的体验非常强大。
08
Genie 3 支持写实与卡通等多种风格转换
在视觉表现上,Genie 是否只能走写实路线,还是可以实现卡通风格的迁移?此外,针对技术约束,目前系统将生成时长硬性限制在 60 秒是出于技术截断还是成本考虑?未来是否会延长时长以适应滑雪等持续运动场景?
Shlomi Fruchter:风格迁移完全可以。当前的写实风格是因为输入源是写实照片,你完全可以根据喜好将其改为漫画或其他任何风格。
(关于生成时长限制)实际上可以生成更长的时间,我们内部也做过相关的演示。目前设定在 60 秒是因为这个时长足以让用户充分体验虚拟环境,同时也能保证我们在合理的推理成本下为足够多的用户提供服务。这本质上是在服务质量与算力成本之间的一种权衡。未来我们会看到更多超越现状的尝试,进入更有趣的环境,加入更多可以互动的角色,延长生成时长显然是有意义的。
Jack Parker-Holder:还有一个技术挑战在于,随着生成时长的增加,场景的动态表现可能会逐渐减弱。我们认为,与其让用户在同一个世界里待上两分钟,不如让他们在两个不同的世界各体验一分钟,这种边际愉悦感会更强。当然,如果我们收到用户希望延长时长的反馈,我们也完全可以做出调整。这也取决于具体的场景类型,如果是高山滑雪这类持续运动场景,两分钟的体验会非常棒,但如果是探索图书馆,两分钟可能就显得乏味了。
09
世界模型的普及面临显存占用随长度激增的挑战
在研究层面,Genie 3 面临的核心约束是什么?随着技术从 Genie 2 演进到 Genie 3,我们是如何在分辨率、实时性与一致性之间找到平衡的?
Jack Parker-Holder:Genie 3 的核心约束是在保证实时交互频率的同时优化延迟表现。此外,显存占用也是一个巨大的挑战,正如在大语言模型中,上下文长度增加会导致计算成本激增且速度变慢。在研究层面,我们正在协同优化这些相互冲突的目标。
(关于技术进步)一年前当我们在构思通过自回归模型实现一分钟的实时一致性时,大家都觉得这是一个极具挑战性的目标。就在一年多以前,Genie 2 只能生成 10 秒的内容,分辨率很低且不是实时的,场景也缺乏照片级真实感。现在我们不仅实现了这些突破,还能稳定生成一分钟。
Shlomi Fruchter:我们总是很快就会对新技术习以为常。但对我而言,模型现在的运行速度已经足够快。由于 AI 是即时生成世界的,当生成速度已经跟上我们的消耗速度时,再追求更快的速度意义已经不大了。目前的工作重点是降低成本,以便让更多人使用。随着生成质量的不断提升,这将是我们努力的主要方向。
10
体验时长的权衡与动态交互的演进
目前系统将生成时长硬性限制在 60 秒,是出于技术上的截断,还是已经可以实现更长时间的连续生成?此外,从受信任测试者那里获得了哪些关于用户互动方式的重要洞察?
Shlomi Fruchter:实际上可以生成更长的时间,我们内部也做过相关的演示。目前设定在 60 秒是因为这个时长足以让用户充分体验虚拟环境,同时也能保证我们在合理的推理成本下为足够多的用户提供服务。这本质上是在服务质量与算力成本之间的一种权衡。未来我们会看到更多超越现状的尝试,进入更有趣的环境,加入更多可以互动的角色,而不仅仅是简单的导航。我们可以在此基础上构建很多方向。当体验变得更加引人入胜时,延长生成时长显然是有意义的。
Jack Parker-Holder:(关于时长挑战)正如 Shlomi 提到的,还有一个技术挑战在于,随着生成时长的增加,场景的动态表现可能会逐渐减弱。我们认为,与其让用户在同一个世界里待上两分钟,不如让他们在两个不同的世界各体验一分钟,这种边际愉悦感会更强当然,如果我们收到用户希望延长时长的反馈,我们也完全可以做出调整。这也取决于具体的场景类型,如果是高山滑雪这类持续运动的场景,两分钟的体验会非常棒,但如果是探索图书馆,两分钟可能就显得有些乏味了。一年前当我们在构思通过自回归模型实现一分钟的实时一致性时,大家都觉得这是一个极具挑战性的目标。就在一年多以前,Genie 2 只能生成 10 秒的内容,分辨率很低且不是实时的,场景也缺乏照片级真实感。现在我们不仅实现了这些突破,还能稳定生成一分钟,而用户已经在抱怨一分钟不够长了,我认为这就是技术进步的最好证明。
Diego Rivas:(关于互动洞察)我们从受信任测试者那里获得了一个重要洞察:用户希望根据场景语境来调整自己的行为。比如看到一扇门,自然会想打开它,看到一个物体就想把它搬走。根狙田体的性质触发不同的动作,这种非确定性的互动方式非常有趣。
11
项目正从纯研究转向具备大规模服务能力的产品
Project Genie 是否会提供开发者 API?从 8 月发布演示视频到如今正式供大众实验,中间经历了哪些模型开发与基础设施构建的过程?未来如何将这种交互模型应用于机器人等具身智能领域?
Diego Rivas:也会提供开发者 API。Project Genie 现在的表现已经非常出色,但这仅仅是一个起点。我们正与 Google Labs 密切合作,在功能、控制手段以及应用底层架构等方面持续演进。未来我们也希望将这项技术带到 Project Genie 以外的更多平台,探索应用的广度。这一阶段是模型开发周期的核心,让我们能从创意从业者、教育工作者等不同类型的用户那里进行广度优先的学习。我们因此获得了非常深刻的洞察,了解了模型目前的价值所在、未来的演进方向,以及我们需要追求的北极星体验。
Jack Parker-Holder:(关于机器人技术)很多功能在不同用例中其实是非常通用的,比如更广泛的互动性。可以肯定的是,未来的机器人技术不可能只靠键盘的方向键来解决要实现未来的机器人助手,我们需要更复杂的控制手段。目前,我们通过发布这种领先的模型,成功地与许多不同团队建立了联系。我们正在吸收所有反馈,每一个被提出的需求都已列入我们下一代模型的开发清单中。回看 8 月,当时这更多是一个大规模的研究项目。我们设想了很多用例,比如 AI Agent 或者机器人等具身智能。去年的 SIMA 项目也使用了 Genie 3 来训练游戏智能体。从消费者角度看,我们当时并不确定它是否已经成熟到可以向大众推出的地步。但在受信任测试者计划中,我们发现用户在初次体验时真的会有惊艳的感觉。
Shlomi Fruchter:(关于工程落地)从模型层面来看,我们在 8 月发布并进行了小范围演示,以收集初步反馈。这是一种全新的 AI 体验,我们必须审慎、负责任地将其推向世界。此后的大量工作集中在基础设施、推理架构以及成本控制上,以确保能支撑大规模的用户群体。通过 Ultra 计划,尤其是在美国地区,我们可以通过足够的用户样本来观察它的实际用途、互动方式以及用户痛点。目前的工作重点是降低成本,以便让更多人使用。随着生成质量的不断提升,这将是我们努力的主要方向。
12
世界模型将重塑媒体互动方式
由 Genie 3 驱动 of Project Genie 已经开放,接下来的研究重点和产品目标是什么?你们三位对于用户探索该模型有哪些建议或感到兴奋的方向?对于“提示词时代回归”以及“交互叙事”如何理解?
Shlomi Fruchter:在应用层面,我对娱乐和教育领域的潜力非常兴奋。我们希望通过开放访问,观察用户能基于现有能力构建出什么样的应用。教育是重点方向之一,我们可以让人们在虚拟世界中获得现实中难以获得的经历。比如,让害怕蜘蛛的孩子在 AI 生成的房间里尝试走动,这种高度个性化的体验非常有价值。另一方面,机器人技术和具身智能的世界模型潜力巨大,虽然还有很多研究工作要做,但我个人对此非常期待。我认为我们目前只实现了 50% 的既定目标,因为我们的目标总是定得非常宏大。我认为是个性化,或者说创造出一种完全属于你、且其他 AI 系统无法提供的体验。比如有个非常酷的研究项目,是尝试为阿尔茨海默症患者重建记忆,让他们重新体验童年的往事。我认为这种将个人事物赋予生命的方向非常迷人。这种带有目标的基础游戏体验已经初具雏形了。比如想象一下画一个球,挑战自己能不能用它写出名字。虽然现在看起来很原始,但这种基础靶反而孕育了巨大的潜在创造力。想象一下你拥有一个宇宙的副本,可以在其中随心所欲,这显然极具价值,能应用于无数场景。这就像一颗北极星,指引我们不断前行。
Jack Parker-Holder:(关于探索建议)你会发现它在提示词工程方面目前还不够稳健。但这其实是个机会,因为现在就开始体验的人,等到几年后这项技术变得非常成熟时,你可以自豪地说,我经历过那个提示词至关重要的时代。虽然可能第一次尝试没成功,但绝对值得坚持。这种全新的模型可能会以意想不到的方式捕捉到你的意图,做出非常有趣的东西。还有一个关于圆环的例子,你可以尝试骑龙飞行,这也是一个很有趣的创意。另外我常做的一件事是盯着 Genie 生成的世界,比如那些第一人称的真实场景看很久,然后再看向窗外,去感受现实与生成的对比。我认为最终会有一个时间点,生成的世界与现实将真假难辨。
Diego Rivas:(关于叙事革命)对我来说,一个有趣的产品课题是,当每个人都能将被动消费媒体转变为互动体验时,会发生什么。这是非常有趣的处女地。过去有过类似尝试,但现在有了这种真正的定制化交互叙事,它将如何重塑整个媒体和娱乐行业,非常值得期待。这也是为什么我们做恐龙 Bob 的例子,你在尝试重建自己的空间。当我们将真实空间引入 AI 系统并进行有趣的增强时,会产生很多奇妙的效果。
Logan Kilpatrick:非常有意思。也许到了 Genie 5 发布时,我们会发现自己其实就生活在模拟世界里。
Shlomi Fruchter:说不定我们现在就在 Genie 5 里,只是我们不知道。
13
SIMA、Scaling Law 与垂直技术栈优势
要实现这一切涉及极其困难的跨团队协作,幕后有哪些团队参与?SIMA 智能体的具体定义是什么,它与 Genie 有何关联?世界模型是否遵循 Scaling Law,其技术进步曲线与图像或视频生成有何异同?
Diego Rivas:幕后涉及的团队非常广泛。包括 Google Labs、Creative Lab,他们制作了画廊里的大部分世界。还有负责推理服务和基础设施的团队。自 8 月份宣布模型以来,这简直是一场全员冲刺。在 Google 和 DeepMind 工作的魅力在于,团队可以充分发挥垂直技术栈优势,在开发前沿模型的同时,利用最顶尖的硬件来提供底层支持。我们对“在世界之上进行构建”的想法感到非常兴奋,用户可以延伸出各种分支,并且这些创作是可以溯源的。
Jack Parker-Holder:(关于智能体 SIMA)SIMA 是目前最强大的游戏 AI Agent 之一,能够在 3D 世界中进行交互。这是一个由 Gemini 驱动的智能体,用户可以在 3D 环境中输入文本指令,引导它实现各种目标。团队在去年年底发布了相关研究成果,并利用 Genie 3 构建的世界来探索智能体的各项能力。以往 SIMA 仅在少数几款游戏中接受训练,但现在用户只需通过 Genie 输入文字,就能创建一个全新的世界,并将智能体置于其中观察其行为。关于技术轨迹,图像生成目前最为成熟,视频生成次之,而当前的交互式模型则代表了更前沿的领域。虽然最新一代视频模型的画质高于目前的 Genie 3,但其实时交互性是核心约束,整体技术演进依然处于非常陡峭的上升阶段。
Shlomi Fruchter:(关于研究闭环与硬件)回看研究初期,这甚至是一个悬而未决的问题,它到底行不行,能不能做到实时交互。对我来说,能完成这个闭环,从一个研究构想,到发布模型,再到如今把它变成用户可以上手的体验,真的非常有成就感。硬件始终是模型发展的关键限制。目前的趋势是在保持成本不变的前提下提升模型效率。团队希望未来用户能在自己的个人设备上直接运行这些 AI。虽然目前高性能 TPU 和 GPU 的获取仍存在缺口,但这正是未来的改进方向。这与传统的生成式技术有所不同,用户创造的是一种交互体验,开启了许多以往从未考虑过的新路径。相比于仅仅是自动化替代现有的生成流程,这种技术实现了以前根本无法完成的任务。
Logan Kilpatrick:非常感谢团队为将 Project Genie 推向世界所付出的努力,这种点击进入异次元世界的新奇感非常迷人。期待未来能再次探讨 Project Genie 2 甚至后续更高版本的进展。