谷歌4D世界模型来了:比SOTA快300倍

2026-01-23 10:25:30 · chineseheadlinenews.com · 来源: 新智元

谷歌 DeepMind 发布 D4RT,彻底颠覆了动态 4D 重建范式。它抛弃了复杂的传统流水线,用一个统一的“时空查询”接口,同时搞定全像素追踪、深度估计与相机位姿。不仅精度屠榜,速度更比现有 SOTA 快出 300 倍。这是具身智能与自动驾驶以及 AR 的新基石,AI 终于能像人类一样,实时看懂这个流动的世界。

如果是几年前,你问一位计算机视觉工程师:“我想把这段视频里的所有东西——无论它是静止的房子还是奔跑的狗——都在 3D 世界里重建出来,并且还能随时知道它们下一秒会去哪儿,需要多久?”

他大概会递给你一根烟,让你先去买几块顶级显卡,然后给你画一个由四五个不同模型拼凑起来的流程图:先算光流,再算深度,再估相机位姿,最后还得用一晚上的时间去跑优化,祈祷结果别崩。

但谷歌 DeepMind 刚刚发布的 D4RT(Dynamic 4D Reconstruction and Trac),试图终结这种混乱。

这篇论文在计算机视觉领域扔下了一枚关于“效率革命”的重磅炸弹。

它把原本割裂的 3D 重建、相机追踪、动态物体捕捉,统一成了一个极简的“查询”动作。

更重要的是,它的速度比现有 SOTA技术快了 18 到 300 倍。

如果在你的认知里,高质量的 4D 重建还是好莱坞特效工作室里那些昂贵且缓慢的渲染农场,耗费漫长的时间等待生成完毕,那么 D4RT 正在把这种能力变成一种可以塞进机器人大脑甚至 AR 眼镜里的实时直觉。

Demo 演示

为了理解 D4RT 到底做到了什么,我们需要先看一眼它眼中的世界。

在论文展示的演示中,最直观的震撼来自于对“动态混乱”的驾驭能力。

想象一下这个画面:一只天鹅在水面上划过,或者一朵花在风中快速绽放。

传统的 3D 重建算法(比如 MegaSaM 或 )处理这种场景通常是一场灾难——因为它们假设世界是静止的,所以它们往往会在 3D 空间里留下一串“重影”,就像老式胶片重叠曝光一样,天鹅变成了长着几十个脖子的怪物,或者花朵直接变成了一团无法辨认的噪点。

但 D4RT 给出的结果极其干净。

它不仅可以精准还原天鹅的 3D 形态,还完美剥离了相机的运动和天鹅自身的运动。

在它的视野里,时间变成了一个可以随意拖动的滑块。

更令人印象深刻的是它的全像素追踪能力。

你可以点击视频中花瓣上的任意一个像素,D4RT 就能画出这个点在过去和未来的完整 3D 轨迹,哪怕这个点在中间几帧被蜜蜂遮挡了,或者跑到了画面之外,模型依然能根据上下文“脑补”出它的去向。

这种视觉效果给人的感觉是:AI 不再是在一帧帧地“看”视频,而是把整段视频吞下去,在大脑里生成了一个完整的、流动的全息全景图,然后你可以随意从任何角度、任何时间去检视它。

模型能力对比图

拆解“神话”

是真的快,还是文字游戏?

科技公司发论文,数据通常都很漂亮。

作为观察者,我们需要剥离 PR 滤镜,看看数据背后的定语。

谷歌声称 D4RT 比之前的 SOTA 快了 300 倍,处理一分钟的视频只需要 5 秒钟。

这是真的吗?

答案是:在特定维度上,是真的。

这里的“300倍”指的是吞吐量,具体来说是“在保持相同帧率(FPS)的前提下,模型能同时追踪多少条 3D 轨迹”。

数据对比:在 24 FPS 的标准电影帧率下,之前的强者 SpatialTrackerV2 只能同时追踪 84条轨迹,再多就卡了;而 D4RT 可以轻松处理 1570条。如果是和 DELTA 这种更慢的模型比,那就是 314 倍的差距。

实际意义:这意味着之前的技术可能只能盯着画面里的主角(比如一个人),而 D4RT 可以同时盯着背景里走动的路人、飘落的树叶和远处的车流——即所谓的“全像素级感知”。

它比同类技术强在哪儿?

目前市面上的 4D 重建技术主要分两派:

“拼装派”(如 MegaSaM):把深度估计、光流、分割等多个现成模型串起来。虽然效果不错,但不仅慢,而且一旦一个环节出错(比如光流飘了),后面全完。

“多头派”(如 VGGT):虽然是一个大模型,但为了输出不同的任务(深度、位姿、点云),需要挂载不同的解码头,结构臃肿。

D4RT 的牛,在于它做到了架构层面的统一。

它不需要为深度单独做一个解码器,也不需要为位姿单独做一个。

它只用同一个接口解决所有问题。

有没有代价?当然有。

D4RT 的“快”主要体现在推理阶段。

在训练阶段,它依然是一个庞然大物。它的编码器使用了 ViT-g,拥有 10 亿参数,并且需要在 64 个 TPU 芯片上训练两天。

这绝不是普通开发者在自家车库里能复现的玩具,它是典型的“大厂重武器”。

技术解码

把 4D 重建变成“搜索引擎”

那么,D4RT 到底是怎么做到的?

论文的核心逻辑可以用一句话概括:先全局“阅读”视频,再按需“搜索”答案。

不再逐帧解码,而是“全局记忆”

传统的视频处理往往是线性的,处理第 10 帧时可能已经“忘”了第 1 帧的细节。

D4RT 的第一步是使用一个巨大的 Transformer 编码器(Encoder),把整段视频压缩成一个全局场景表征(Global Scene Representation, F)。

你可以把这个 F 想象成 AI 对这段视频形成的“长期记忆”。

一旦这个记忆生成了,原本庞大的视频数据就被浓缩在了这里。

“哪里不会点哪里”的查询机制

这是 D4RT 最天才的设计。它发明了一种通用的查询(Query)语言。

并行计算的艺术

因为每一个查询(Query)都是独立的,D4RT 不需要像穿针引线一样按顺序计算。

它可以一次性扔出几万个问题,利用 GPU/TPU 的并行能力同时算出答案。

这就是为什么它能比别人快 300 倍的根本原因:它把一个复杂的串行几何问题,变成了一个大规模并行的搜索问题。

关键的“作弊”技巧:9x9 Patch

论文作者还发现了一个有趣的细节:如果只告诉解码器坐标点,AI 有时候会“脸盲”,分不清纹理相似的区域。

于是,他们在查询时顺便把那个像素点周围 9x9的小方块图像(RGB Patch)也喂给了模型。

这就像是你让人在人群中找人,光给个坐标不行,还得给他一张那个人脸部的特写照片。

消融实验证明,这个小小的设计极大地提升了重建的锐度和细节。

产业影响

谷歌的野心与具身智能的眼睛

D4RT 的出现,对谷歌现有的业务版图和未来的 AI 战略有着极强的互补性。

具身智能与自动驾驶的最后一块拼图

现在的机器人之所以笨,很大程度上是因为它们“看不懂”动态环境。

一个扫地机器人能避开沙发,但很难预判一只正在跑过来的猫。

D4RT 提供的实时、密集、动态的 4D 感知,正是机器人急需的技能。

它能让机器人理解:那个东西不仅现在在那里,而且下一秒它会出现在我左边。

对于自动驾驶而言,这种对动态物体(如行人、车辆)的像素级轨迹预测,是提升安全性的关键。

增强现实(AR)的基石

谷歌一直在 AR 领域寻找突破口(从当年的谷歌眼镜,到现在的 Project Astra)。

要在眼镜端实现逼真的 AR,必须要有极低延迟的场景理解。

D4RT 展示的高效推理能力(尤其是在移动端芯片上的潜力),让“实时把虚拟怪兽藏在真实沙发后面”变得在工程上可行。

对普通人的影响

视频编辑的“魔法化”

对于普通用户,这项技术最快落地的场景可能是手机相册和视频编辑软件。

想象一下,你拍了一段孩子踢球的视频。

有了 D4RT,你可以像在《黑客帝国》里一样,在视频播放过程中随意旋转视角(尽管你拍摄时并没有移动),或者轻易地把路人从复杂的背景中“扣”掉,甚至改变视频中光源的方向。

这是 D4RT 这种 4D 重建技术成熟后的应用之一。

结语

D4RT 让我们看到了一种新的可能性:AI 对世界的理解,正在从二维的“图像识别”跨越到四维的“时空洞察”。

它告诉我们,要看清这个流动的世界,关键不在于每一帧都看得多仔细,而在于如何建立一个能够随时回应疑问的全局记忆。

在 AI的眼中,过去并没有消逝,未来也不再不可捉摸,它们只是同一个四维坐标系里,等待被查询的两个不同参数而已。


    24小时新闻排行榜更多>>
  1. 张又侠缺席高层会议之际 公安部特勤局政委换人
  2. 捷克逮捕中共间谍 光明日报常驻记者或涉案
  3. 升迁是看谁送的钱多 徐才厚卖官有“价目表”
  4. “煤油混装糖浆致癌”新京报女记者揭露“毒糖浆”后失踪
  5. 我们已没有足够能力” “川普”级战列舰遭唱衰
  6. 这运动被证实能“饿死”癌细胞
  7. 海外用户“爆买”中国挖掘机
  8. 七好友抱团山居:4年不买衣服 每人都藏一身绝活..
  9. 一场推翻乔治‧华盛顿的密谋
  10. “露水夫妻旧蓑衣 ”啥意思?下半句更精彩
  11. Lululemon新品被骂“太透”紧急下架
  12. 阿根廷迎来首批中国电动汽车
  13. 川习2026年要见几次面?贝森特透露安排
  14. 川普为何非要掌握北极?冰层融化后 世界就变了…
  15. 美国军工巨头证实已低调进驻台湾 这次不是卖武器
  16. 高志凯:美国退守,中华和平开启
  17. 美国允许中国买委内瑞拉石油 但不能再“贱买”
  18. 卡尼演说呛美获满堂彩,川普怒撤加拿大邀请
  19. 普京愿出资10亿美元,川普回应
  20. 韦唯近况:脊柱断裂,家暴前夫已死
  21. 川普:美国庞大舰队驶向伊朗
  22. 广东男子用废弃SIM卡提炼出191克黄金
  23. 美官员:允许中国买委内瑞拉石油 但有一前提
  24. 众院否决限制川普对委内瑞拉战争权的提案
  25. 赵长鹏:我已经没有冲劲去做新项目了
  26. 美国启动“和平委员会”,18国已签署
  27. 川普就“去银行化”起诉摩根大通及CEO 索赔50亿
  28. 拒绝出席爱泼斯坦案 美国国会表决起诉克林顿夫妇
  29. 反复无常、有恃无恐:川普的达沃斯外交风暴
  30. 华埠监狱工程只能单向聆听,挨轰无视民意
  31. 曾异常拥挤的旅途
  32. 四十不多欲 五十不多情 六十呢?
  33. 川普:普京已接受邀请
  34. 25年前天安门广场那场伪火 照见中共鬼影重重
  35. 接棒加拿大总理卡尼 芬兰总理、英国首相下周访华
  36. 逃离柬埔寨:两个电诈幸存者决定徒步回国
  37. 中国人口续降 “疫情后死亡潮”持续蔓延
  38. 川普突然改口不再“吞并格陵兰”,内幕原因曝光
  39. 被生活锤老实了,他们不再跟着吴京嗷嗷叫
  40. 万物绝迹与磁场异常 不该存在的西伯利亚禁地
  41. Shein和BHV合作失败
  42. 川普女婿公布加沙重建规划
  43. 加拿大总理因何盯上中国能源“三巨头”?
  44. 山东发现罕见“钻石血” 网友:这人危险了
  45. 中共国资委公布央企负责人2024年薪酬 引质疑
  46. 左手背再现新瘀青,川普最新回应:吃药副作用
  47. 25年前天安门广场的伪火谜案
  48. 黄金创记录,这2种贵金属也涨疯
  49. 最恐怖的不是32岁猝死,而是他死后的8小时...
  50. 奥斯卡入围名单出炉 《罪人》获16项提名
  51. 中共军中再传动荡 学者析政治危机
  52. 川普觊觎格陵兰,欧洲如何能够对抗?
  53. 分析:2026年中国经济七大危机恐同时引爆
  54. 一次性被拔12颗牙 山西女子突发心梗险丧命
  55. 天安门自焚伪案——25年后再揭谎
  56. 高夫逆转晋澳网16强
  57. 中共散布社媒假信息 联邦参议员:美应反制
  58. 苏林连任越共总书记五年
  59. 泽连斯基称俄飞弹“含台零件”赖总统严正回应
  60. 中国古老神秘的“十大秘术”