北大&港中文&上海AI Lab搞出VGGT-Edit

2026-05-27 04:25:26 · chineseheadlinenews.com · 来源: 量子位

3D世界“会看”了,但还不会“改”。

从NeRF到83D Gaussian Splatting,再到VGGT、π?这类前馈式3D重建模型,整个行业的进展速度明显加快——只需几张图片,就能在几秒内重建完整3D场景。

但问题也恰恰出在这里。这些模型虽然已经能理解三维世界,却还不会修改三维世界。你可以让它重建一个房间,却很难真正告诉它:

把椅子移到窗边,删除中间那张椅子,把灰色皮沙发改成白色长毛沙发。

更麻烦的是,一旦涉及复杂编辑,现有方法往往迌速崩採——某些角度里椅子消失了,换个视角椅子又重新出现;明明没改的背景,却跟着一起变形。

为应对这一挑战,来自北京大学、香港中文大学、上海AI Lab、NTU等机构的研究团队,提出了一套原生3D编辑框架:VGGT-Edit。

核心思路只有一句话——

不再绕回2D,而是直接在3D空间里完成编辑。

在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超过现有方法,单次编辑仅需约5秒,最高实现120倍加速。

问题其实一直出在在2D

目前大多数编3D的方法,本质上仍然是“2D思维”——先把场景拆成多弤2D图片,逐张编辑,再重新拼回3D。

但由于每个视角都是独立处理的,所以很容易出现:

一个视角里椅子已经删掉了;

换个角度椅子又重新出现;

背景区域跟着一起漂移;

物体边缘出现重影和闪烁。

△3D编辑方法的比较

很多结果看起来更像“在不同角度硬P出来的图”,而不是真正稳定的3D空间。

对于机器人、AR/VR、空间智能这些方向来说,这几乎是致命问题——这些场景真正需要的,不是“某一个角度看起来对”,而是整个3D世界始终稳定一致。

原生3D编辑,开始从概念走向可用

VGGT-Edit的核心思路非常直接:既然问题来自2D,那就不要再绕回2D。

整个框架建立在VGGT-Like前馈式重建模型之上,继承了其快速、高效的3D表示能力。但有意思的是,团队并没有选择重新生成整个场景,而是提出了一种非常巧妙的机制:

残差场预测(Residual Field Prediction)。

简单理解就是:模型先保留原始场景稳定的3D结构,然后只学习“哪里需要变化”,例如:

椅子往右移动;

沙发材质发生变化;

删除某个物体;

新增一个家具。

这些变化,都被表示成了:新场景 = 原场景 + 局部残差变化

这个设计有个非常重要的好处——因为大部分区域本来就不需要变化,所以模型不用重新“生成整个世界”,只需修改局部,结果就是没改动的背景区域会非常稳定。

这也是VGGT-Edit和很多现有方法最明显的区别之一。

文本语义,第一次真正开始“对齐”3D空间

研究团队发现,如果只是简单把一句文本输入模型,很容易出现一种情况——模型知道“你想改什么”,但不知道“该改哪里”。

为了解决这个问题,VGGT-Edit设计了一套关键机制:

深度同步文本注入(Depth-Synchronized Text Injection)

本质上可以理解成让文本语义和3D空间特征,在同一个深度层级里持续同步。

传统方法通常只在前面注入一次文本信息,但VGGT-Edit会在多个关键层持续融合文本语义,这样模型在整个3D生成过程中,始终知道:

当前应该修改哪个区域;

修改目标是什么;

空间位置在哪里。

与此同时,团队还专门设计了一套“视角重要性加权”——因为并不是所有视角都同样可靠,有些角度可能被遁挡,有些视角只能看到半个物体。

VGGT-Edit会自动判断哪个视角更值得信任,最终让多视角编辑结果更加稳定。

一个真正面向“3D编辑”的编辑头

除了整体框架之外,VGGT-Edit还有一个非常关键的部分——专门面向3D编辑任务设计的编辑头。

研究团队发现,对于VGGT-Like模型来说,原本的重建Head更关注“如何恢复场景”,但3D编辑真正需要解决的问题是:如何在保持整体稳定的情况下,只修改局部区域。

因此,VGGT-Edit额外设计了一套编辑分支,专门预测场景中的局部变化。

这个编辑Head会直接作用于3D表示空间,并输出对应的残差场变化。本质上,它学习的是:

哪些区域应该保持不变;

哪些区域需要发生编辑;

编辑后如何保持多视角一致。

相比直接重新生成整个场景,这种方式更加稳定,也更加高效——这也是让VGGT-Like前馈重建模型具有编辑能力的关键一步。

一个10万规模的数据集,专门训练“3D编辑”

为了训练VGGT-Edit,团队专门构建了一个新3D编辑数据集DeltaScene,规模接近10万组,覆盖客厅、办公室、住宅、商业空间等多种场景。

△DeltaScene数据集概述

更重要的是,整个数据生成流程高度自动化。

团队通过利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自动完成编辑指令生成、目标识别、多视角编辑、3D一致性过滤,最终得到真正满足“多视角几何一致”的训练数据。

△DeltaScene数据构造流程

对于原生3D编辑来说,这一步非常关键——模型真正需要学习的,不只是“图像变化”,而是同一个编辑,在不同视角下如何始终保持空间一致。

3D编辑,第一次开始接近实时交互

从结果来看,这条路线确实有效。

在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度都超过了现有方法。

尤其是在添加家具、调整位置、修改材质这些复杂任务中,很多传统方法仍然会出现明显的“贴图感”和几何漂移,但VGGT-Edit生成的结果,会明显更像一个真实稳定的3D空间。

△不同3D编辑任务的定性比较

更关键的是速度——论文中,VGGT-Edit单次编辑只需约5秒,相比很多需要长时间优化的传统方法,最高可实现120倍加速。

这意味着编3D第一次真正开始接近实时交互。

对于机器人、数字孪生、AR/VR等方向来说,这种变化非常重要——只有当编辑速度足够快,3D世界才真正可能变成“可交互”的世界。

△在DeltaScene数据集上的定量结果

模型开始真正理解“空间变化”

论文里还有一个非常有意思的实验。研究人员输入了一条训练中从未出现过的指令——“将中间椅子顺时针旋转90度。”

结果模型依然成功完成了编辑。

△对未见过的指令进行泛化

这说明VGGT-Edit学到的,并不只是固定模板,它真正开始理解文本语义如何映射到3D空间变化。

而这件事,可能比“会生成3D”本身更重要。因为对于空间智能来说,未来真正关键的能力,也许不是“生成一个世界”,而是能否像人一样,自由、稳定、实时地修改这个世界。

VGGT-Edit,正在把这件事往前推进一步。


    24小时新闻排行榜更多>>
  1. 江西省统战部长李伟落马 多名老领导出事
  2. A股普跌沪指失守4100点 分析:行情转向谨慎
  3. 中南海推出监管高级将领“铁规矩” 军队整肃仍未结束
  4. 古巴经济支柱旅游业全面崩溃
  5. “习近平下台” 国际赌注交易量近8千万美元
  6. 传北京拖延空客飞机交付 逼欧盟加快C919审批
  7. 全球蔓延的“K型分化”:极致挤压后泡沫破裂?
  8. 西藏流亡政府最高行政长官连任
  9. PayPal钱包接入微信支付
  10. 美澳印日拟在斐济建港
  11. 曾十年未曾被发现 沙漠中的隐形“小”猛兽
  12. 微信支付接入PayPal 美国用户赴中国可直接扫码付款
  13. 与习成校友,黄仁勋加入清华大学
  14. 一年刑满之后:吴强的遭遇
  15. 爆董军或缺席香格里拉对话 曾对台湾放狠话
  16. “中共是恶魔”大陆电线杆上惊现反共标语
  17. 林志玲出事了?名单除名 综艺预告下架 疑遭中国封杀
  18. 韩国女星自曝:起床后嘴巴味道超重
  19. 袁立最新状况:出院了 继续前行!
  20. 用AI降AI率,降出了什么?
  21. 杨梅泡药,是“外部势力”逼着本土商贩干的?
  22. 赖清德赠川普台积电创办人自传
  23. 背影之后的枪声:朱自清之子之死与镇反冤案
  24. 川普体检称“完美” 但对第一夫人一句话竟丝丝感伤
  25. “姑死舅埋 表兄表弟不来”啥意思?
  26. 古代巨人坟墓 身材是普通人两倍
  27. 美国高端房市买卖活跃 豪宅价格攀升
  28. 当任何人都能用 AI 把公司告上法庭,法官们慌了
  29. 大陆越野跑赛事激增 办赛乱象频现
  30. FBI逮捕CIA高官:家中搜出303根金条
  31. 绿卡新规对十国申请人影响大 中国上榜
  32. 高位套现 A股500家上市公司推出千亿减持计划
  33. 怎样从衣着打扮一眼看穿一个人的性格?
  34. 让大模型“边看边改”,视觉分割准确率直接上涨9%
  35. 川普计划将接触过病毒的人送往肯尼亚
  36. 中南大学人工智能学院正式组建
  37. 纽约州民主党拟提2修宪案
  38. 香港女星自爆在广东中山买房 “像买菜”
  39. 深圳隧道突发大火 传两声爆炸6人被炸死
  40. 老年人常见的6个伤身习惯 越早改越好
  41. 战地记者遇见死去的父亲 科学的“傲慢”碎了
  42. 68岁中共前公安董广平乘橡皮艇逃至韩国
  43. 用AI比雇人还贵 科技巨头发现不对劲 纷纷刹车
  44. 一杯茶里的千年清香
  45. 购置税优惠退坡,最便宜的新能源车先卖不动了
  46. 中国劳动市场严峻 招两牧羊人逾700人应征
  47. 川普:伊朗想用拖字诀没用 我不在乎期中选举
  48. 明星“社交实验”,凭什么走到第六季?
  49. 7人获颁2026年度邵逸夫奖
  50. 10名季节性零工,没有渡过那座漫水桥
  51. 一家六口全被裁,三套房贷成枷锁
  52. NASA公布月球基地计划详情
  53. 蒋介石有哪些异想天开的计划?
  54. OpenAI挖来了个F1级别车手搞公关
  55. 专家解析中共认知战:台日港首当其冲
  56. 北大&港中文&上海AI Lab搞出VGGT-Edit
  57. 猪肉价格暴跌,中国经济的“不祥之兆”?
  58. 俄军已筋疲力尽,乌战转折点即将到来
  59. 河南高速一超载客车凌晨追尾货车 致13死3伤
  60. 比芝麻还小?台湾近海发现全新生物