浙大&微软3000条纯文本让模型理解3D

2026-05-16 01:25:17 · chineseheadlinenews.com · 来源: 量子位

视频生成有个老毛病,镜头一动就“穿帮”,终于有了靠谱的解法。

浙大联合微软亚洲研究院最新提出的World-R1,不改架构、不要3D数据,纯靠强化学习就让视频生成模型学会了“理解”三维世界。

所以,AI视频为啥总穿帮?

现在的视频生成模型,画面精美是精美了,但有个致命伤:不懂三维。

你让镜头转个弯,建筑就扭了;推进去看个近景,物体就消失了。

本质上,这些模型只是在二维像素层面做统计拟合,根本不理解眼前的世界是个三维空间。

以前的解法呢?往模型里硬塞3D模块,但代价是推理成本飙升、泛化能力变差,而且只能做图生视频,文生视频根本搞不定。

World-R1 的思路:不改架构,靠 RL“唤醒”

World-R1 的出发点很简单:

预训练的视频模型里面已经有 3D 知识了,只是“沉睡”着。用强化学习把它叫醒就行。

具体怎么操作?三板斧。

第一斧:把相机轨迹“藏进”噪声

别人控制相机运动,需要额外训练一个控制网络。

World-R1说:不需要。

它从文字里提取运动关键词(比如“push in”“orbit left”),生成相机轨迹,然后通过光流投影,直接把运动信息编码进扩散模型的初始噪声里。

一行代码不改,一个参数不加,相机就能跟着文字走。

第二斧:让3D模型当“裁判”

RL的核心是奖励函数。

World-R1设计了一套四维复合奖励:元视角评分,用Depth Anything 3把视频“抬”成3D高斯溅射,再从一个完全不同的角度去看。

正面看没问题?换个角度可能就“露馅”了。

用Qwen3-VL当评审员,专门抓“纸片人”。

重建保真度,3D重建完再渲染回去,跟原视频逐像素比对。

轨迹对齐度,看生成的相机运动有没有老实听话。

通用画质,HPSv3 打分,确保画面不变丑。

整套奖励通过**Flow-GRPO框架优化。

第三斧:让模型“又硬又软”

纯追求3D一致性会出问题:行人不会走路了,旗帜不会飘了,整个世界像冻住了一样。

World-R1的解法是周期性解耦训练:正常阶段,用完整奖励猛练几何一致性;

每100步,切换到“动态专场”,只用通用奖励在高动态数据上训练。

效果直接建筑稳如泰山,旗帜照样飘。

3000条纯文本,没有一帧视频

你可能会问:训练数据从哪来?

答案是:不要视频,不要 3D 资产,纯文本就够了。

研究团队用Gemini生成了约3000条高质量场景描述,涵盖峡谷、城市、深海、蘑菇森林等各类场景,按相机运动难度分了三级。

模型就这样在“纯想象”中,学会了真实世界的物理规律。

实验数据

基于Wan 2.1训练了两个版本:World-R1-Small(1.3B)和 World-R1-Large(14B)。

3D一致性

Small版比基线PSNR涨了10.23 dB,Large 版涨了7.91 dB。LPIPS 从0.467降到0.201,几何幻觉被干掉了大半。

画质不降反升

在VBench上,World-R1-Small美学质量65.74、成像质量67.53,全面超越基线Wan 2.1-1.3B。

而那些装了额外相机控制模块的方法(ReCamMaster、DAS),美学质量只有38~42分。

3D增强了,画质也更好了,鱼和熊掌兼得!

眼见为实

3D重建的点云也能看出差距:基线模型的重建像一堆散沙,World-R1的像一座真实的建筑。

消融:每一刀都切在要害上

消融实验的结论很清晰:去掉3D感知奖励,几何一致性直接崩盘;

去掉通用生成奖励,画面美学肉眼可见地劣化;

去掉噪声包裹的隐式相机控制,收敛速度慢了一倍;

去掉周期性解耦训练,动态场景的生成能力几乎全废。

四个组件环环相扣,缺一不可。

World-R1让视频模型“理解”三维世界,不必推倒重来——

只需用正确的奖励信号,唤醒它已有的空间感知。


    24小时新闻排行榜更多>>
  1. 中国大富之家,合影扒出狗血豪门宅斗
  2. 川习会:美国盯着3B,中国盯着3T,谁占了上风?
  3. 川习会场边蔡奇疑训斥王毅 中共权力格局惹议
  4. 全球通胀加剧债市风暴,动摇AI牛市
  5. 央视获世界杯转播权 持久谈判背后藏着什么?
  6. 大陆女子求职被告知:拒潜规则就不录用
  7. 王毅3800字概述川习会晤 证实习近平9月将访美
  8. 习再次变“高”?川普沙发疑似被动手脚 毛宁尬笑
  9. 官媒视角的川习会全记录:人民大会堂 天坛 中南海
  10. 中国发改委主任会见波音公司总裁 中方回应订单
  11. 马斯克带儿子亮相北京 广西“虎头包”爆红卖断货
  12. 野村警告:这次“日债风暴”不一样
  13. 美媒:台湾是最大输家 中美不翻桌也是双方共识
  14. 外食太贵,好市多平价即食餐受欢迎
  15. 王毅介绍中美元首会晤情况和共识
  16. 从接机到私人交流,川普访华的三个礼宾细节
  17. 美食品价格现4年来最大涨幅 番茄涨39% 牛肉14.8%…
  18. 川普松口:可接受伊朗暂停核计划20年
  19. 川普将拍板,140亿军售
  20. 五角大楼取消美军装甲旅部署波兰
  21. 趁习近平离席“川普国宴间谍行动”曝光 影片掀热议
  22. AI正在泄露真实的个人电话号码
  23. 川普访华表态:应给中国留学生发绿卡
  24. 湖北关注摘取器官的博主 直播时遭警察抢手机失联
  25. 川普揽订单,承诺高出预期
  26. 川普踏入中南海“狂夸玫瑰花” 习爽快“送种子”给他
  27. 习近平称美国可能正走下坡 川普发文归咎拜登政府
  28. 万斯宣布暂扣加州白卡补助
  29. 习私下对话曝光,川普语带惊讶
  30. 川普访华团返美前大清理 中国物品禁上“空军一号”
  31. 卢比奥回应空军一号穿搭热议:马杜罗抄袭我
  32. 川普公布“美国英雄国家花园”选址
  33. 结束访华返美途中 川普和高市早苗通话
  34. 参议院枪声背后:菲律宾内斗升级
  35. 多家陆媒报美批准向10家中企售H200 后又删文
  36. 马斯克中文回覆“李老师”登微博热搜后话题迅速被封
  37. 离谱双标引热议!张雪叫板雷军退款底气十足
  38. 王爱琳案发 民运人士:中共代理人仍大有人在
  39. 高传染病毒B19蔓延加州 危害儿童孕妇
  40. 俄罗斯Q1 GDP下降0.2%
  41. 川普返回白宫,再谈中国之行
  42. 伊朗扣押一艘海上军火安保船 船东来自中国
  43. 习在川习会上提修昔底德陷阱 被指严重误判
  44. 现实世界的特异功能侦探
  45. 川普刚结束访华离京,高市早苗发文称与之通话
  46. 这公司盘活德国工业十年家底
  47. 莲花“出淤泥而不染” 究竟藏着多少天机
  48. 李连杰首谈甲亢令面容巨变
  49. SpaceX加快IPO进程:最快6月定价
  50. 美国防长为何突然随行访华?
  51. 超级厄尔尼诺今夏见,冲击市场暴应
  52. 波音回应:已获200架中国意向订单初步承诺
  53. 川普扬言再炸伊
  54. 洛警方突袭仓库 缴价值近千万假奢侈品 抓两亚裔
  55. 日本百年寺庙揭密震撼300万人
  56. 以军空袭加沙:打死哈马斯军事领导人
  57. 美国130多座城市被限制加房产税
  58. 从“达纳萨尔案”看国家利益豁免的新设标准
  59. 免疫力崩盘的前兆!出现这5个讯号就要立刻警觉
  60. 马斯克开源X最新推荐算法