共享世界生成模型IC-World登场

2026-03-28 15:25:10 · chineseheadlinenews.com · 来源: 量子位

如果两个AI同时生成在同一个房间里“漫步”的视频,它们生成的是同一个房间吗?

如果两个AI生成站在同一条街上的视频,街上的车辆和行人会依次走进它们的视野里吗?

答案是:以前不行,现在行了。

Lin Guosheng(林国省)与Ye Deheng(叶德珩)的研究团队提出IC-World,首次系统性地解决了一个长期被忽视、却极其关键的问题:共享世界生成——给AI同一个世界在不同视角下的图片,让AI分别生成对应视角的视频,并且它们真的描绘了“同一个世界”。

IC-World是一个基于强化学习,激发视频生成模型强大上下文能力的共享世界生成新范式,能够同时生成同一个时间的同一个世界在不同视角下的视频,首次做到共享世界一致性,在多项一致性评估指标上超过现有方法,生成视频视觉质量高,且生成速度远超传统生成方案。

值得注意的是,在该团队完成IC-World工作之后,Saining Xie团队也在后续发布了采用相似核心思想的研究工作Solaris,这一时间上的接近并非巧合,而是从侧面印证了一个事实:视频生成世界模型正在从“独立世界生成”,走向“共享世界生成”的必然阶段。

IC-World的提出,正是对这一趋势的系统化探索与完整验证。

从“独立”到“共享”

为什么“共享世界”这么重要?想象几个重要的应用场景:

1. 多机器人协作:两个机械臂在同一空间里搬运物体,一个“看到”苹果在桌子左边,另一个却“看到”在右边?直接灾难。

2. 多人第一人称游戏:两个玩家同时进入一张地图,门口的招牌、桌子上的广告牌、NPC的动作,在不同玩家视角下必须完全一致。

视频生成世界模型(Video-based World Model)如果连“同一个世界”都无法稳定建模,那所谓的推理、规划、决策,都是空谈。但现实是:现有的视频生成世界模型,几乎全都失败了,并且在有不同输入时无法同步生成。

现有视频模型的问题在哪里?当前主流的视频模型(image-to-video / text-to-video)有一个致命假设:一次只生成一个视角下的视频。

当你试图输入同一世界的多张不同视角下的图片分别生成视频时会发现:场景结构对不上、人物位置飘移、动作不同步、前一秒出现的物体,下一秒“消失”。

这不是小bug,而是建模范式本身的问题。

双策略协同打造共享世界模型

IC-World的核心思想:让视频大模型“一次性看到整个世界”。

团队提出了一个看似简单、但极其有效的思路:In-Context Generation——把来自同一世界的多张不同视角下的图片像拼图一样拼成一个大图,配合一个明确的共享世界text prompt,让视频模型一次性生成一个“视频合集”,然后再把它切分回多个视角视频,从一开始就把生成的视频绑定在同一个世界里。

不仅如此,研究团队还要求生成的世界必须一致,这一点光靠模型自身的生成能力还不够,团队进一步引入基于GRPO的强化学习微调策略,提出几何一致性奖励模型(Geometry consistency reward model)和动态一致性奖励模型(Motion consistency reward model),来教会视频模型去生成不同视角下一致性的视频。

实验表现

为全面验证IC-World的核心价值,团队设计了一套完整的评估体系。

一致性评估:IC-World全面领先

团队提出两种互补场景:

静态场景+动态相机下的几何一致性评估,输入是同一世界的两张图片,拍摄时间一致,但相机视角不同,要求输出两个视角下、相机自由运动的视频。

动态场景+静态相机下的物体动态一致性评估,相机固定不动,场景中存在明显的动态行为(如人类操作、物体交互),输出固定视角下的动态视频。

在几何一致性指标和动态一致性指标上,IC-World均取得最优结果,同时,视频整体质量(CLIP、VLM、M-FID)并未下降,超越各大主流、SOTA视频生成算法。

除此之外,In-Context Generation的并行生成带来十分显著的效率提升,大大缩短生成时间。

VBench指标:视频质量高

在权威基准VBench上,对于传统Image-to-Video任务IC-World取得81.15的综合评分

消融实验:每一部分不可或缺

仅使用In-Context Generation,在不加入RL训练的情况下,也能显著提升一致性,说明视频大模型本身具备“世界级建模潜力”以及团队的思路极其有效。

针对微调策略选择,GRPO强化学习在少量数据下即可达到甚至超过监督微调效果。

对两个奖励模型的消融实验说明,在加入几何一致性奖励后,场景结构明显更稳定,在加入动态一致性奖励后,动态同步性显著增强。

且对于几何一致性奖励模型以及动态一致性奖励模型来说,更大的group size能显著降低GRPO中相对优势估计的方差,使奖励信号更加可靠,从而带来更稳定、有效的优化过程。

IC-World并不是某个技巧的“堆叠”,而是一个围绕“共享世界”目标精心对齐的系统设计。

在视频生成世界模型不断走向更复杂内容创作与真实物理交互场景(如机器人世界模拟器等)的背景下,IC-World所提出的“显式建模共享世界”的新范式,正在成为这一方向关键的一环。


    24小时新闻排行榜更多>>
  1. 法电视台采访俄外长,乌克兰暴怒
  2. 河马的粪便有多恐怖?
  3. 老虎‧伍兹发生翻车事故 涉嫌DUI被捕
  4. 蔡奇目露杀机 他看习近平的眼神好吓人
  5. 炼油厂关闭在即 加州惊现每加仑8美元油价
  6. 猪价“反内卷”,为何散户倒大霉?
  7. 中共监狱逼法轮功学员放弃修炼 手段残暴
  8. 美日领袖会谈文件删台湾?
  9. 广州已有四任书记出事 消息称郭永航案涉珠海
  10. 美情报战略转向,聚焦数据安全
  11. 欧洲议会8年来首次,临行前还对中国“留几手”
  12. 妻子由男医生产检,丈夫崩溃撞墙
  13. 钱给再多,瞿颖也不上钩
  14. 美国对伊朗"狂射850枚战斧",超过1年产量!
  15. 熬夜时心脏“咯噔”一下,咋办?
  16. 末日场景?澳大利亚多地惊见红色天空
  17. 张雪峰是“中式聪明人”吗?他为何能贩卖焦虑?
  18. 美国宇航员太空紧急撤离原因披露
  19. 鲁比奥和其他G7外长们互喷,德国外长:气死了
  20. “速效救心丸”搜索量暴涨30倍 医生紧急提醒
  21. 湾区民运人士集会 声援异议人士钱辰昌
  22. 傳溫家寶懟習近平 不和你玩了 我要退黨
  23. 出大事?传中共军事演习误射烟雾弹击中观察员人群
  24. 忧个资外泄,移民报税人数缩水
  25. 川普预告古巴可能是下一个军事行动目标
  26. 李昌钰在家突然离世,相伴7年的妻子含泪发文悼念
  27. 丁奎岭寄语上海交大毕业研究生
  28. 中国经济学家巴曙松疑被带走 内情曝光
  29. 伊朗:将加快人道主义货船通行霍尔木兹海峡
  30. 川普:伊朗战事还剩3554个目标 将很快完成
  31. 利润涨三倍市值却蒸发千亿 泡泡玛特怎么了
  32. 波兰网红Stan南湾开讲 免费座谈揭AI资讯战
  33. 盛雪:中共对伊朗暴政的全面武装(六)
  34. 犹如针尖对麦芒,美伊和谈“几近死局”
  35. 41岁东北汉子离婚跑海上避世,竟深陷美伊战火
  36. 美众院通过60天DHS拨款案 参院恐难过关
  37. 川普:伊朗战争结束后经济将“火箭式”腾飞
  38. 复活节Storytime南湾登场 亲子齐聚捡彩蛋
  39. 川普坚称伊朗须开放荷莫兹海峡
  40. 速效救心丸,鱼油真能保命吗?
  41. 狮子都怕它?刚果雨林的“狮子杀手”
  42. 疯狂小扎边裁员边给高管发钱
  43. 否决拨款方案,国安部部分停摆
  44. 马兴瑞案件同伙郭永航常用新词、辣词、流行词 ?
  45. 中东战火蔓延,全球能源市场面临冲击波
  46. 美国“最强导弹”,击落了美国“最强战机”
  47. 伊朗战争验证了北京当局的战略方向是对的
  48. 以军炸伊核设施 伊朗袭沙特基地致美军受伤
  49. 以色列被炸成第二个加沙
  50. 天津海边罕见“蓝眼泪”奇观 游泳者称“海上鬼火”
  51. 遭中国学界集体抵制后,AI顶会紧急道歉
  52. 传音之后,华为继续起诉迪士尼的流媒体业务
  53. 中国释放强有力的稳定开放信号
  54. 林宜敬南湾简报数位政策 聚焦资安发展方向
  55. 加拿大军费暴涨至600亿 达到北约国防开支目标
  56. 美国如此富有,为何美国人却如此痛苦
  57. 美豁免制裁后 伊朗石油流向从中国转到印度
  58. 一场外卖大战,美团得与失
  59. 中国核药领域首次!“抗癌核弹”实现居里级量产
  60. 张又侠旧部李光聚少将去世 终年70岁