视频生成作为多模态推理新范式

2026-06-14 11:25:22 · chineseheadlinenews.com · 来源: 量子位

被 CVPR 2026 收录!按旦邱锡鹏团队(OpenMOSS)首次提出 Thinking with Video 这一推理新范式:借助视频生成模型,以视频帧为统一媒介进行多模态推理,打破视觉与文本的界限。

团队发现,Thinking with Text(基于文本的 CoT 推理)和 Thinking with Images(在 CoT 中加上图像辅助推理)范式已大幅提升了 LLMs 和 VLMs 的推理能力。但它们仍有局限:静态图像无法展现动态过程,文本与视觉模态的割裂阻碍了统一理解与生成。

而借助新范式 Thinking with Video,视频生成模型在视觉任务上不仅总体媲美 SOTA VLMs,而且竟也能解决 MATH、MMMU 等文本推理任务。这可谓提前预判了前不久谷歌 Gemini Omni 曝光的 “教授黑板推公式” 的文本推理能力。

目前该工作在社交平台 X 上受到关注,数据和代码已全面开源。

Thinking with Video:视频生成作为多模态推理新范式

从 Thinking with Text 到 Thinking with Images,这些推理范式仍存在重要缺陷:

1、静态约束:图像只能捕捉单一时刻的信息,难以表达动态过程、时间变化与连续变换。

2、模态分离:文本与视觉仍被分开处理,缺少一种自然统一二者的推理载体。

研究团队注意到,视频生成模型能像人一样进行绘制、想象、模拟,有助于解决视觉推理问题。同时,视频帧还可承载文本,从而也有望完成文本推理问题。由此可见,Thinking with Video 天然拥有多模态推理优势,研究团队对此进行了深入探索。

VideoThinkBench:综合的视频生成推理测试基准

为了全面评估视频生成模型的推理能力,研究团队构建了 VideoThinkBench,共包含 4149 个测试样本,分为视觉任务和文本任务(图 1)。

△图 1:VideoThinkBench 的任务和 Thinking with Video 过程

视觉任务考察几何直觉、视觉模式归纳、抽象规则归纳、空间规划与搜索,包括 Eyeballing Puzzles、Visual Puzzles、ARC-AGI-2 和 Mazes。这些视觉任务的样本通过程序自动化生成,并配有可验证答案,便于对视频结果进行精准评测。

文本任务则由已有基准(如 MATH、MMLU、MathVista、MMMU)改编而来,包含纯文本和多模态的数学推理与通用推理。

作者在 VideoThinkBench 上对视频生成模型(如 Sora-2、Veo 3.1)进行了评测,并将其结果与三个 SOTA VLM(Gemini 2.5 Pro、GPT-5 high、Claude Sonnet 4.5)进行了对比,结果出人意料。

核心发现一:Thinking with Video 让模型匹敌甚至超越顶尖 VLM

研究发现,视频生成模型在视觉任务上有出色表现,总体可媲美 SOTA VLM(表 1)。

△表 1:视觉任务上的表现,Sora-2 竟能匹敌三个顶尖 VLM

Thinking with Video 能解决几何直觉推理、视觉归纳推理,甚至 ARC-AGI-2 等多样的视觉任务。

Eyeballing Puzzles:画图模拟,几何推理超越顶尖 VLM

△图 2:Eyeballing Puzzles 任务的输入输出示例

Eyeballing Puzzles(目测谜题)分为 Point / Line / Shape 三种类型(图 2)。实验表明,Sora-2 可在视频中模拟光线的延伸和反射,并操纵几何元素(例如点和线)来辅助推理(图 3)。

△图 3:Sora-2 生成视频解决 Eyeballing Puzzles,最后模型会将其答案选项标红,并在语音中说出答案

△图 4:各模型在 Eyeballing Puzzles 上的表现

在多帧投票评估下(利用整个视频过程,避免最后一帧噪声),Sora-2 的总体表现竟击败了三个 SOTA VLM(图 4),充分展现了 Thinking with Video 能进行画图模拟的独特优势。

Visual Puzzles:视频生成能完成归纳推理

△图 5:Visual Puzzles 任务的输入输出示例

Visual Puzzles 考察模型根据颜色、形状、尺寸进行归纳推理(图 5)。问题不给选项,直接生成视频来补全缺失的颜色或形状(图 6)。

△图 6:Sora-2 生成视频解决多样的 Visual Puzzles

△图 7:各模型在 Visual Puzzles 上的表现

在这些视觉谜题上,Sora-2 也表现优秀,并在对称任务(Symmetry)中击败了 Claude Sonnet 4.5(图 7)。可见视频生成模型不仅能画线模拟,还能从视觉结构中归纳和应用规律。

ARC-AGI-2:视频生成模型是 Few-shot Learner

ARC-AGI-2 面向更抽象的规则归纳能力,模型需要观察若干输入 - 输出示例,推断视觉变换规则,再将规则应用到新的网格中。实验发现,在这一更有挑战性的任务上,Sora-2 也能根据示例做出正确预测(图 8),展现了从示例中学习变换规则的能力。

△图 8:以视频生成解决 ARC-AGI-2 的题目

△表 2:统一视觉输入下各模型在 ARC-AGI-2 上的表现

在相同的视觉输入形式下,顶尖 VLM 在 ARC-AGI-2 上表现欠佳,而 Sora-2 已可与之匹敌。由此可见,视频生成模型也能成为 Few-shot Learner。进一步实验显示,增加示例还能提升视频生成模型的表现。

△表 3:提供多个和一个示例下的 Sora-2 的表现

相比只提供一个示例(1-Shot),提供更多示例(Few-Shot)后,更多测试样本达到较高的像素级准确率,也就是更接近正确答案(表 3)。这一发现表明,视频生成模型的 In-Context Learning 值得进一步探索。

核心发现二:视频生成模型竟能进行文本推理

视频生成模型也能解决文本推理问题吗?这让人想到不久前曝光的 Gemini Omni,网友用它生成了一个在黑板上推导公式的视频,效果堪称惊艳。

△图 9:Gemini Omni 生成的公式推导视频,来自?@Chetasluah

然而,研究团队在此之前就提出了让视频生成模型解决文本推理任务,并进行了系统性的评测。

△图 10:文本任务的输入和输出以及评测方式

VideoThinkBench 中的文本任务的输入由文本提示词和参考图像组成(图 10)。问题写在提示词中,也展示在参考图像里。模型需要生成一段视频,在视频中写出解题过程(图 11),并在语音中也说出最终答案。评测时,大模型基于标准答案,分别判断最后一帧和语音中的答案是否正确。

△图 11:在视频生成中解决 GSM8K 的题目

结果出人意料:如表 4,Sora-2 在多个文本测试集上取得亮眼表现,比如在 MATH 上准确率达 92%,在 MMMU 上达到 69.2%,尽管在更难的文本任务上离顶尖 VLM 有较大差距。这一结果表明,视频生成模型很有潜力通过在视频帧中嵌入文本来进行文本推理。

△表 4:文本任务评测结果

研究团队还进一步分析了文本任务表现是否是来源于测试集泄露。

△表 5:在原始和改编的文本题目上的表现

改编测试数据(GSM8K 与 MATH),修改问题中的数值和表述进行重新测试后,团队发现 Sora-2 的表现并未出现下降(表 5)。说明其能力并非来自测试集记忆,而是文本任务上具有真实潜力。

当然,人工案例分析发现视频中的书写过程未必清晰可靠。如图 12,仅有 13.91% 的解答视频中文本过程完全正确,将近一半的过程都是无法阅读或错误的。由此可见,模型会给出正确答案,但难以生成清晰、稳定和完全正确的推理步骤。

△图 12:对 Sora-2 文本作答过程的分析

研究还分析了视频生成模型的文本能力,是否可能来源于一个前置的提示词改写模型。

△表 6:Wan 2.5 在有 / 无提示词改写下的表现

Wan 2.5 的 API 可控制是否允许改写提示词。在关闭提示词改写后,Wan 2.5 在文本任务上的表现几乎降为零(表 6)。由此可见,若有提示词改写模块,则其可能在最终视频生成前就将文本题目解出。

视频生成推理的 Test Time Scaling 可能成为新的研究前沿

在 LLM 推理中,经典的 Test Time Scaling 方法如 Self-Consistency 通过多次采样和多数投票提升准确率。研究团队发现,Thinking with Video 竟也有类似的结论。

△图 13:通过视频生成解决 Arc Connect 问题

在 Eyeballing Puzzle 的任务(Arc Connect,图 13)中,只看单次生成的最后一帧,准确率为 56%;改用多帧多数投票后提升到 68%。进一步,若让 Sora-2 生成 5 次视频并对结果投票,多帧多数投票准确率可直接提升至 90%(表 7)。

△表 7:采样多个视频进行投票的结果

由此可见,Self-consistency 能够提升视频生成模型在视觉任务上的表现。因此视频生成模型的 Test Time Scaling 也将成为新的研究前沿。

小结一下

研究首次提出了 Thinking with Video 这一多模态推理新范式:基于视频生成模型,以视频帧为统一媒介进行多模态推理。在作者设计的 VideoThinkBench 上,视频生成模型展现出卓越推理能力。利用绘画与想象的优势,Sora-2 在视觉任务上可媲美顶尖 VLM,此外还展现出书写文本来解决文本推理问题的潜力。研究发现视频生成模型还是 Few-shot Learner;Self-consistency 可进一步提升视频生成推理性能。整体来看,团队认为 Thinking with Video 为多模态推理开辟了无限可能。


    24小时新闻排行榜更多>>
  1. 男子携10万现金提前还车贷遭拒
  2. 普京:永远不要企图与俄作战
  3. 杨毅侃球:尼克斯夺冠,一曲凡人歌
  4. 董路否认“自掏腰包5800万”
  5. 猛砸772亿,凿开三峡新通道,为何非建不可?
  6. 开赛仅3天,世界杯暴露安全隐患
  7. 时隔53年捧杯!尼克斯总分4-1马刺夺冠
  8. 李小龙姐姐李秋源离世,享年88岁
  9. 纽约狂欢失控"烧了世界杯接驳车",时报广场1人中弹
  10. 考编排名第一未获录用 黑龙江宝妈维权 岗位被取消
  11. 尼克斯队夺NBA总冠军
  12. SpaceX上市,员工集体穿绿鞋
  13. 中国政府债券余额首破100万亿
  14. 握手有禁忌 正确礼仪让你取得对方信任
  15. 美国务院派“科室级”官员见郑丽文 较管理连降三级
  16. 南极半岛冬天出现异常高温
  17. 中国教师,正在批量减少
  18. 瞠目结舌!中共高官“终身供养”谁在买单?
  19. 川普冠名肯尼迪中心受挫 上诉法院驳回暂缓请求
  20. 荣耀是如何一步步掉队的?
  21. 92年前,这位清华女生这样选志愿
  22. 航运帝国26岁千金命丧南非庄园
  23. 芬兰公司造假用锂电池冒充固态电池
  24. 大陆居民存款两个月缩水2万亿 钱去哪了?
  25. 法拉盛投票站冷清,仅有数十选民
  26. 美军F-18战机坠毁!飞行员弹射逃生,引燃野火
  27. 美推进国防法案 专家:台海威慑转向实质备战
  28. 美国70名女生郊游误入地下涵洞
  29. 千万别犯!早上切忌空腹饮用这3样东西
  30. 民主党议员痛批:这是川普的投降书
  31. 女子正开车,座椅下突然喷火
  32. 日本海岸漂来150米巨型管子 标有中企名字
  33. 纽约州初选开跑,民代竞争激烈
  34. 中国多城千万级豪宅成交放缓
  35. 每日组图:最大足球获金氏认证 SpaceX庆IPO
  36. 女子童年度假呕吐后患上焦虑症
  37. 男生三大烫发区别,怎么选?
  38. 5年翻一倍 中共政府债务突破100兆元
  39. 近20年“最老”巴西狼狈首秀
  40. 今年的庆典,阵容精简了不少
  41. 员工与投行交易员纷穿绿鞋 美媒:出自马斯克主意
  42. Fable 5被禁,Anthropic开始退钱了
  43. 教宗专机故障无法起飞 西班牙国王派专机即刻救援
  44. X世代将满60岁,33%财务仍靠父母
  45. 川普指14日签终战协议
  46. 亚特兰蒂斯人进入了地下世界?
  47. 摆脱对中共依赖 日本今夏探勘格陵兰稀土
  48. 在东亚,黄仁勋为何狂打“亲民牌”?
  49. “黑灯工厂”,照不亮中国年轻人的就业之路?
  50. 欧盟政坛“顶流”,又闯一关
  51. 甘肃张掖一镇政府被曝向农户强收农田建设费
  52. 走出优绩主义,为什么这么难?
  53. 本届世界杯,欧洲球队拉完了
  54. 【百年真相】刘云山如何爬高位 权变钱的黑幕
  55. 中国官方数据显示政府债务破人民币百兆元 5年翻倍
  56. 以军称精确打击黎真主党指挥中心
  57. “超市英雄”原来是素不相识的三位护士
  58. 一天只睡4小时,80岁川普精力过人
  59. 金刚为何怒目?菩萨为何垂眉?
  60. 川普80岁大寿!UFC格斗秀搬进白宫“狂烧19亿”