首个多轮、开放视角视频问答基准

2025-12-26 04:25:15 · chineseheadlinenews.com · 来源: 新智元

基准WildVideo针对多模态模型在视频问答中的“幻觉”问题,首次系统定义了9类幻觉任务,构建了涵盖双重视角、支持中英双语的大规模高质量视频对话数据集,采用多轮开放问答形式,贴近真实交互场景,全面评估模型能力。

近年来,大模型在多模态理解领域进展显著,已能够在开放世界中处理图文甚至视频内容。

然而,一个普遍且严重的问题“幻觉”始终制约着其实际应用。

尤其在动态、连续的视觉场景中,模型可能生成与视频内容矛盾、违背常识或在多轮对话中前后不一致的回答。

当前主流评测基准多集中于单轮、单视角、选择题型的设定,难以真实反映模型在开放、连续、交互式对话场景中的能力与缺陷。这一评测体系的局限,阻碍了我们对模型在实际应用中表现的理解与优化。

为填补这一空白,来自国防科技大学与中山大学的研究团队提出了WildVideo,一个面向真实世界视频-语言交互的、系统性的多轮开放问答评测基准。

论文地址:https://ieeexplore.ieee.org/document/11097075

项目主页:https://chandler172857.github.io/WildVideo-leaderboard/

Github:https://github.com/yangsongyuan18/WildVideo

数据集:https://huggingface.co/datasets/yangsongyuan18/wildvideo

该工作首次从感知、认知与上下文理解三个层面系统定义了9类幻觉任务,并构建了一个涵盖双重视角、支持中英双语的大规模高质量视频对话数据集,旨在对多模态大模型进行更全面、更严格的压力测试,并已经被TPAMI 2025正式接收。

WildVideo的设计理念与核心贡献

贴近真实交互的评测框架WildVideo的设计完全围绕“真实世界应用”展开,摒弃了传统的单选/判断题形式,采用开放问答,模拟了真实对话中并无预设选项的场景。

更重要的是,它引入了多轮对话评测(最多5轮),要求模型具备连贯的上下文理解、信息关联与指代消解能力,这是此前视频评测中普遍缺失的一环。

细粒度、多维度的幻觉分类体系研究团队将模型在视频任务中可能产生的幻觉系统性地归纳为三大类、九小项:

感知幻觉:包括静态(物体属性识别)和动态(动作理解、视觉定位、跨帧一致性)两个维度,考验模型对视频内容的基础理解是否准确、稳定。

认知幻觉:分为常识认知(因果关系、跨模态指代)和世界知识认知,要求模型不仅能“看到”,还要能基于常识和外部知识进行合理推断。

上下文理解幻觉:专为多轮对话设计,包括上下文省略(理解对话中的省略信息)和跨轮检索(关联历史对话中的关键信息),直接评估模型在连续对话中的核心能力。

丰富、高质量的数据集

基准包含1,318段视频,其中既有来自Charades-EGO数据集的874段记录日常人类活动的第一人称与第三人称配对视频,以模拟不同的人类观察视角;还引入了444段涵盖全球事件与文化现象的YouTube视频,以丰富世界知识背景。

数据集最终包含了13,704个单轮问答对与1,585个多轮对话。数据构建过程融合了强大LLM的生成能力与多国PhD级别专家的多次人工审核与增强,确保了问题的挑战性、答案的精确性与对话的自然流畅性。

主要实验发现与深入洞察

研究团队在WildVideo上对14个主流开源与商业模型(如GPT-4o、Claude-3.5-Sonnet、Gemini系列、LLaVA-Video、InternVL等)进行了全面评估,揭示了若干关键发现:

整体表现揭示巨大挑战即便是当前最先进的模型,在WildVideo上也面临严峻挑战。

在单轮任务中,表现最佳的GPT-4o准确率仅为62.1%;当任务扩展至多轮对话时,其准确率进一步下降至52.7%。这清晰地表明,处理多轮交互的复杂性远高于单轮问答,现有模型的能力存在显著短板。

能力结构不平衡

感知层面:模型在静态“物体”识别任务上表现最佳,而在需要理解时序的“动作”识别和“视觉定位”任务上表现大幅下滑,暴露出对动态信息处理的不足。

认知层面:涉及常识推理和跨模态指代的任务成为所有模型的普遍难点,最低得分仅11.0%,说明模型在结合视觉与常识进行深层推理方面仍有很长的路要走。

上下文层面:多轮特有的“上下文理解”任务(省略与检索)表现最不理想,最佳得分也未超过51.4%,凸显了当前模型在维持长对话一致性、有效利用历史信息方面的瓶颈。

视角偏好与语言差异

视角偏好:几乎所有模型在第三人称(外视角)视频上的表现都系统性优于第一人称(自我视角)视频。研究者分析,这可能是因为第一人称视频存在更多运动模糊、视角突变和遮挡,对模型的动态感知提出了更高要求。

中英双语评测:WildVideo提供了完整的中文版评测集。实验显示,模型在中文任务上的表现普遍低于英文,最佳模型GPT-4o在中文多轮任务中也仅得54.0%,这为中文多模态模型的优化提供了明确的诊断工具。

轻量版与性能版模型的权衡对比GPT-4o/GPT-4o mini和Gemini 1.5 Pro/Gemini 1.5 Flash发现,性能更强的版本在绝大多数任务上领先。

但有趣的是,轻量级的Gemini 1.5 Flash在多轮上下文理解任务中反超了其性能版,提示模型设计在效率与长上下文处理能力间可能存在不同的优化路径。

意义与未来展望

WildVideo的发布,不仅是为社区提供了一个新的、更严格的评测“标尺”,更是为多模态大模型的研究指明了重要的演进方向:

推动评测范式升级:它推动了视频理解评测从“静态快照问答”走向“动态连续对话”,从“客观选择”走向“开放生成”,更加贴近最终应用。

精细化诊断模型缺陷:其细分的幻觉分类体系能够帮助研究者精准定位模型失效的具体环节(是看不准、想不对,还是记不住),从而进行有针对性的改进。

促进多轮对话技术发展:基准明确揭示了当前模型在多轮交互中的脆弱性,将激励学术界和产业界在对话状态管理、长期记忆机制、指代消解等关键技术上进行更多投入。

支持跨语言与跨文化优化:中英双语并行的设计,为开发更具全球适用性的多模态模型提供了重要的评估基础。

WildVideo像一个功能全面的“体检中心”,它告诉我们,当前看似强大的多模态模型,在走向真正的、实用的视频对话智能之路上,仍需在动态感知、深层推理和连贯交互等多个关键能力上实现突破。

这项工作已开源相关基准数据,期待它能持续驱动视频语言交互领域向更可靠、更智能的方向发展。


    24小时新闻排行榜更多>>
  1. 二手车消费报告发布:燃油车更受欢迎
  2. 【内幕】中共军人的真实处境
  3. 拜登之子:乌克兰腐败程度“令人震惊”
  4. 川普宣布对华加税:18个月半后
  5. 明年94%的美国中产纳税人将获得减税
  6. 川普下令袭ISIS
  7. 泽连斯基:和平协议“几乎准备就绪”
  8. 母虎带五崽罕见亮相,六虎同框
  9. 体检查出甲状腺结节,癌变几率有多大?
  10. 中美红线对撞:北京制裁20家美企
  11. 关税影响新年:90%圣诞树来自一个国家
  12. 经济学家预测2026年美国房市会迎来转折点
  13. 五角大楼称中国正寻求缩短核反击响应时间
  14. 美出入境新规生效 影响绿卡持有者等群体
  15. 川普2.0首年颁布一系列政策 重塑移民体系
  16. 美国“斩杀线”意味什么?14万美元成了“现实生存线”
  17. 中共政治局民主生活会透露的信息
  18. 以色列承认索马里兰为主权独立国 释何信号
  19. 2025年中国电商浪潮席卷法国
  20. 若内容不实,朱孝天或被刑拘
  21. 去一趟封关后的海南,我被自己穷笑了
  22. 美国佛心老板卖掉公司 豪气发15%收益给所有员工
  23. 泽连斯基将于周日在佛州与川普会晤 商讨停战
  24. 全网都在热议 中国为什么没有美国的“斩杀线”?
  25. 南博出事后 大陆一夜间几十家博物馆吓得关门
  26. CNN预言“2026全球7大事” 川习会恐决定台海局势
  27. 餐馆服务员用消毒液泡水壶,致顾客食道腐蚀
  28. 巴黎地铁惊传随机伤人案
  29. 比特币突发“闪崩”,8.7万秒变2.4万
  30. 月入8万,靠小众职业偷偷暴富的人
  31. 越来越多中国男人娶这国女子
  32. 前中国计生委主任彭佩云去世 部分网民诅咒式“送行”
  33. 前中国人寿保险总裁,被开除党籍
  34. 银行女经理和丈夫先后自杀:生前花180万元预订豪车
  35. 中国老年艾滋病靶染人数持续上升 他们怎么得的病?
  36. 日本知名轮胎厂爆砍人泼漂白水血案 15伤
  37. 以色列出大招,一众国家谴责
  38. 白银散户狂热把行情推向极端
  39. 朝鲜最高礼宾负责人 “川金会总舵手”金昌善过世
  40. 2025年赤潮汹涌:中共对世界文明与民主的渗透与侵蚀
  41. 脑袋向左两脚向右 对外树敌对内严控
  42. 美超市收银故障“排队到火大” 店员一句“免单”全场欢腾
  43. 边直播边开车撞死人 美网红竟募款要给自己“心理假”
  44. 白银价格冲击每盎司75美元 迎来爆炸性涨幅
  45. 美国人对跨年派对敬而远之 宁愿独处追剧滑手机
  46. 【佳音时刻】还能打仗吗?中共上将上演消失术
  47. 【新闻大家谈】盘点2025五大新闻 解读世界走向
  48. 跨越时间空间,他终于见到亲哥
  49. ISIS意识形态正卷土重来?
  50. 泽连斯基:中国卫星影像疑助俄罗斯锁定攻击目标
  51. 圣诞节假期遭强烈风暴侵袭 加州全境爆发灾情
  52. 持绿卡反假消息运动人士恐遭美驱逐 法官暂禁拘留他
  53. 余茂春致信美国精英:不要对中共抱有幻想
  54. 受恶劣天气影响 美国逾6千航班被取消或延误
  55. 叙利亚清真寺发生大爆炸,8死18伤
  56. 中奖后,应如何守住财富?
  57. 首个多轮、开放视角视频问答基准
  58. 白银价格冲击每盎司75美元
  59. 2025年对习近平来说意义非凡
  60. 普京“准备”与马克龙进行对话