ImageNet之后,李飞飞再出手

2026-05-22 03:25:27 · chineseheadlinenews.com · 来源: 量子位

ImageNet之后,李飞飞再出手!

李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。

过去的空间智能评测默认给模型最优观测,而ESI-Bench第一个把观察者变成行动者,闭合了感知-行动回路。

它为具身空间智能领域提供了一个系统性的评测框架,覆盖人类核心空间认知能力的四大维度。

论文的核心结论是:

现在的AI看图很厉害,但离“会动、会摸、会主动找答案”的空间智能还差得远。

ESI-Bench是什么

ESI-Bench发布的背景,是由于目前的空间智能benchmark,测的都是“被动感知”。

把一张或几张图片扔给模型,问“A物体在B物体的左边还是右边”“这个杯子能装多少水”“抽屉里有没有东西”,这样的题目测出来的是模型的视力,而非空间推理能力。

反观人类是怎么做的?人类会站起来绕到物体背后去看,会把抽屉拉开,会把水倒出来量一量。

这就是ESI-Bench的核心立场:

把观察者变成行动者。

现实世界里,智能体必须像人类一样,主动决定行动、获取证据,再基于新观测做下一步判断。团队把它称为“感知-行动回路”(Perception-Action Loop)。

ESI-Bench就是这样一套超越现有基准的空间智能新评测基准,它包含10个任务类别,29个子类别,3081个任务实例,全部在OmniGibson仿真平台上构建,场景素材来自BEHAVIOR-1K场景库。

所有任务围绕Spelke的四大核心知识系统设计,也就是人类婴儿天生就具备的空间直觉:物体表征、布局与几何、数量表征、目标导向行动。

它的关键设定在于行动强制。每一道题,AI智能体必须主动行动才能拿到足够信息作答。模型不能坐在原地等图片,它要决定往哪走、看什么、拿什么、怎么操作。

举几个具体的例子:

比如评测中有一道“刚性容纳”题:给定几个容器和几个物体,要求把物体全部装进去。有的容器开口小、有的内部有隔板、有的盖子需要掀开才能看到真实容量。

模型必须走近、俯身、甚至把容器拿起来从底部观察,才能判断能不能装得下。

还有“液体体积”题:两个杯子,从外观看不出容量差异,模型需要把水倒进去测试,或者直接拿起来掂量。

这么一说,大家应该也能直观感受到这套评测基准的设计理念:

正确答案不在任何单张图片里,智能体必须主动行动并推理出正确结果。

团队特别指出,与此前工作相比,ESI-Bench在三个地方有所超越:

从空间感知到空间能力:在这里,智能体不仅根据他们能感知到什么来评估,还根据他们是否知道部署哪些具体能力来解决空间任务来评估;

选择性感知:智能体必须确定哪些观察值得获取,优先考虑与任务相关的信息而不是冗余或无信息的输入;

解决感知歧义:智能体必须通过误导性观察进行推理,以推断隐藏的空间结构和超越直接观察的潜在物理约束。

测完发现了啥?3个核心结论

团队拿当前最强的多模态大模型做了全面测试,包括GPT-5和Gemini系列。

这是最主要的实验结果图,包含了ESI-Bench在被动感知、主动探索、Oracle三种范式下的各项任务准确率,涵盖2D+VLM、3D+LLM及人类基线。

核心结论有3个。

第一,感知不是瓶颈,行动才是。

好消息是,主动探索确实有效。在没有额外指令的情况下,智能体自发涌现出多种空间策略。

比如绕到物体背后观察(move-behind)、切换俯视角度(top-down)、把物体拿起来(pick-up)、把水倒出来验证(pour-out)。

Gemini 3.1在“部分遮挡”任务上,如果给到最佳观察视角,准确率从14.6%暴涨到95.1%。

这说明,模型本身的感知能力是好的,只要给对视角,它就能看得懂。

但问题在于,模型自己找不到那个对的视角。

更糟糕的问题在于,被动多视角策略不仅没用,反而有害。

让GPT-5多看几张随机角度的图片,空间距离任务的准确率从53.9%降到49.1%。图看得多了,分反而低了。

△GPT-5和Gemini 3.1在主动探索中达到正确答案所需的平均步数团队把这个现象命名为“动作盲视”(Action Blindness),一个差动作导致一个差视角,差视角触发更差动作,形成不可逆的级联失败。

在结构围合任务上,主动探索策略和上帝视角的差距高达49.7%。

也就是说,空间智能的卡点不在于视觉模型不够强,而是行动策略几乎为零。

第二,3D重建不是万能药,不完美的3D比2D更坑。

既然2D被动看图不行,那上3D呢?这也是当前很多具身智能团队的路子,先重建三维场景,再在场景图上做推理。

结果发现,如果给的是真值3D(上帝视角的完美几何),那确实很强。

Gemini在材质透明任务上,2D版本得分44.0%,3D版本得分60.4%,提升16.4个百分点。在需要精确深度信息的任务上,3D grounding有天然优势。

但如果是真实重建呢?团队用当前最先进的VGGT模型做场景重建,再把重建结果喂给推理模型。

结果那叫一个惨不忍睹:几何配置任务上,2D基线得分27.5%,VGGT重建后的场景图得分只有9.9%。

这说明,不完美的3D不是中性失败,它是负向失败。几何伪影、遮挡补全错误、深度估计偏差,把这些失真信息编码成场景图,就等于给推理模型喂了一份“有毒”的输入。

相比之下,2D虽然信息少,但至少不失真;3D如果重建质量不过关,比2D还不如。

第三,元认知缺陷:模型不知道自己看没看够。

论文里还有一组对比实验,探讨了智能体和人类的空间推理能力究竟还有多大差距。

结果发现,尽管人类与模型之间存在感知差距,但该差距可能比普遍认为的要小。

在部分类别中,模型的被动表现甚至能与人类持平或超越人类。

在真实轨迹条件下,Gemini在部分遮挡任务上达到88.4%的准确率,而人类为87.4%;GPT-5在材质透明度任务上达到96.3%,人类则为97.2%。

然而在主动探索场景下,二者的差距急剧显现。

人类凭借明确的观察目标和停止时机,表现远超模型,且主动探索的表现更接近真实轨迹下的被动表现。

例如在物理接触任务中,人类准确率为88.3%,而 GPT-5仅为 64.2%;在材质透明度任务中,人类准确率为93.6%,Gemini 3.1则为52.3%。

通过分析模型与人类的探索轨迹,团队发现人类表现出更强的认知谨慎性:在做出判断前会收集更多观测,主动寻找可能证伪当前假设的视角,并在模糊情境下降低置信度。

而模型则会过早停止探索,即便证据存在模糊性,也仅在少数步骤后就以高置信度做出判断,进而产生与场景状态相悖的空间幻觉。

模型的过度自信,还因动作选择的方向偏差而加剧:模型不会探查正交角度或寻找能推翻初始印象的视角,而是反复向同一方向移动,积累的是冗余信息而非有效观测。

团队把它定性为元认知(metacognition)缺陷:模型不知道自己不知道。

它缺乏一种内建的“怀疑机制”,无法评估当前信息是否充分,无法根据矛盾证据调整信念。

这个问题从根本上区别于感知能力,也是一个更加底层的挑战,仅靠更强的视觉编码器或更多的探索步骤无法解决。

论文作者

最后,再介绍一下这项工作的作者团队。

一作是Yining Hong。

Yining Hong,斯坦福大学的博士后,导师为Yejin Choi教授,同时受到Leonidas Guibas教授、吴家俊教授和李飞飞教授的密切指导。

她曾在UCLA获得计算机科学博士学位,本科就读于上海交通大学电子工程系。

此外,她还是一名职业音乐家,平时会和乐队一起巡演,同时也是CVPR 2026的社交主席,负责组织CVPR招待会和音乐表演。

Jiageng Liu(刘家耕),加州大学洛杉矶分校(UCLA)Mobility Lab的博士生。

其本科就读于浙江大学竺可桢荣誉学院及计算机科学与技术学院的图灵班,获人工智能学士学位。

Han Yin,清华大学本科生,斯坦福大学Intern,专业为计算机科学与技术。

李飞飞、吴佳俊(Jiajun Wu)、Yejin Choi,三位斯坦福教授,也同时出现在作者列表里。

另外还有来自西北大学的Manling Li教授和斯坦福的Leonidas Guibas教授参与。


    24小时新闻排行榜更多>>
  1. 大陆结婚登记被爆造假 民政局雇人充场
  2. 美国乡村3人疑吸毒过量死亡 多名急救人员被隔离
  3. 广西四千万建根治欠薪平台 被曝沦为摆设
  4. 习近平“两套外交剧本” 川普享帝王礼遇 普京拿大单
  5. 美伊协议草案据称已达成 黄金急涨 美元油价跳水
  6. 美政府力推天然色素 竟可能增加糖尿病、癌症风险
  7. Anthropic入局或改写云计算竞争格局
  8. 邓聿文:川普没卖台却更危险 他把不能明说的说出来了
  9. BBC:普京红毯规格比肩川普 却没带走最想要的东西
  10. 记者手记:走进紫禁城
  11. 黄仁勋:受出口管制影响 中国AI市场已让给华为
  12. 到了北京,就要吃庆丰包子
  13. UFO降落在后院 3名外星人从中出现
  14. 央企旗下军需巨头造假近百亿 股票被“ST”
  15. 卢比欧眨眼、川普破例喝酒!解读川习会漏网镜头
  16. 莫迪和梅洛尼为这谐音梗哈哈大笑 印度网民不乐意
  17. 工人坠亡,美新版“星舰”首飞推迟
  18. 川普坦言出席长子婚礼“时机不佳”
  19. 川普让步,内塔尼亚胡“怒不可遏”
  20. 上海香格里拉酒店 “黄仁勋的表外甥女”被人群围住
  21. 中国足坛再爆65人涉“假赌黑” 17人终身禁足
  22. 极端暴雨频发,山区县城为何越来越脆弱?
  23. 央视血旗惊现“倒立播报” 莫非是“变天信号”
  24. 川普放狠话:一定拿到高浓缩铀 不许收海峡过路费!
  25. 爱吃牛排汉堡的川普 为何大买日本寿司店股票?
  26. 民运人士毛庆祥发徐光出狱视频 被公安带走
  27. 暴雨致湖南6人死亡10人失联,记者实地探访惨状
  28. 日本惊爆“撞脸代考” 中国籍枪手与考生本人正面撞上
  29. 卢比欧将访印度 聚焦美国能源输出与安全议题
  30. 绿卡“大审查”来了,哪些最危险?
  31. 川普前儿媳确诊乳腺癌 曾是模特 现与老虎伍兹恋爱
  32. “史诗之怒”将拍电影 重现美军生死营救
  33. 中国的大学景区化:凭啥进中国高校游览那么难?
  34. 伴侣算账争议,你月入5万,我月入5千,你让我AA?
  35. 迷奸“失忆者”的罪恶产业链:危险的“三件套”
  36. 摩根大通和美国银行为与中国军方有关联的中企募集资金
  37. 川普:不支持海峡过路费
  38. 川普再次表示将与赖清德通话,或激怒中国
  39. 菜场里的作家:她并不浪漫,也不幻想
  40. 巴拉卡核电站,被炸起火:背后的国际政治角力
  41. 佛州深陷“火海模式”
  42. 古巴外长:鲁比奥正挑起军事侵略
  43. 小米YU7 GT上市,雷军:要再次挑战Model Y
  44. 关于位樊姓女同学:上海交大还需回应这个细节
  45. 《监狱来的妈妈》事件:该关注正在倒退的大众智商
  46. 全球首创,即将“出国”
  47. 吸毒纵火烧死人!美死囚临终微笑:我要回家了
  48. 中共水利部人事调整 一个半月逾十水利官员落马
  49. 美国可能逮捕他:古巴局势的3种可能
  50. 五粮液股价跌去四分之三 欲100亿回购股票
  51. “蟑螂人民党”横空出世爆红!切中牛马社畜们的要害?
  52. 传美暂缓140亿对台军售 学者:台湾务必加快国防自主
  53. 让“贫血”的影院有了温热,《给阿嬷的情书》做对了什么?
  54. 芬兰防空洞吸引全球目光 乌克兰波兰争相取经
  55. 叶珂咋又变样了?
  56. 连环杀手杀3名女性,被判30年至终身监禁
  57. “股神”川普,一季度买卖股票超3600次
  58. 川普宣布向波兰额外部署5000名士兵
  59. 抛弃两个儿子,母亲被抓
  60. 中俄“无上限友谊”,有上限