清华发布空间智能基准:Gemini 3仅得33.6分

2026-02-25 05:25:09 · chineseheadlinenews.com · 来源: 新智元

SSI-Bench是首个在约束流形中评估模型空间推理能力的基准,强调真实结构与约束条件,通过排序任务考察模型是否能准确理解三维结构的几何与拓扑关系,揭示当前大模型在空间智能上严重依赖2D信息,实际表现远低于人类。研究指出,模型需提升三维构型识别和约束推理能力,才能真正理解空间问题。

如果你把一个在空间理解榜单上刷分很高的多模态大模型,直接丢进真实世界,它很可能会在看起来很简单的问题上翻车。

不是因为它不会“看”,而是因为它从来没有被迫真正尊重三维结构的可行性——它可以靠2D相关性、外观先验、数据集套路,走捷径拿分。

而现实世界里,很多空间问题的本质恰恰相反:能怎么摆、怎么连、怎么受力,不是随意的;可行解往往只存在于一个被几何、拓扑、物理强约束“压扁”的空间里。

为此,清华大学的研究团队推出SSI-Bench,从AI与结构工程的交叉视角出发,为空间智能评估提供了一种新的场景化思路——将评测置于复杂三维结构的约束流形中,系统检验多模态大模型的空间智能表现。

项目主页:https://ssi-bench.github.io/

Arxiv论文:https://arxiv.org/abs/2602.07864

Hugging Face数据集:https://huggingface.co/datasets/cyang203912/SSI-Bench

Github代码库:https://github.com/ccyydd/SSI-Bench

论文将这种能力明确界定为Constrained-Manifold Spatial Reasoning(CMSR,约束流形空间推理):

在此类任务中,潜在三维状态并非可被任意“臆测”,而是受到显式约束的限定,仅能落在一个可行解集合内——既需要满足等式约束(如几何一致性、连接关系等),也需要满足不等式约束(如非相交条件、支撑条件与物理可行性等)。

更重要的是,强约束会显著收缩可行三维配置空间,使“高度、距离、最短路径”等空间关系在不同合理解释下更具稳定性,从而使评测结果具备更好的可量化性与可比性。

SSI-Bench正是在这一背景下提出:它不再将模型置于约束较弱、可自由组合的日常场景中,而是面向复杂真实工程结构构建评测环境,要求模型形成约束一致的三维结构假设,并在此基础上完成空间推理。

聚焦复杂三维结构

纯人工硬核打造

任务形式:用排序题“逼出”真3D

SSI-Bench不再让模型做选择题,而是统一成排序任务:每题给出3或4个候选“构件/构件组”,要求在指定几何/拓扑准则下输出正确的全排列顺序。

覆盖能力:几何+拓扑+多视角一致性

全基准共1,000道排序题,任务分两大类:

几何类(Geometric):Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume;

拓扑类(Topological):Hop Distance / Cycle Length等图结构关系;

并额外引入多视角题目:以两张图配合,一张提供参考构件,一张给出待比较目标,重点考察跨视角构件对应与整体结构一致性。

构建过程:十位研究者耗费400+小时纯人工打磨

为了保证数据集的质量与多样性,同时也由于缺乏真实结构构件的标注数据,SSI-Bench的构建流程非常“硬核”——10位研究者投入超过400小时,从大量真实结构图片中进行人工筛选与题目设计:

数据收集:研究中共计审阅约20,000张结构相关图片,结构形式包括空间网架、铁塔、斜拉桥、木竹结构、钢筋笼、管道等,最终保留2,000+候选;主要来自免版税来源(Unsplash / Pexels / Pixabay),多视角部分还补充了自采图像。

任务设计:结合空间智能需求与结构工程专业知识,共精心设计2大类、10小类任务。

元数据标注:判断每张图片适用的任务类型,使用Label Studio提供构件定位标注;

问题生成:依据图片色彩自动选取标注颜色,并按构件位置自动布局标注文本;问题生成后,由人工复核清晰度与遮挡情况。

质量检验:每题均由独立检查者复核,若存在分歧则交由第三人裁决。最终共获得1,000道有效题目。

模型仍在起跑线

人类领先近六成

SSI-Bench系统评测了31个主流VLM,结论非常直接:人类几乎“碾压式领先”。

人类平均91.6%,最强闭源33.6%(Gemini-3-Flash),最强开源22.2%(GLM-4.6V),随机猜测基线12.85%

也就是说,哪怕拿到当下最强大模型,人类仍然领先58个百分点(91.6 ? 33.6)。

更为关键的是,即使鼓励模型生成更长的推理过程,整体提升也多停留在边际层面,难以触及问题的核心瓶颈。并且在部分高度依赖全局三维一致性的任务(如Multi-View、Volume)中,过度推理反而可能在错误的结构假设上持续累积偏差,使结果进一步偏离正确答案。

从结果到机制

关键瓶颈在哪里?

论文对代表模型做了人工复盘,归纳出四类高频错误:

构件范围误判:仅观察到局部便误认为整体,或对端点位置产生错误“补全”;遮挡越多,问题越突出。

构件/节点识别错误:混淆不同部件,方向判断失准(例如将倾斜构件误判为水平或垂直)。

计算与比较逻辑错误:在Area/Volume等任务中计算方式错误(例如以2D投影替代3D体积),或采用不成立的简化假设。

3D空间逻辑错误:深度关系混乱、跨视角对应失败、关系组合不稳定,进而导致整体结构假设不一致。

这也解释了SSI-Bench的“硬核”并不在于题目刻意刁钻,而在于它迫使模型直面并补齐两项关键短板:三维结构构型识别与约束一致的空间推理。

结语

SSI-Bench的价值,并不是再造一个“更难的VQA”,而是把空间智能评估拉回一个更接近现实的坐标系:

当场景是复杂真实结构、当可行解被强约束收缩、当2D捷径不再可靠——模型是否还能稳定地构建约束一致的3D结构假设并完成推理?

从目前结果看,答案仍然很残酷:模型还在起跑线,人类已在终点线附近。

但也正因如此,SSI-Bench给出了一个非常明确的研究方向:

让空间智能体从“会看图说话”,走向“会在结构里思考”。


    24小时新闻排行榜更多>>
  1. 张扣扣走了七年,他父亲的手机还在坐牢
  2. 一篇报告点燃华尔街的AI恐慌,道指暴跌800点
  3. 张又侠被抓前后 内蒙古驻军高层密集变动
  4. 日本教授 人不会死 只是脱掉了肉体这件衣服
  5. 网红老高被罚4亿?中共半年前已设局! 
  6. 为什么你有气无力 原来你的压力象“巨石”
  7. 赫伊森时隔4天更新社媒,转发了一张猴子的图片
  8. CIA发波斯语视频 招募伊朗线人
  9. 陆民在海外看游行:被中共洗脑蒙骗24年 法轮功不是*教
  10. 地震、熊患、犯罪:北京叙事中“危险”的日本
  11. 张又侠“死讯”疯传 习近平正在自毁的路上
  12. 不祥之兆 赤马年中国大年初五全国遍地起火
  13. 内幕:中共借党建整肃官场 要求官员站队
  14. AI条款之争升温 美国防部威胁终止Anthropic合同
  15. 心脏病发作与斩杀线
  16. 传张又侠被插管 从一个过来人看张又侠的生死局
  17. “美国王子”的婚姻真相:争吵与坠机中走向终点
  18. 从核战堡垒到战时中枢:泽连斯基首次展示藏身掩体
  19. 美国华盛顿州发生持刀伤人事件 致4人死亡
  20. 蒙特利尔圣保罗教堂罕见火灾
  21. 美国学者:自由进步主义正走向终结
  22. “肯定不会一辈子滑雪” 谷爱凌或考虑进入其他行业
  23. 2028年全球智力危机,中产的黄昏到来?
  24. 谷爱凌挨轰回击范斯 坦言已习惯成为政治出气包
  25. 云南盈江连发两次地震 民众紧急避险
  26. “东江浮尸”惨状震撼全港 中共高层冷血实录
  27. 川普政府考虑要求银行收集客户公民身份信息
  28. 护犊的妈 强硬的哥 零容忍的侄…王子丑闻撕裂英王室
  29. 美最高院:USPS享有豁免权 邮件没送到不用赔
  30. 暴雪后美东北逐步重回正轨 恢复供电与交通
  31. 农发行副行长落马 扶贫贷款被爆“分赃”
  32. 一文读懂苹果2026年股东大会:库克不会退休?
  33. 16年未解之谜终揭晓 银河系中一场恒星吞噬事件浮出水面
  34. 穿透中共“数字铁幕” 美国务院将推出翻墙服务
  35. 美顶级家族最帅“王子”与绝美妻子命丧大海!
  36. 中共军报罕见不提“习主席” 习不断给张、刘找罪名
  37. 美最新民调:川普年纪愈大愈反复无常
  38. 多伦多市中心高楼跳伞引热议
  39. 川普15%新关税150天后到期 共和党人恐无力延长
  40. 许多回国朋友带回的消息出奇一致
  41. 最新曝光:爱泼斯坦之死被官方作为“谋杀案”调查
  42. 为何国民党能在台湾成功推行土改?
  43. 【直播】川普2026年国情咨文
  44. 古人类学新发现重塑人类演化图景
  45. 关税失利后,川普暗示出生公民权裁决也将不利
  46. 美商务部官员证实:2个月英伟达H200对华销售为零
  47. 加州:中国家庭孩童朝海狮丢沙石 全家被驱离海滩
  48. 开户要查护照?非公民自由开户的时代或要结束了
  49. 巴西遭暴雨袭击 至少25死43失踪
  50. 中共网军被曝大规模介入日本选举 专家解析
  51. 牛奶浇出“天价”草莓葡萄?
  52. 骚扰海狮 中国游客被圣地牙哥公园管理员驱逐
  53. 是否对伊动武 他的立场尤其重要 对川普说了什么?
  54. 川普发出邀请,美国冬奥女子冰球队婉拒出席
  55. 传浙江外卖员被两台救护车劫杀 死后“捐献7器官”
  56. 美国35岁“坚强寡妇”,被控毒杀亲夫
  57. 帅气藏不住!荷兰最年轻“同志总理”宣誓就任
  58. 党媒发文能上能下直戳习 崔永元现身《翠湖》首映礼
  59. 残忍罪行曝光!墨西哥毒枭杀人后掏出心脏吃起来
  60. “爱国教授”:我们正在目睹自由进步主义的终结