这是AI领域最容易被误解的一张图表

2026-02-15 10:25:09 · chineseheadlinenews.com · 来源: 麻省理工科技评论APP

每当 OpenAI、Google 或 Anthropic 推出新一代前沿大语言模型,AI 领域的从业者都会翘首以盼。大家会一直等待 METR 更新那张如今极具标志性的图表,这份期待才会落下。

(来源:麻省理工科技评论)

(来源:METR.ORG)

但实际情况远比这些夸张的反应所呈现的复杂。一方面,METR 对特定模型能力的评估结果存在较大的误差范围。METR 曾在 X 平台明确表示,Claude Opus 4.5 或许只能稳定完成人类约 2 小时能做完的任务,也可能能成功完成人类耗时长达 20 小时的任务。受研究方法本身存在的不确定性影响,目前无法得出确切结论。

METR 的技术人员西德妮?冯?阿克斯(Sydney Von Arx)表示:“人们对这张图表的过度解读体现在多个方面。”

这张指数级发展趋势图表为 METR 打响了知名度,而该机构对于这张图表所引发的一众狂热解读,似乎有着复杂的态度。今年 1 月,该图表相关论文的主要作者之一托马斯?奎瓦(Thomas Kwa)发布了一篇博文,回应了外界的部分质疑,并明确指出了图表的局限性。目前 METR 正着手撰写一份更详尽的常见问题解答文档。但奎瓦并不认为这些努力能从根本上改变外界的解读方式。他表示:“我认为无论我们做什么,那些鼓吹炒作的声音终究会忽略所有的前提条件和注意事项。”

METR 让大语言模型完成这一系列测试任务后发现,先进的模型能轻松完成那些人类耗时短的任务。但随着模型尝试的任务所需的人类完成时间不断增加,模型的任务完成准确率会开始下降。研究人员会根据模型的表现,在人类任务耗时的时间尺度上,找到模型能成功完成约 50% 任务的临界点,这一临界点就是该模型的时间跨度。

阿克斯表示,她最初也对将时间跨度作为评估指标的合理性持怀疑态度。而她和同事的分析结果,让她改变了这一看法。研究团队测算出 2025 年初市面上所有主流模型的 50% 任务完成时间跨度后,将这些数据绘制成图表,发现头部模型的时间跨度正随着时间推移不断增加,且提升速度还在加快。这些模型的时间跨度大约每 7 个月就会翻倍,这意味着,2020 年年中,最先进的模型能完成人类耗时 9 秒的任务;2023 年初,能完成人类耗时 4 分钟的任务;2024 年末,能完成人类耗时 40 分钟的任务。阿克斯说:“我可以从理论层面反复探讨这一指标是否合理,但实实在在的发展趋势就摆在那里。”

但模型在 METR 图表中实现了 1 小时的时间跨度,并不代表它能在现实工作中取代人类 1 小时的工作量。一方面,用于评估模型的这些任务,无法反映出实际工作中的复杂性和不确定性。在最初的研究中,奎瓦、阿克斯及其同事提出了任务 “复杂程度” 的量化评估标准,评估维度包括模型是否明确知晓自身的评分规则、模型出现错误后是否能轻松重新开始任务。而对于高复杂程度的任务,模型在这两个维度的答案均为否。研究团队发现,模型在完成高复杂程度任务时,表现会明显变差,不过无论是高复杂程度还是低复杂程度的任务,模型的整体表现都呈提升趋势。

可以肯定的是,仍会有部分人将这张 METR 图表解读为人工智能引发人类末日的预言,但实际上它的本质十分朴素:这是一个经过精心设计的科学工具,将人们对人工智能发展的直观感受转化为了具体的数值。METR 的工作人员也坦言,这张图表绝非完美的评估工具。但在人工智能这一新兴且发展迅猛的领域,即便不够完美的工具,也能具备巨大的参考价值。

阿克斯表示:“一群研究人员在重重限制下,尽最大努力打造出了这一评估指标。它在很多方面都存在明显的缺陷,但我依然认为,它是同类型工具中最出色的之一。”


    24小时新闻排行榜更多>>
  1. 元老逼习交出王小洪?传曾跨国镇压美华裔奥运冠军
  2. 鲁比奥在慕尼黑发表演讲
  3. 军队造反前夜 刘源与习近平的“最后一战”
  4. 左小青现身东北,穿羽绒服逛早市
  5. 习近平宣布对非洲53个邦交国实施“零关税”
  6. 春节回家,00后开始整顿相亲
  7. 迷你小马在大陆网络爆火 隐性开销大得惊人
  8. 王小洪“政治患癌”?传曾跨国镇压美华裔奥运冠军
  9. 永久下线:OpenAI杀死了GPT-4o
  10. 毛阿敏现身企业年会,再唱经典
  11. 张又侠被抓 中共秀团结 年前当局“看望”元老
  12. 鲁比欧:美须与中国对话管控冲突 否则是“失策”
  13. 岳云鹏蔡文静上热搜:两人居然演夫妻
  14. 《经济学人》:高市早苗是全球最具权势女性
  15. 美欧关系紧张,丹麦总理:川普没打消拥有格陵兰念头
  16. 中国最高法院:辅助驾驶系统不能代替驾驶人
  17. 日美5500亿美元投资谈判卡关
  18. 胡惠玲肾脏移植后两天下床走路
  19. 电动车泡泡破了!底特律3巨头"惨认赔500亿"原因曝
  20. 毛泽东学习英文背后的战略眼光
  21. 从中南海“总镖头”杨德中 看内廷血腥斗争史
  22. 张又侠被抓前军方人事异动 京沪驻军主官换人
  23. 高血糖患者常吃橙子,或有4好处
  24. 川普分享猴子合成片惹议,奥巴马首发声
  25. 《求是》发表习书记重要文章
  26. 奥巴马批评美国政治言论已失去基本体面与分寸
  27. Altman预言“全AI企业”时代开启
  28. 解密:为何高校名师,白宫高官与硅谷巨头甘愿与"魔鬼"共舞?
  29. 沆瀣一气,有恃无恐?北京锐安科技和公安部某所的恶行
  30. 加媒揭加拿大房贷造假与2026年监管风暴
  31. 美环保署长:不应让美国人承担气候政策成本
  32. 万锦发生交通事故,致一死
  33. 慕尼黑25万人抗议伊朗暴力 吁政权更迭
  34. 高市早苗就医,贴文超370万次浏览
  35. 肥皂盒钮扣窃听秘辛 毛泽东人设彻底崩蹋
  36. 防腐剂BHA有致癌风险,FDA重启评估
  37. 河南一企业年会6千万现金铺桌面 任员工领取
  38. 女人越老越要减肥?睡前10分钟一个动作帮你收腹
  39. 越共总书记拟访美参加和平理事会 打破先访北京惯例
  40. ICE计划斥资383亿美元扩拘留设施 关押待驱逐移民
  41. 20万人集结德国抗议伊朗政权 流亡王储盼领导转型
  42. 加拿大选手杜布勒伊,摘铜
  43. 爱泼斯坦想见普京,请挪威前首相牵线
  44. 中共对加拿大渗透是美国的五倍 智库提建议
  45. 10对夫妻6对离婚!90%女性后悔离婚!
  46. 习早已磨好刀?新线索指向拿下张又侠的关键人物
  47. “干婚”现象越来越严重了
  48. 贝克汉姆大儿子和老婆抱狗上街很甜蜜
  49. 谷爱凌的新工作,资深投资经理,老板确认了
  50. 欧洲5国控纳瓦尼遭"箭毒蛙"毒杀!俄罗斯:政治作秀
  51. 安徽待宰大鹅流泪 主人:不敢吃 送人了
  52. 泽连斯基:停火两个月后方可举行大选
  53. 万亿资本撕扯:AI狂飙遇现实拷问
  54. 纳瓦尼之死真相大白,欧洲五国指控普京
  55. 中国知名调查记者刘虎获保释
  56. 卢比奥:古巴唯一出路是开放经济
  57. 印度AI峰会将登场 黄仁勋因“无法预料的状况”不去
  58. OpenClaw改代码遭拒,怒写小作文报复
  59. 加拿大首批40款电车最高补贴$5000
  60. 美军发动10波攻击!轰炸叙利亚ISIS多处据点,报复伏杀美军