OpenAI评估:AI会替代哪些行业?

2025-09-29 22:25:21 · chineseheadlinenews.com · 来源: 华尔街日报

一项来自OpenAI的最新评估显示,AI在执行具有经济价值的工作任务方面正迅速追赶,甚至逼近人类专业人员的水平。

据报道,OpenAI于周四发布了一款名为GDPval-v0的全新评估工具。该工具旨在衡量AI模型在完成法律文书、工程蓝图和护理计划等“真实工作交付成果”时的表现。

该研究覆盖了在美国国内生产总值(GDP)中占比较大的九个商业领域,涉及44个职业中的约1300项具体工作任务。结果显示,当前最顶尖的AI模型在执行许多职业任务时,其能力已与人类专业人士相当,并且这种能力的提升速度正在加快。

在GDPval-v0发布后,前OpenAI政策总监、Anthropic联合创始人Jack Clark在其最新的博文《Eval the world economy; singularity economics; and Swiss sovereign AI》中,全面地评估了GDPval的研究过程和结果。

GDPval或成衡量AI经济价值的全新标尺

狙棠章介绍,GDPval基准测试涵盖了1230个专业任务,涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业,每一个任务都由平均拥有超过14年行业经验的资深专业人士精心设计和审核。

Clark指出,这份清单几乎囊括了现代经济中所有关键的知识密集型岗位,表明AI公司正有条不紊地测试其系统在经济各个“生态位”的适应能力。

文章还表示,该基准测试的另一个优秀特性是它涉及多种回答格式,并试图处理现实世界固有的复杂性。

为了模拟真实世界工作的复杂性,GDPval的任务并非简单的文本问答,而是带有参考文件和上下文,要求AI交付的成果也多种多样,包括文档、幻灯片、图表和电子表格等。

评估结果直接量化了AI的能力边界。数据显示,Claude Opus 4.1在与人类专家的比较中,取得了47.6%的“胜利或平局”率,排名第一。紧随其后的是GPT-5-high(38.8%)和o3 high(34.1%)。

这些数据表明,AI在处理复杂的专业知识工作时,其质量已达到甚至在某些情况下超过了经验丰富的人类。

Clark认为,GDPval的出现,为评估AI的广泛经济影响提供了一个关键基准,其意义类似于SWE-Bench之于编程领域。

公开资料显示,SWE-Bench于2024年11月推出,旨在评估AI模型的编程能力。该基准测试采用了从12个不同Python项目的GitHub公开仓库中提取的2000多个真实编程问题作为评测依据。

以下是Clark的博文节选,由AI工具辅助翻译:

评估世界经济;奇点经济学;以及瑞士主权AI

作者:Jack Clark

OpenAI构建了一个评估系统,对广泛经济的意义就如同SWE-Bench对代码的意义: …GDPval是一个非常好的基准测试,具有极其重要的意义…

OpenAI构建并发布了GDPval,这是一个制作精良的基准测试,用于测试AI系统在现实世界经济中人们从事的各种任务上的表现。就评估而言,GDPval对广泛的现实世界经济影响的意义,可能相当于SWE-Bench对编程影响的意义——这是一件大事!

它是什么:GDPval"衡量模型在直接来自现实世界的任务上的表现,这些任务涉及各行各业经验丰富专业人士的知识工作,为模型在经济价值任务上的表现提供更清晰的画面。"

该基准测试涵盖9个行业的44个职业,包括1,230个专业任务,"每个任务都由平均拥有超过14年经验的经验丰富专业人士精心制作和审核"。数据集"包括每个职业的30个经过全面审核的任务(完整集),以及我们开源黄金集中每个职业的5个任务"。

该基准测试的另一个优秀特性是它涉及多种回答格式,并试图处理现实世界固有的复杂性。他们写道:"GDPval的任务不是简单的文本提示。它们带有参考文件和上下文,预期的交付成果涵盖文档、幻灯片、图表、电子表格和多媒体。这种现实性使GDPval成为模型如何支持专业人士的更现实测试。"

"为了评估模型在GDPval任务上的表现,我们依靠专家'评分员'——一群来自数据集中代表的相同职业的经验专业人士。这些评分员盲目比较模型生成的交付成果与任务编写者产生的成果(不知道哪个是AI生成的,哪个是人类生成的),并提供批评和排名。评分员随后对人类和AI交付成果进行排名,并将每个AI交付成果分类为'更好'、'同样好'或'不如'彼此,"作者写道。

结果:"我们发现今天最好的前沿模型已经接近行业专家产生的工作质量,"作者写道。Claude Opus 4.1排名第一,与人类工作相比的总体胜利或平局率为47.6%,其次是GPT-5-high的38.8%,以及o3 high的34.1%。

更快更便宜:更重要的是,"我们发现前沿模型完成GDPval任务的速度比行业专家快约100倍,成本便宜约100倍。"

GDPval包含哪些类型的工作?

? 房地产和租赁业:礼宾员;物业、房地产和社区协会经理;房地产销售代理;房地产经纪人;柜台和租赁店员。

? 政府部门:娱乐工作者;合规官员;警察和侦探一线主管;行政服务经理;儿童、家庭和学校社会工作者。

? 制造业:机械工程师;工业工程师;采购员和采购代理;运输、接收和库存店员;生产和操作工人一线主管。

? 专业、科学和技术服务:软件开发人员;律师;会计师和审计师;计算机和信息系统经理;项目管理专家。

? 医疗保健和社会援助:注册护士;执业护士;医疗和健康服务经理;办公室和行政支持工人一线主管;医疗秘书和行政助理。

? 金融和保险:客户服务代表;金融和投资分析师;财务经理;个人理财顾问;证券、商品和金融服务销售代理。

? 零售贸易:药剂师;零售销售工人一线主管;总经理和运营经理;私人侦探和调查员。

? 批发贸易:销售经理;订单店员;非零售销售工人一线主管;批发和制造销售代表,不包括技术和科学产品;批发和制造销售代表,技术和科学产品。

? 信息业:音频和视频技术员;制片人和导演;新闻分析师、记者和新闻工作者;电影和视频编辑;编辑。

为什么这很重要——AI公司正在构建系统进入经济的每一个部分:此时我希望读者想象我站在华盛顿特区中心,举着一个巨大的标牌,上面写着:AI公司正在构建基准测试,旨在测试他们的系统在经济中各种工作上的表现——而且它们已经非常出色了!

这并不正常!

我们正在通过生态有效的基准测试,对系统在极其广泛的行为范围内进行测试,这些基准最终告诉我们这些系统能够多好地融入世界上约44个不同的"生态经济生态位",我们发现它们已经非常接近与人类表现相同的水平——这还只是基于今天的模型。很快,它们在这些任务上将超越许多人类。然后会怎样?什么都不会发生?不!经济将发生极其奇异的变化!


    24小时新闻排行榜更多>>
  1. “十一国殇日全民公祭于朦胧”公开信呼吁:聚集北京天安门
  2. 魔术大师其实是特异功能奇人?
  3. 10天拍99场吻戏!美女演员遭分手 中国网友热议
  4. 纽森嘲笑川普“三军肥统帅”引爆网络
  5. 分析:中国电动车行业或重蹈房地产覆辙
  6. 股价狂飙近1000% 这只超级大妖股被SEC紧急停牌
  7. 美对华出口管制重大升级 封堵中企子公司
  8. 美政府即将面临七年来首次关门
  9. 中国国产客机C919交付大幅延宕 疑引擎采购遭遇困
  10. 逛省城:长春净月潭景区
  11. 受惠川普“大而美法案” 部分美国中产缴联邦税归零
  12. 美民意翻转 纽时民调:同情巴勒斯坦首度超越以色列
  13. 猛!恶劣旅客不繫安全带 夏威夷航空霸气“全机折返”
  14. 出大事?大批军车进京 李强授权宣告“汪洋回来了”
  15. 被指为中国情报部门工作,他被判处监禁
  16. 辉瑞同意自愿降低美国药价
  17. 深圳成重灾区!9位优质剩女抢1男!剩女慌了 倒贴也没人要!
  18. 菲律宾发生6.9级强震 民众慌忙逃出住所
  19. 贵州城管局副局长被爆性侵9岁继女多年 引众怒
  20. 美军证实重大部署,中朝妄动无所遁形
  21. 金价新高引爆黄金矿企募资热
  22. 港府是否要求新加坡引渡罗冠聪,李家超发声
  23. 政府关门倒数!川普威胁采取“不可逆”削减福利行动
  24. 川普计划如何结束战争并重建加沙 一文看懂
  25. 花旗:AI基建部署正在“急剧加速”
  26. 中联部长去向不明,日中执政党交流搁浅
  27. 中国这座大城正在全球圈粉
  28. 女子为嫁00后高富帅男友与母亲反目?
  29. 预订廉价航班应该注意什么“危险信号”?
  30. 这家“南派”期货公司现罕见操作
  31. Costco新规“黄金1小时” 拿金卡被挡门外 两派战翻
  32. 美将领对拟议的国防战略表担忧 参联会主席亦提异议
  33. 800乌军死守水库阵地
  34. 正副国级大斗特斗 于朦胧惨死涉高层夺敌之战
  35. 无证客装高中生 免费寄宿还买枪 直到他孩子妈打电话…
  36. 美元升值40年轮回,日本再临日元暴涨边缘
  37. 路易斯安那州长请求部署国民警卫队
  38. 欧尔班:乌克兰“非主权国家”
  39. 德国总理:川普和平计划是“最佳机会”
  40. 受美国政府关门危机影响,亚股涨跌互见
  41. 中国9月制造业PMI连续6个月收缩
  42. 川普:哈佛将与白宫敲定5亿和解协议
  43. 近7年来首次 美国联邦政府正式“关门”
  44. 美参院否决两项拨款案 政府开始“停摆”
  45. 于朦胧之死涉高层夺敌之战 正副国级大斗特斗
  46. 非公民学生是否享言论自由权?联邦法官做重磅裁决
  47. 佛州官员赠送迈阿密黄金地段 拟建川普总统图书馆
  48. 全球首台,顺利下线
  49. YouTube的2200万美元和解金将用于翻新白宫宴会厅
  50. 习近平重申“反台独”,北京发布2758决议立场文件
  51. 都知道中国农民最苦 深究背后的原因才知
  52. 广东灭蚊运动升级 市民:当局借疫情牟利
  53. 【热点互动】中共释假信号 企图诱美“反台独”
  54. 沈阳多地冰雹,大的超过1厘米
  55. 广东两“世仇村”和解:清末发生械斗 百年不往来
  56. 男性补精力 吃这7物 重拾雄风
  57. 纽约市房主现可申请建后院和地下室公寓
  58. 美参院否决两项拨款案 政府濒临关门
  59. FBI参与移民执法行动 突袭芝加哥南岸社区
  60. 白宫:政府将“关门”,正执行“有序停摆”预案