MIT:2029年AI可处理95%文本

2026-04-08 21:25:33 · chineseheadlinenews.com · 来源: 华尔街日报

麻省理工FutureTech团队发布论文,基于O*NET数据库逾3000项任务及17000余份真实工人评估,研究AI自动化的演进模式。核心结论是:AI能力提升呈“潮汐式”广泛渗透,而非“巨浪式”集中冲击;预计到2029年大多数基于文本的劳动力市场任务AI成功率将达80%至95%,但近乎完美的自动化仍需数年以上。

麻省理工学院最新研究显示,AI对劳动力市场的自动化替代并非突如其来的“巨浪”,而是广泛且持续的“涨潮”,预计到2029年,大多数基于文本的工作任务AI成功率将达到80%至95%。

研究背景:AI如何改变工作?

2026年3月,麻省理工学院FutureTech团队发布工作论文《巨浪还是潮汐:来自数千名工人对劳动力市场任务评估的AI自动化初步发现》(论文编号:arXiv:2604.01363v1),作者包括Matthias Mertens、Neil Thompson等人,研究资金来自Open Philanthropy及一家科技公司。

这项研究试图回答一个对投资者和政策制定者都至关重要的问题:AI能力的提升,究竟会以“巨浪”形式(Crashing Waves)——突然、集中地颠覆某类工作——还是以“潮汐”形式(Rising Tides)——广泛、渐进地抬升整体自动化水平?

两种模式对劳动力市场的冲击截然不同。“巨浪”意味着某些职业在短期内从几乎不受影响到几乎被完全替代,工人几乎没有时间适应;“潮汐”则意味着变化更可预期,但覆盖面更广,最终影响同样深远。

图1 “巨浪” VS “潮汐”

研究方法:17000份真实工人评估

研究团队从O*NET数据库的18786项任务中,筛选出具备至少10%时间节省潜力的11768项文本类任务,最终纳入调查的任务达11536项,生成69216个任务实例。

评估流程严格:每个任务实例由41款大型语言模型(LLM)生成回答,再由具备相关工作经验的真实从业者打分,评分采用1至9分制——7分及以上代表“无需编辑即可最低限度使用”,9分代表“优于普通人类工人水平”。研究最终纳入超过17000份有效评估,约34.6%的原始数据因质量问题被剔除。

任务时长覆盖从约10分钟到数天不等,大多数任务耗时在20分钟至10小时之间。

研究团队强调,这是初步结果,数据收集仍在进行中,当前样本在工资水平和学历要求上略低于目标分布,白领职业略有过度代表。

图3 任务时长分布直方图(Task Duration Histogram)

核心发现一:是“潮汐”,不是“巨浪”

研究的核心发现是:AI成功率与任务时长之间的关系曲线出奇地平缓。

具体而言,任务时长每增加10倍,AI成功率(≥7分门槛)的对数几率仅下降0.31。在60%的样本均值成功率下,这意味着预测接受率仅下降约7.6个百分点。这条曲线远比此前METR等机构基于基准测试得出的陡峭曲线平缓得多。

论文写道:“在LLM能够处理的大量具有代表性的、贴近实际的劳动力市场任务中,任务成功率与任务持续时间之间的下降趋势平均而言出奇地平缓——也就是说,更像是水涨船高,而不是海浪拍岸。”

这一模式在不同规模的模型、不同发布时间的模型中均成立。在大多数职业类别(如管理类、社区与社会服务类)中,同样遵循“潮汐”规律。

不过,不同职业类别之间存在显著差异。成功率最高的是“安装、维护与修理”类(72.5%)和“建筑与采掘”类(71.0%),最低的是“法律”类(46.8%)。斜率最陡的是“个人护理与服务”类(β=-0.93),意味着该领域任务时长对AI成功率影响最大。

图4 任务实例自动化程度与所需完成时间(Task Instance Automation by Required Task Completion Time)

核心发现二:进步速度超出预期,任务处理耗时每3.8个月“翻倍”

“潮汐”并不意味着缓慢。研究数据显示,AI能力正在以相当快的速度全面提升。

研究写道:“在2024年第二季度至2025年第三季度期间,前沿模型在3至4小时任务上的成功率从50%提升至1周任务,在1分钟任务上的成功率从70%提升至1小时任务。”

??前沿模型在50%成功率门槛下可完成的任务时长,从3至4小时跃升至1周

??在70%成功率门槛下,可完成任务时长从1分钟跃升至1小时

如果将AI达到特定成功率(例如50%)所能处理的“人类任务耗时”作为衡量标准,这一指标的“翻倍时间”仅为3.8个月。这一速度处于现有研究估算的较快端——METR此前报告的倍增时间为2至6个月,Kwa等人报告为4至7个月。

从失败率角度看,在耗时5分钟至24小时的任务中,失败率(1减去成功率)的减半时间为2.4至3.2年,对应每年成功率提升约8至11个百分点。

这种全面且快速的提升验证了“水涨船高”的逻辑:新一代模型的发布,带来了成功率曲线的整体平行上移。

图6 任务时长与成功率门槛随时间变化(Task Duration and Success Rate Thresholds over Time)

核心发现三:大模型与新模型,进步路径不同

研究还区分了两种能力提升路径,这对理解AI投资逻辑有直接意义。

模型规模(大vs小): 参数量超过1000亿的大模型相比小模型,在短时任务上优势明显,但在长时任务上优势收窄——曲线呈"向外旋转"形态(β=-0.36 vs -0.26)。

模型新旧(新vs旧): 2025年后发布的新模型相比旧模型,在各类任务时长上的提升幅度大致相同——曲线呈近乎平行上移。

这意味着,时间维度的迭代(更新的模型)比规模维度的扩张(更大的模型)更能均匀地提升AI在长时复杂任务上的表现。对于关注AI基础设施投资回报的投资者而言,这一发现值得关注。

2029年预测:渐进,但不可低估

基于当前趋势外推,研究团队给出了明确的时间节点预测:

预计到2029年,大多数任务的AI成功率将达到80%至95%,并达到最低合格质量水平。我们调查中的大多数任务耗时数小时,这意味着到2029年成功率将接近90%。

然而,研究同时指出,要达到“近乎完美”的成功率(接近100%),还需要数年以上的时间。这为工人调整提供了一定窗口期,尤其是在容错率低的任务领域。

研究团队明确提示,上述预测建立在AI进步速度维持近两年趋势的假设之上,应视为上限情景。潜在的放缓因素包括:算力扩展成本上升、硬件进步放缓、算法创新减速,以及物理极限对芯片性能的约束。

图7 AI成功率随时间预测(Predicted AI Success Rates Over Time)

对劳动力市场的影响:任务自动化≠工人被替代

研究团队特别强调,AI在任务层面的高成功率,不能直接等同于相应比例的工作岗位被自动化。

原因有三:

??数据偏差: 当前样本可能过度代表易于调查的职业,而这些职业也可能更易于自动化,导致整体估算偏高

??“最后一公里”成本: 现实中将AI整合进工作流程存在信息获取、系统集成、合规等额外成本,部分任务在经济上并不划算

??任务与职业的区别: 单个任务被自动化,不必然导致整个职业的就业减少。正如Autor与Thompson(2025)的研究所示,任务自动化对工资和就业的影响取决于该任务在整个职业任务束中的地位,结果可能是工资上升或下降,就业增加或减少

论文写道:“目前尚不清楚经济将如何应对,但很难想象AI的持续进步与当前经济现状的稳定相协调。”


    24小时新闻排行榜更多>>
  1. 以色列不愿收手
  2. 全红婵长期遭"国家级"霸凌?涉队友记者 官方急删文…
  3. 美大获全胜?川普目标未实现,专家:下场比战前更惨
  4. 报告:中共藉警务合作 持续渗透太平洋地区
  5. 美贸易代表:访华时不谈稀土就好了
  6. 川普威胁军援伊朗者,征50%关税
  7. 川普称中国协助促成伊朗停火谈判
  8. 分析:许家印把马兴瑞“送进”了秦城
  9. 若当年国民党打赢共产党 中华民族只会更伟大
  10. CNN曝:中国超级计算中心疑遭史上最大数据窃取
  11. 广东爆火鸡煲店老板最新发声
  12. “中共国彻底完蛋了”网文热传
  13. 三将领去世 两人与张又侠有交集 中共秘不发丧引猜测
  14. 美伊停火 战云未散 专家析中共黑手角色
  15. 刚刚,Claude Mythos敲响末日警钟
  16. 美智库曝光中共如何资助伊朗战争机器
  17. 印尼渔民意外捕获异物 竟是中共水下无人机
  18. 习现身高级将领培训开班式 仅三名上将出席
  19. 伊朗被激怒,再次封锁霍尔木兹
  20. 若当年国民党打赢共产党 今天怎会当“臭乞丐”?
  21. 国安局书面报告 揭中共对台手段
  22. 海峡现况:首批船通过 千艘船排队 这2国顺利通过
  23. 逾85民主党议员要川普下台
  24. 山东厂房大爆炸惊现大火球 官方称无人伤亡引质疑
  25. “救命药”断货 价格暴涨 中国百姓扛不住
  26. 美法院维持五角大楼对Anthropic的封禁
  27. 张雪妈妈,被骂上热搜:毕业于厦门大学中文系
  28. 美防长:伊朗“痴迷”于袭美航母 但白费力气
  29. 亚马逊5月随机裁员1.4万人 中国团队或被“团灭”
  30. 毕业年赚仅3.5万?美这州210个“不赚钱专业”全砍
  31. 美伊停火协议据报不包括以色列和真主党之战
  32. 中国房地产业持续低迷 物业公司大撤退
  33. 中国留学生实名控诉习近平发表反共宣言 大陆家人被施压
  34. 中共东部战区司令谈战力打假 或证实内斗
  35. 黑客试图出售中共国防文件 包括导弹设计图
  36. 危机背后 50年体系动摇 “石油美元”还能撑多久?
  37. 伊朗为何同意达停火协议 海格塞斯揭内情
  38. 习赴国防大学 校长肖天亮上将未现身陪同
  39. 伊朗国防工业根基被摧毁 凯恩将军详述情况
  40. 纽约华人中$100万 61万落袋为安 彩票买自唐人街
  41. 海格塞斯:美军将确保伊朗遵守停火协议
  42. AI泡沫:美国新一轮量化宽松导火索?
  43. 成大接获境外IP炸弹恐吓 阻《国有器官》播放
  44. 停火两周,美伊均宣布“赢了”
  45. 张又侠落马教训?习近平要全军高级将领“知敬畏”
  46. 美伊停火后,首批船只通过霍尔木兹
  47. 五角大楼宣布全面胜利,要求伊朗交出铀材料
  48. TVB老戏骨现身寿宴,晚年生活曝光
  49. 戴尔CEO:AI内存需求激增,供给短缺数年
  50. 霍尔木兹不会简单回到从前
  51. 和儿子在手机上聊天的"妈妈",竟是杀害妈妈的嫌犯
  52. 川普最后一刻TACO,伊朗高层最终拍板
  53. 一边打伊朗,一边炒军工股?“战争部长”麻烦大了
  54. 油价暴跌,航空股集体大涨
  55. AI仿真人出海开卷,“世界工厂”的流水线转起来了
  56. 闫妮力捧女儿多年,搭档孙俪终出圈
  57. 中东局势下资产配置的三层叙事
  58. 【百年真相】强制社保黑幕 中共给全民挖坑
  59. 美伊谈判还没开始,就被“泼冷水”
  60. 美国女副市长家中被枪杀:丈夫疑用枕头当"消音器"…