大模型天梯赛开战,Agent实战Kaggle进化

2025-07-26 08:25:13 · chineseheadlinenews.com · 来源: 量子位

当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。

为了打破这一瓶颈,来自乔治亚理工学院和斯坦福大学的研究团队正式推出了 MLE-Dojo,一个专为训练和评测大模型智能体(LLM Agents)设计的“交互式武馆”。它将LLM从静态的“答题者”转变为可以在一个包含200多个真实Kaggle竞赛的环境中,不断试错、学习和进化的“机器学习工程师”。

MLE-Dojo是一个专为机器学习工程设计的综合性Gym风格基准测试框架。与现有依赖静态数据集或单次评估的基准不同,MLE-Dojo提供了一个完全可执行的交互式环境,让AI智能体可以通过结构化的反馈循环,反复实验、调试并优化解决方案 。

在MLE-Dojo的竞技场上,团队对当前八个顶尖的LLM进行了全面评测。

结果显示,Gemini-2.5-Pro在综合Elo评分中拔得头筹,但即便是最强的模型,在自主生成长流程解决方案和高效解决复杂错误方面也仍然有提升空间 。

目前,团队已将MLE-Dojo的框架、基准和排行榜完全开源,旨在推动社区共同创新,加速下一代自主机器学习智能体的到来 。

一起来看详细内容。

现有问题与解决方法

团队通过深入分析发现,尽管现在已有多个针对LLM代码能力的基准,但它们普遍存在以下问题:

- 评测真空:现有基准大多是“静态”的,无法模拟真实世界中机器学习工程师需要反复迭代、调试、验证的动态工作流 。它们缺乏对持续实验、结构化反馈吸收和高效资源管理等关键能力的考察 。

- 训练缺失:大多数平台缺乏交互式环境,不支持对智能体进行监督微调(SFT)或强化学习(RL)等高级训练范式 。这极大地限制了开发更强大、更自主的AI智能体的可能性。

- 场景片面:许多基准只关注孤立的任务(如数据分析或可视化),未能捕捉到端到端机器学习流程的复杂性和内在联系 。

为了填补这一空白,MLE-Dojo应运而生。它不仅仅是一个“考卷”,更是一个能让AI智能体学习、成长和对战的“练功房”和“竞技场”。如下表所示,MLE-Dojo在交互性、训练支持和任务广度上全面超越了以往的基准。

△表1:MLE-Dojo与其他MLE智能体基准的比较

MLE-Dojo:一个给AI Agent的真实“练功房”

MLE-Dojo的核心是一个连接AI智能体和机器学习任务环境的标准化交互框架 。在这个框架中,智能体可以像人类工程师一样,通过一系列动作来解决复杂的Kaggle竞赛任务。

整个交互过程被建模为一个循环:智能体根据当前观察(Observation)做出动作(Action),环境执行该动作后,返回新的观察和相应的奖励(Reward) 。

△图4:MLE-Dojo框架概览,展示了智能体与环境的交互循环

其主要贡献和特点可以概括为:

- 全面的基准和框架:MLE-Dojo由超过200个真实的Kaggle竞赛构成,覆盖表格数据、计算机视觉(CV)、自然语言处理(NLP)等多个领域,为评估AI智能体提供了前所未有的广度和深度 。其中150个任务用作训练集,50个用作评估集 。

- 交互式可执行环境:它提供了一个Gym风格的交互环境,智能体可以调用一系列动作,如 request_info(请求任务信息)、validate_code(验证和调试代码)、execute_code(执行代码并提交评估)等 。所有代码都在一个安全的沙箱环境中执行 。

- 先进功能和精细化反馈:框架不仅能返回代码执行结果,还能提供丰富的观察信息,包括详细的错误报告、数据集信息、交互历史以及一个创新的**HumanRank奖励分数 。该分数通过计算智能体在人类选手排行榜上的相对位置( s=1?p/N),提供了一个跨任务、标准化的性能指标 。

- 灵活性和可拓展性:MLE-Dojo提供了统一的数据格式,支持无缝拓展新的任务和比赛;同时提供了模块化的接口,可以实现个性化的环境功能和交互方式。

八大顶尖LLM同台竞技,谁是Kaggle之王?

为了全面、公正地评估各大顶尖LLM的机器学习工程能力,研究团队设计了一套多维度的综合评测体系,而非依赖单一指标。

多维度综合评测体系

- HumanRank Score (%):此指标衡量模型解决方案在真实人类Kaggle玩家排行榜中的相对位置,直观反映了模型超越人类竞争者的百分比,是衡量绝对性能的核心标准 。

- Elo Rating:源自棋类比赛的评分系统,通过模型间的两两“对战”结果来计算动态的相对实力排名。这清晰地揭示了模型之间的强弱关系和竞争格局 。

- AUP (Area Under the Performance Profile):该指标通过评估模型在多少比例的任务中能够达到“最佳性能”的一定比例内,来衡量模型的鲁棒性与一致性。AUP分数越高,表明模型在各种不同难度的任务上表现越稳定。

综合性能对决

在这套严格的评测体系下,八大前沿LLM在50个评估任务上展开了激烈角逐。

△图6 & 图1:八大前沿LLM在MLE-Dojo上的Elo综合评分及排名

Gemini-2.5-Pro综合实力登顶:

在最关键的Elo综合评分中,Gemini-2.5-Pro展现出最强的竞争力,拔得头筹 。在衡量绝对性能的HumanRank分数上,它同样表现优异,例如在MLE-Lite任务集上超越了61.95%的人类选手 。

顶尖模型各有千秋:

紧随其后的是DeepSeek-R1和o3-mini等模型,它们同样展现了作为机器学习智能体的强大实力和适应性,在各项指标中均名列前茅 。

深度分析:解码冠军策略

除了最终排名,MLE-Dojo的精细化数据还让我们得以深入剖析每个模型的行为模式和“性格”。

行动策略与模型“性格”:

分析发现,不同模型展现出迥异的解题策略。

例如,表现优异的o3-mini策略非常“激进”,超过90%的动作都是直接执行代码,展现出极高的自信 。

而gpt-4o则相当“保守”,仅有约20%的动作是直接执行,花费了大量时间在初步验证上 。这种策略差异直接影响了它们的解题效率和最终表现。

失败率与稳健性分析:

如下图所示,Gemini-2.5-Pro不仅性能领先,其在代码验证和执行中的总体失败率也是最低的 ,这表明其生成的代码不仅效果好,而且更加稳健可靠。相比之下,一些性能同样不俗的模型却伴随着更高的失败率 。

△图12:各模型在任务中的平均失败率,Gemini-2.5-Pro的总体失败率最低

- 解题深度与复杂性:研究还发现,表现更强的模型(尤其是推理模型)通常能生成更长、更复杂的解决方案,并且其完整的交互历史也更长 。这表明它们能够进行更深入的思考和更复杂的多步推理,而不仅仅是给出简单的代码片段 。

- 性能与成本的权衡:强大的性能往往伴随着高昂的计算成本。分析显示,顶尖的推理模型通常需要更多的token消耗,成本也更高 。但有趣的是,也存在像DeepSeek-r1这样,在实现有竞争力的性能的同时,展现出更高成本效益的潜力,这为未来模型的优化指明了方向 。

此项研究为评估和提升AI智能体的机器学习工程能力提供了一个强大的开源平台。通过模拟真实世界的挑战,并提供一个可以不断学习和进化的环境,MLE-Dojo将推动AI从一个“解题工具”向一个真正的“自主工程师”迈进,并最终对整个科学研究和工程领域产生深远影响。


    24小时新闻排行榜更多>>
  1. 小学文凭的他,40天救下中国工业命脉
  2. 北京洪灾 人祸震动官场 山东帮尹力不妙?
  3. 因习一句话释永信落败,习近平先宠后弃有玄机!
  4. 瑞士媒体:习影响力变弱 胡锦涛重返政治舞台
  5. 财政部通报点名厦门、成都新增隐性债务均超600亿
  6. 英伟达芯片遭中共审查 美中科技脱钩压力加剧
  7. 川普:鲍威尔不降息 理事会应接手控制美联储
  8. 宗馥莉,首战输了
  9. 紧要关头 它狠狠捅了北京一刀
  10. 很多癌症是“省”出来的
  11. 川普:已部署两艘美军核潜艇
  12. 尹锡悦拒捕现场曝光:门口僵持140分钟,终失败
  13. 防止洗产地 美将全面加征40%惩罚性关税
  14. 川普怒斥梅德韦杰夫
  15. 泰空军F-16咆哮空袭,中国远火跨山狙杀
  16. 《731》被曝淡化罪恶,洗白日本人
  17. 中美贸易谈判:美方劝中国再平衡消费型经济
  18. 中国队,打破一项亚洲纪录
  19. 726罢免大挫败 民进党团总召曝主因
  20. 川普:鲍威尔再不降息 美联储理事会应接管控制
  21. 诸神的黄昏:香港四大家族集体谢幕
  22. 24岁大陆男子飞抵柬埔寨数小时即被抛尸郊外
  23. 【百年真相】刘志丹之死与毛泽东的忌讳
  24. 人民日报发表评论:英伟达,让我怎么相信你?
  25. 美联储官员:就业市场风险可能增加
  26. 北京洪水淹养老院31死 官员承认失职遭网民怒轰
  27. 台海战争剧集《零日攻击》揣摩“中共威胁”
  28. 香港高等法院对娃哈哈宗家“信托案”决定宣布了!
  29. 从童年苦难中走来 在信仰中坚定前行
  30. 从10个细微之处 看一个人的未来格局
  31. 川普:对台关税20%
  32. 台风天满目疮痍 民宅、店铺挨淹 上班女崩溃!
  33. 一晚人数1000万,“擦边团播” 越擦越疯狂
  34. 马斯克,消停了
  35. 欧洲大国为何开始承认巴勒斯坦国?
  36. 新关税出炉 彭博点名最大输家是中国 最大赢家这些国
  37. 川普和美国深层政府为何爱反复“撞南墙”?
  38. 娃哈哈风波进展:信托协议存在但双方没谈拢
  39. 宗庆后唯一信任的还是宗馥莉
  40. 女子称彩超漏诊婴儿唇裂,到卫健委反映问题竟遭怒斥
  41. 娃哈哈遗产争夺首战打响:宗馥莉,败诉
  42. 少年误食芬太尼致死 家长起诉社媒Snapchat
  43. 美国一道闪电延伸829公里 刷新世界纪录
  44. 暴雨侵袭美东 陆空交通中断 纽约州进入紧急状态
  45. 回应俄挑衅言论 川普下令部署两艘核潜艇
  46. 卡尼想在5个月内强制对燃油车征税
  47. 体检报告中这些“字眼”,可能是癌
  48. 新疆乌孙古道爆发山洪 至少2名徒步者遇难
  49. 北京水库泄洪酿灾 密云一养老院31人被淹死
  50. 离奇命案和怪病皆是偿还各自的宿业
  51. 数据不如意就走人 川普宣布开除劳工统计局长
  52. 美国为何不惜一切代价要搞垮沙姆哈尼父子?
  53. 哈根达斯等品牌为何在中国炎夏中感受寒意
  54. 宗馥莉,败诉
  55. GTA又一商场将被拆除
  56. 香港经贸处加强与青年联系
  57. 华男疑赴迪士尼乐园途中绑走3子女 在巴拿马被捕
  58. 美联储两理事齐吁降息 忧动作慢冲击经济
  59. 川普39%关税冲击瑞士哪些商品
  60. 毛岸英之死 毛泽东发过电报指令给彭德怀吗?