复刻AlphaZero神话,AI甩开人类自修成神

2025-12-28 00:25:16 · chineseheadlinenews.com · 来源: 新智元

当模型学会“左右互搏”的那一刻,平庸的模仿时代结束了,真正的硅基编程奇迹刚刚开始。

编程界的AlphaZero时刻,终于来了?

当年,AlphaZero抛弃人类棋谱,仅凭“左右互搏”便参透了超越千年的棋道。

而今天,AI程序员的致命伤,恰恰就在于它们太像“人”了——

靠学习人类代码长大的AI,注定无法突破人类的平庸。

就在最近,来自Meta、UIUC和CMU的研究团队,凭借最新成果Self-play SWE-RL(SSR),正在试图复刻AlphaZero的神话——

抛弃人类教师,拒绝模仿。

论文地址:https://arxiv.org/pdf/2512.18552

只要给AI一个代码库,让它分饰“破坏者”与“修复者”进行死斗。

在这场无需人类插手的自我博弈中,一种真正的、超越人类经验的编程奇迹,正在诞生。

被“喂养”的AI与人类数据的天花板

从Devin到OpenDevin,再到各大厂内部的代码助手,它们确实能帮程序员干不少脏活累活。

但这里有一个隐形的瓶颈。

目前主流的训练方法,无论是SWE-RL还是DeepSWE,本质上都是在教AI“模仿”。

这种依赖人类知识的模式有三个致命伤:

数据不够用:高质量的、带测试用例、带详细描述的Bug修复数据,其实非常稀缺。

质量不可靠:人类写的issue经常含糊不清,测试用例也不一定完美,这导致训练信号充满了噪声。

天花板太低:如果AI只是模仿人类,它顶多变成一个平庸的初级程序员。

这也是为什么论文把它称作通向超级智能的一道根本性障碍:

一旦训练信号必须由人类提供,你就很难想象它能无限扩展到“开放式、自我进化”的层级。

核心玩法

代码沙盒里的“搏击俱乐部”

SSR的核心理念非常简单,却又极其精妙:自博弈(Self-Play)。

在这个系统中,同一个LLM被赋予了两个截然不同、相互对抗的角色。

角色一

破坏者(Bug注入智能体)

它的任务不是写代码,而是搞破坏。

给它一个正常的开源项目(比如一个Python库),它需要潜入进去,研究代码逻辑,然后制造一个Bug。

但这个破坏者不能随便乱来(比如删掉所有文件),它需要生成一套完整的“作案工具包”(Artifacts):

bug_inject.diff :这是真正的破坏补丁,把代码改坏。

test_script.sh :一个能运行测试的脚本,证明Bug确实存在。

test_files.txt :指定哪些测试文件是用来验证这个Bug的。

test_parser.py :一个解析器,用来把测试结果翻译成机器能读懂的JSON格式。

test_weaken.diff :它会修改或删除现有的测试用例,让Bug在当前的测试套件下不报错。

在SSR中,缺陷生成是一项由破坏者智能体执行的任务,该智能体利用工具与执行环境交互以生成缺陷工件,并进一步验证其一致性后提供给修复者智能体。

一个优秀的破坏者智能体的关键特性在于其能够生成多样化的缺陷,以捕捉真实软件开发中的复杂性,从而在广泛的软件调试与工程场景中训练修复者智能体。

角色二

修复者(Bug解决智能体)

当破坏者完成工作后,轮到修复者登场了。

修复者面对的是一个被注入了Bug,且测试被“弱化”了的代码库。

修复者拿到的任务非常具有挑战性,它看不到那个原始的Bug是怎么注入的,它必须像一个侦探一样,通过阅读代码、运行测试、分析报错,最终写出一个修复补丁(Fix Patch)。

通过破坏者和修复者两种模型角色的对抗,可以让模型实现闭环进化。

让魔法打败魔法

如何保证AI不“瞎编”?

如果你让AI随便生成Bug,它大概率会产生幻觉,为此SSR设计了一套如同安检般严格的一致性验证(Consistency Verification)流程。

一个合格的Bug工件,必须通过以下所有关卡:

存在性检查:引用的测试文件,原仓库要有;

解析器检查:Python解析器要能读懂测试输出;

脚本有效性:在没改坏代码之前,测试脚本要跑得通;

Bug范围控制:改动的文件数量要适当,符合设定的难度。

Bug有效性(关键):注入Bug后,原本通过的测试必须变失败。如果注入了Bug测试还通过,说明Bug根本没生效。

掩盖有效性:应用了“掩盖补丁”后,原本失败的测试必须变通过,证明成功欺骗了测试套件。

最精彩的一招

逆向变异测试

逆向变异测试(Inverse Mutation Testing),是一个为了验证Bug质量而发明的新概念。

传统的变异测试是改乱代码看测试能不能发现。

而逆向变异测试刚好反过来,把Bug涉及的文件逐个恢复成原样。

如果恢复某个文件后,失败的测试变通过了,说明这个文件确实是Bug的起因。

如果恢复了文件测试还是有问题,说明这个文件跟Bug没关系。

这一步确保了AI生成的每一个改动都是必要的。

如何制造一个“完美”的Bug?

如果“破坏者”只是简单地把x=1改成x=0,那“修复者”学不到任何东西。

为了让AI变得更聪明,研究团队探索了几种极具创意的Bug注入策略。

策略A

直接注入(Direct Injection)

告诉AI:“去,搞个Bug出来”,这是最笨的方法。

结果不出所料,AI经常就在代码里随便改个数字或符号。

这种Bug太肤浅,修复者一眼就能看穿,训练效果最差。

策略B

暴力删除(Removal-only)

告诉AI:“把这块核心功能的代码删了!”

这逼迫修复者必须根据上下文和剩余的测试代码,重新实现这部分功能。

如此一来,能极大地锻炼AI的代码重构和理解能力。

策略C

历史回滚(History Rollback)

告诉AI:“去翻翻以前的提交记录,把代码回滚到某个旧版本。”

因为代码库的历史往往充满了真实的Bug和功能的演进。

让AI面对过去的代码状态,相当于让它重新经历一次项目演化的过程。这种生成的Bug最自然,最具实战意义。

实验证明,“删除策略”和“历史回滚”混合使用,效果最好。这既保证了难度,又保证了真实性。

终极杀招

高阶Bug

如果修复者尝试修复Bug但失败了,SSR认为这也可以“废物再回收利用”。

修复者失败的代码,往往是一个半成品——它可能修好了一部分,但引入了新问题。这不就是一个更复杂、更隐蔽的Bug吗?

系统会将这个“失败的修复”作为新的Bug状态,再次扔给修复者。

这种多轮次、分层级的故障模式,极大地丰富了训练数据的维度。

残酷的奖励机制与对抗博弈

在强化学习中,奖励函数是指挥棒。

SSR的奖励设计充满了一种“微妙的平衡感”。

对于修复者,奖励很简单:全对得+1分,否则-1分。成王败寇。

但对于破坏者,这就很有趣了。

如果破坏者生成的Bug太简单,修复者每次都能修好(解决率s=1),破坏者得不到高分。

如果Bug太难,根本修不好(解决率s=0),破坏者会被惩罚(因为它可能生成了逻辑矛盾的死局)。

SSR采用了一个基于解决率s的公式:

其中,s∈[0,1]是解决率(solver成功修复bug的比例),α∈(0,1)是一个超参数,用于控制对退化解决率的惩罚强度,在实验中设置为0.8。

它的意思是:最好的Bug,是那些让修复者感到棘手、通过率不高不低、处于“能力边界”上的Bug。

这迫使破坏者不断提升难度,正好卡在修复者“跳一跳够得着”的地方,从而推动双方共同进化。

战果揭晓

AI真的变强了吗?

研究团队使用了Code World Model(CWM)的32B模型作为底座,在512个H100 GPU上进行了训练。

他们在两个权威榜单上进行了测试:

SWE-bench Verified:经过人工验证的真实GitHub issue集合。

SWE-Bench Pro:更复杂、更企业级的问题集合。

竞争对手是基于同样模型架构、同样环境镜像,但使用“人类数据”(Human Data)训练出来的基准模型。

所谓人类数据基准,就是用传统的“Issue描述+测试用例”方式训练的。

结果令人振奋:

SSR完胜:在整个训练轨迹中,SSR的表现始终高于“人类数据”基准。

分数提升:在SWE-bench Verified上提升了10.4%,在SWE-Bench Pro上提升了7.8%。

零样本泛化:SSR在训练时从未见过任何自然语言描述的Issue,它只看过代码和测试。但在测试时,它却能完美处理带有Issue描述的任务。这说明它学到的不是“做题技巧”,而是真正的“编程内功”。

测试结果显示,随着训练步数的增加,SSR的能力稳步上升,而没有出现过拟合或崩溃,证明了自博弈产生的“课程”是持续有效的。

通向超级智能的最后一块拼图

SSR的出现,意味着我们终于找到了一条摆脱“数据饥渴”的路径。

以前我们认为,要想AI写好代码,必须有无数的人类程序员贡献代码和修Bug的记录。

现在SSR告诉我们:只要有代码库(Raw Code)就够了。

当然,SSR还只是第一步。

它目前的验证还主要依赖单元测试,还没法处理那种跨越数月的大型重构任务。

但它指明了方向:

超智能软件系统的诞生,可能不需要人类作为老师,只需要人类的代码作为战场。

作者简介

Yuxiang Wei

Yuxiang Wei

Yuxiang Wei是伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系的博士生,由Lingming Zhang教授指导。

他同时在Meta FAIR担任兼职研究员,与Sida Wang、Daniel Fried等人合作,致力于推进大型语言模型(LLM)在代码智能方面的应用。

Zhiqing Sun

Zhiqing Sun

Zhiqing Sun是Meta超级智能实验室(MSL)TBD Lab的AI研究科学家,专注于训练大型语言模型(LLM)用于深度研究、代理开发和复杂任务。

此前,他在OpenAI的后训练团队担任研究科学家,并曾在AllenNLP和MIT-IBM Watson AI Lab实习。

Zhiqing Sun于2025年2月在卡内基梅隆大学语言技术研究所获得计算机科学博士学位,并在北京大学获得计算机科学专业荣誉学士学位。

David Zhang

David Zhang

David Zhang是Meta基础AI研究(FAIR)巴黎实验室的研究科学家,专攻使用LLM的代码生成机器学习和深度学习技术。

David Zhang拥有阿姆斯特丹大学机器学习博士学位、慕尼黑工业大学计算机科学硕士和学士学位。

Lingming Zhang

Lingming Zhang

Lingming Zhang是伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系的副教授,隶属于Grainger工程学院。

他的研究融合软件工程、编程语言、形式方法和机器学习,重点关注基于LLM的软件测试、分析、修复和合成。

Sida Wang

Sida Wang

Sida Wang是Meta基础AI研究(FAIR)西雅图实验室的研究科学家,专注于自然语言处理、机器学习和代码大型语言模型(LLM)。

此前,他在普林斯顿大学和高等研究院(IAS)担任研究讲师,并于2017年在斯坦福大学获得计算机科学博士学位(由Chris Manning和Percy Liang联合指导)。

他持有多伦多大学应用科学学士学位,曾在Geoffrey Hinton指导下研究胶囊网络。


    24小时新闻排行榜更多>>
  1. 运-30突然首飞,空军补齐最后短板
  2. 2026年电脑恐迎“史上最贵”一年
  3. 中国99A主战坦克,让对手观瞄系统瞬间失灵
  4. 美国Costco 40万美元活龙虾遭盗!FBI出手了
  5. 月球背面到底有没有外星人基地?
  6. 五星旗沦为泰军空袭“催命符” 小粉红“战狼神话”破灭
  7. 美中稀土角力新战线:太平洋岛国成焦点
  8. 大陆多地取消跨年夜活动 网民:极度恐惧人群聚集
  9. 汽车国家队重回牌桌中央
  10. 国会议员希望2026夺回部分权力
  11. 纽约地铁OMNY故障频频引乘客不满
  12. 大陆多种病毒高发 这一病毒中招人数是去年6倍
  13. 地球两端的“镜像之城”:一北一南,惊人相似
  14. 快讯:台湾东部海域发生规模7.0地震
  15. 不止间谍:2025年中国对美安全渗透多点爆发
  16. 金正恩贴身执事惊传身亡 死因成谜 引发诸多揣测
  17. 马兴瑞缺席政治局生活会 三常委中途离场
  18. 央行如何购买和存储黄金?
  19. 川泽会前 俄无人机导弹大举袭基辅 称已占乌东两城
  20. 川普级战舰难度太高 恐促中国研发反舰武器
  21. 纽约降雪不及预期,三大机场受影响
  22. 牙龈萎缩是身体发警报 简单按摩固齿健龈
  23. 美国人在买单:川普关税风暴席卷全球的一年
  24. 娶尼泊尔妻成风潮?随处可见中国单身男物色对象
  25. 俄外交部门的美国间谍 被控叛国罪 抓捕视频曝光
  26. 90后朱振鹏升任上市公司总裁
  27. 令人毛骨悚然 中国社群琉球回归假信息 日女子偶像团体遭殃
  28. 【年终盘点】美国曝光的中共间谍案
  29. 中共特色 公安部送300多张色黄色碟给周永康
  30. 庞莱臣的字画,南博只拿了边角料
  31. 南博镇馆之宝牵出庞家百年沉浮
  32. 53岁牛莉近照曝光,大方与路人合影
  33. 当圣诞节走入荒野 冬雪之中流传的大脚怪传说
  34. 喜马拉雅群峰之间 冰封数百遗骸的湖泊
  35. 美国人的生存线可能继续上移
  36. 体制内人士:中国社会乱象丛生 官员躺平
  37. 从救火英雄到杀人嫌犯:美国一桩令人震惊的反转
  38. 中东卡塔尔发现2100万年前新种海牛化石
  39. 中国抵制圣诞!商场“鳌拜老公公驾驯鹿” 全网笑疯
  40. 2026科学大爆发?《自然》:全球迎关键转捩点
  41. 【百年真相】烤鸭也被革命 全聚德生死十年
  42. 加拿大将援助乌克兰25亿加元
  43. 普京:川普想利用扎波罗热核电站 展开“挖矿”业务
  44. 台湾突发地震,全岛震感强烈
  45. 安省一家四口高速遭遇车祸
  46. 【预告】新唐人《2026跨年缤纷夜》特别节目
  47. 马克龙支持率创新低
  48. 日本一高速公路逾50车连环追撞 酿1死26伤
  49. 新评测泼冷水:别再吹AI搞科研了
  50. 全球前50大经济体排名出炉
  51. 汽车坠江致5人死亡,事件经过公布
  52. 特斯拉Robotaxi有望落地中国
  53. 珠江人寿广发“英雄帖”求帅才
  54. 全中国年轻人都在泡澡堂子
  55. 男孩的轮回转生事件轰动全美国
  56. 一幅画,引爆中国整个博物馆体系的信任危机
  57. 川普:未经我批准,泽连斯基一无所有
  58. 美国开出18亿美元彩票大奖
  59. 直播间惊现故宫国宝 三千套御林军铠甲被贱卖!
  60. 金正恩携爱女举止亲昵 曝光率增为接班作铺垫?