MSRA首测AI从零建仓库:能写、能跑,但不一定对

2026-04-16 08:25:10 · chineseheadlinenews.com · 来源: 量子位

大模型写代码这件事,越来越像“既能写片段,又离真实工程差一截”。

HumanEval、SWE-Bench、ClassEval…… 榜单很多,但多数仍在考函数、类,或在既有仓库里打补丁。

真正让人头疼的 0 到 1,往往是读完一份需求文档,把一整套可部署的代码仓库搭出来:目录怎么拆、依赖怎么对齐、多个文件之间的接口与错误处理怎么一致。

微软亚洲研究院(MSRA)的最近这项工作,把考点直接搬到了这条链路上。论文已被 ACL 2026 高分录用。它不设花哨的“全自动科研”叙事,而是把一个更清晰的问题说透:只给你 README 式的需求说明,AI 能不能从零生成完整仓库,并且过黑盒测试、能部署。

这就是 RepoGenesis:首个面向多语言、仓库级、端到端 Web 微服务生成的基准。

和现有基准比,RepoGenesis 的差异可以用一张“能力矩阵”来理解:不止于函数级或改代码库,而是 Repo-Level、NL2Repo、并且锁定微服务场景;语言上同时覆盖 Python 与 Java。论文里的对比表把这条边界画得很清楚。

△ RepoGenesis 与主流代码生成基准对比表

把“工程上真实的一单活”拆成可测的流水线

RepoGenesis 的输入非常贴近实际:一份写清功能、API、模式、约束的需求文档(README.md)。模型或 Agent 的输出则是一整套仓库:源码、配置、依赖声明,最后要扛住黑盒测试。

数据规模上,论文给出 106 个仓库(60 Python、46 Java),横跨 18 个领域、11 套框架,共 1258 个 API、2335 条测试。评测子集 Verified 为 30 个仓库(6 个来自可部署的真?GitHub 项目 + 24 个专家监督构造),并另有 76 个仓库构成 Train 子集用于训练与轨迹蒸馏,二者分工在文中写得很明确,避免“既当教练又当裁判”。

△ Benchmark 构造与 difficulty 分布或数据集统计表骨架

测试怎么信?他们用了很“学术会议”的一套 review-rebuttal 质控:多模型盲评、分歧大时人工 Area Chair 介入、迭代 refined,直到达到约定门槛;Verified 部分还报告了评分者可重复性从近乎随机提升到 Krippendorff’s α≈0.69 这类量化结果。大意只有一个:这不是用几条手写样例糊弄一下,而是尽量让测试本身站得住。

评测不止“过没过”:三根柱子一起看

如果只报准确率,会掩盖“写得像那么回事,但起不来服务”这类工程常态。RepoGenesis 用三个维度同时打分明细:

Pass@1:功能是否正确,能否扛住黑盒测试(最硬)。

API Coverage(AC):需求里的接口,实现覆盖了多少。

Deployment Success Rate(DSR):生成物能不能真的部署跑起来。

论文对 DeepCode、MetaGPT、MS-Agent、Qwen-Agent 等开源 Agent,以及 Antigravity、Cursor、Copilot 等商业 IDE 做了一轮系统评测(多模型配置,主文侧重 GPT-5.1、Claude-Sonnet-4.5、Qwen3-30B 等组合,细节见附录)。

△ 各系统能力雷达

结果里有一组反差很强的数字,几乎可以直接当导语用:接口覆盖率可以冲到很高(摘要中 AC 最高约 73.91%);部署成功率在部分配置下可以非常亮眼(摘要写 DSR 最高可达 100%,与附录中部分 IDE + 模型组合一致)。但即便如此,最强系统的 Pass@1 仍然在 Python 上约 23.67%、Java 上约 21.45%(Copilot+Claude 主表结果)。

翻译成人话:能写、能覆盖接口、甚至能先跑起来,并不等于逻辑全对。架构是否自洽、依赖是否严实、跨文件是否对齐,仍然是瓶颈。

△ Pass@1/DSR-AC 主表

失败长什么样?论文把失败病例粗分成三类,大致占比是:跨文件一致性问题合计约 50.2%,架构连贯性约 26.0%,依赖管理约 23.8%。Java 里依赖相关失败占比更高(表中 44.7%),这也和语言与构建链路的“硬”是一致的。

另一条线:数据能不能把模型“喂上去”?

团队在 MS-Agent 之上扩展了面向微服务仓库生成的 GenesisAgent,用成功轨迹蒸馏出 16,396 条高质量指令微调样本,在 Qwen3-8B 上微调得到 GenesisAgent-8B。在 Verified 上,它与 GPT-5 mini 多指标互有往来、整体同梯队(文中 Table 给出 DSR、AC、Pass@1 的并列对比)。这至少说明一件事:这份基准是值得继续挖的训练信号,而不是一次性榜单。

当然,边界也很坦诚

RepoGenesis 主要覆盖 REST 式 Web 微服务,语言集中在 Python/Java;输入是结构化较好的 README,真实世界里“需求含糊、反复改稿”还没完全模拟;测评以过测为主,可读性、长期可维护性、工程规范仍未系统量化。这些在论文 Limitations 里都写得直白。

结语

RepoGenesis 的意义,未必是把代码生成再吹成一个全能故事,而是把行业里大家每天在做的那一步:从文档到仓库,变成可复现、可对比、可改进的考场。当 ACL 2026 给这类“贴工程”的硬评测一页版面时,讨论或许会少一些口号,多一些能落地的下一代模型与 Agent。


    24小时新闻排行榜更多>>
  1. 中国官方首次披露多名高级将领消失原因
  2. 从A片女星到律师!她52岁通过司法考试 人生逆转
  3. 10省份全省推行中小学春秋假
  4. 肺癌成中国女性第一大癌症,这些“警示”别忽视
  5. 油轮在霍尔木兹海峡遭袭 印度召见伊朗大使
  6. “我还能直立行走” 黄秋生守住风骨 不向中共低头
  7. 2026全球潜艇战力排行出炉
  8. 伊朗向试图穿越海峡的油轮开火
  9. 准备用兵?川普暗示古巴“新曙光将至”扬言拭目以待
  10. 美议员喊话秘鲁,要从中方手里夺下钱凯港
  11. 相当于20个三峡大坝 中国在沙漠里干了件大事
  12. 海峡重启不到1天又封 美军续锁伊朗港口23艘船折返
  13. 王健林也传坏消息 原来他和许家印处境一样
  14. 患冠心病,离不开这3点
  15. 张雪机车荷兰站正赛收获第四
  16. 环保少女"加萨船队"出事,高层与3女志工不当性关系
  17. 伊议长:距离达成最终协议还很远
  18. 做空机构盯上“税收套利”帝国
  19. 张雪机车为何第三变第四?
  20. 伊朗再次封锁霍尔木兹海峡
  21. 从首富家庭到风暴中心:许家印子女的不同命运
  22. 霍尔木兹一日数变 伊朗开了又封 怒批川普全谎言
  23. 日本向澳大利亚出口隐形护卫舰
  24. 为啥卡戴珊之母成了全球年轻人的财神?
  25. 林顿重建六泳道泳池,引财政危机忧虑
  26. 习旧部刘奇前大管家投案 刘奇或涉马兴瑞案
  27. 40名中国客乘坐大巴在俄罗斯翻车 2死10伤
  28. 组图:纽约橙县学员集体炼功 感恩师父慈悲救度
  29. 中国这两个男人,才是AI时代的“印钞机”
  30. 54岁梁宏达近况曝光
  31. “清朝第一贪官”和珅:抄家时却家徒四壁
  32. 美媒:川普推动协议之际 中国提议接手伊朗浓缩铀
  33. DeepSeek首次启动融资,估值680亿,圈里已经炸了
  34. 伊朗议长气炸,怒批川普全谎言
  35. 福建女子莫名疲倦怕冷 体重攀升 查出甲减
  36. 美伊谈判生变化,以担心“伊朗已占上风”
  37. 朝鲜发射弹道导弹,日本有何反应?
  38. 伊朗:无条件过境通行霍尔木兹海峡已成历史
  39. 机器人半程马拉松北京开跑 两机器人栽倒惹议
  40. 马斯克来抖音卖老干妈了?
  41. 习近平新闻学院:一个蒙古记者的故事
  42. 教宗紧急“降温”:否认隔空对线川普 媒体全误读了
  43. 王健林和许家印的处境一样
  44. 普通家庭最难的4件事,将同时发生
  45. 越专制的统治,越害怕开放!
  46. 满洲里大巴赴俄翻侧,2死至少10伤
  47. 法国士兵在黎巴嫩遇难 马克龙谴责真主党
  48. 战火外溢,三国反美情绪升温
  49. 丹麦王后“撸狗”,被女王阻止
  50. 美最强钻地弹也打不到?这座核设施埋了多深
  51. 伊朗女性参加阅兵,开军车、持步枪、扛火箭筒
  52. 中产失灵,但星巴克还想“死磕”溢价
  53. 在河南农村,有10元/小时的活干是一种福利
  54. 缺工,失联,种族歧视:印度移工揭开台湾的三重困境
  55. “疯子”张雪:我就是国际一线
  56. 侯勇没想到,糟糠之妻开始走上坡路了
  57. 大学球赛开场,跳伞员卡在记分板上
  58. 癌症侦测新突破
  59. “德国版N号房”:暗网“驾校”群组曝光
  60. 王淦昌:将来若读书读得太少,必定要吃亏