卡帕西开源Agent自进化训练框架:5分钟一轮

2026-03-10 04:25:12 · chineseheadlinenews.com · 来源: 量子位

大神 Karpathy 又开源了新项目 —— 一个能够自主进化的 AI 科研循环系统。

这个项目名叫 autoresearch,主打让智能体完全自主地搞科研,只要在 Markdown 文档里写好指令,剩下的流程全都由 AI 自动完成。

而且整个框架十分精简,一共只有 630 行代码,单个 GPU 就能跑得动。

它每 5 分钟就会跑一轮测试,并根据验证结果决定是保留还是丢弃改动,就像一个 24 小时从不休息且能自我进化的虚拟研究员。

Karpathy 还希望,未来能让成千上万个智能体在海量分支里异步协作,不再受限于单一的 master 分支,从而通过群体智慧实现科研效率的爆发。

发布才不到两天,autoresearch 斩获的星标数就已经超过了 9.5k。

在 X 上,Karpathy 的帖子也有 580 多万次围观。

Shopify CEO 看了 Karpathy 的项目之后表示膜拜,直言这个项目实在是太疯狂了。

5 分钟自动化实验

autoresearch 这个项目的思路非常简单,就是把 AI 训练的循环试错自动化。

AI 自己修改代码、跑 5 分钟的短实验、看效果好不好再决定下一步怎么走。

基于 nanochat 模型训练核心,定了两条铁律:

一是每次实验的纯训练时间固定为 5 分钟,避免因为不同改动下的训练时长不同而影响结果;

二是只看 val_bpb,这个指标的数值越低,就代表模型效果越好,而且它和模型的大小无关。

这样就把训练逻辑浓缩成了单 GPU 就能跑的版本,代码也就 630 行。

一眼看过去,整个代码库就靠三个核心文件 ——

设置好后全程不用动的 prepare.py;需要 AI 自己改的 train.py;只有人类能改的 program.md。

prepare.py 用于定义训练的固定常量,比如模型基础维度、下载模型训练需要的原始数据、训练适配的分词器等,同时还提供实验过程中需要的工具。

train.py 是 AI 唯一可以编辑、修改的文件,相当于 AI 的实验笔记本。

这里面装着模型训练的所有核心内容,有完整的 GPT 架构、训练用的优化器以及整个训练循环逻辑。

AI 能在这个文件里改的内容包括模型的层数、训练的批次大小、学习率、权重衰减等等。

所有和训练相关的调整,都集中在这个文件里,既然 AI 的修改范围可控,也方便人类后续回看到底改了哪里。

program.md 是一个纯文本文件,由人类编写修改,里面是给 AI 的基线指令,比如研究方向、实验规则、参考依据等。

AI 启动实验之前,会先读取这个文件的指令,再开始修改 train.py 跑实验。

如果想换研究方向,也不用去碰复杂的训练代码,只需要更新这个文件里的指令就行。

搞懂了核心原理和 3 个文件,就很容易理解 autoresearch 的工作流程了。

整个过程就是 AI 按照人类的指令,在 5 分钟实验规则下,反复完成修改、训练、评估、决策。

人类在 program.md 里写好实验指令,然后启动框架,AI 会首先读取这些指令,在 train.py 里做针对性的修改,通常每次只改 1 到 2 个地方。

修改完成后,AI 会自动启动训练程序,严格遵守框架设定的规则,纯训练时间固定为 5 分钟,时间一到,训练结束,框架会自动用 val_bpb 指标给这次的模型打分。

根据打分结果作出决策,如果这次的 val_bpb 分数更低,说明模型进步了,AI 就会保留这次对 train.py 的修改,把这个版本作为下一次实验的基础;

如果数值变高了,说明这次的修改是无效的,甚至起了反作用,AI 就会果断放弃这次的改动,回到上一个表现最好的版本,重新思考改动方向。

完成这一轮判断后,它会立刻开始下一次实验。

按照 5 分钟一次计算,AI 一小时能完成 10 来组实验,这个效率是人类手搓达不到的。

上图展示了一次近 250 轮的自主探索,AI 最终筛选并保留了 29 次有效的优化改进。

图中灰色点代表被 AI 判定为无效而舍弃的实验结果,虽然没有带来提升,但也提供了避坑经验。

下一步:模拟整个博士社群

把 autoresearch 公开出来之后,卡帕西还在 X 上畅享了下一步的发展方向。

他借用 UC 伯克利在 1999 年发起的 SETI@home 项目表示,autoresearch 未来的目标不仅是模拟一个博士生的科研过程,还要模拟整个博士生研究社群。

SETI@home 全称为 “Search for Extraterrestrial Intelligence at Home”,核心目标是通过分析射电望远镜收集到的海量无线电信号,寻找可能存在的地外文明迹象。

由于分析这些数据需要极其庞大的计算量,远超当时科研机构所能负担的计算机成本,项目组由此开创了分布式计算的新模式。

在这个模式下,全球各地的志愿者只需在自己的电脑上安装一个特定的屏保程序,系统就会在计算机闲置时利用其剩余的 CPU 算力来处理从阿雷西博天文台传回的数据片段。

Karpathy 之所以拿它作比喻,正是看中了这种 “大规模、分布式、异步” 的特质,这种去中心化的智慧集成正是未来 AI 社区的雏形。

他认为,现在的研究 Agent 依然局限在单一的、同步发展的线性思路之中,但这种模式极大限制了 AI 的潜力。

在他的理想当中,autoresearch 的发展路径应该是让原始代码仓库像种子一样,向各个不同的研究方向和计算平台伸展出无数分支,形成像 SETI@home 一样的分布式、群体式的探索态势。

Karpathy 进一步指出,这种局限性在很大程度上源于我们对 Git 和 GitHub 的使用惯性。

具体而言,现有的版本管理系统几乎都建立在一个默认假设之上,即必须存在一个绝对权威的 master 分支,而所有的 branch 和 PR 都只是暂时的偏离,最终其宿命都是要 merge 回主干。

这种设计逻辑在管理软件代码时固然高效,但在面对需要海量、非线性探索的自动化研究时,却成了一种制度性的束缚。

因为它强行要求所有多样化的研究路径最终必须归于一个唯一的标准答案。

为了验证打破这种僵局的可能路径,Karpathy 进行了一些实验性的探索。

他尝试让智能体在完成通宵运行后,将研究总结发布在 GitHub 的 Discussion 板块,或者通过 PR 提交精确的 commits 变动。

他在实验中意识到,这些 PR 可能永远不需要被正式 merge,但它们作为独立的研究分支有效地积累了下来。

在这一流程中,智能体还会利用 GitHubCLI 读取已有的讨论和记录来获取灵感,再将新的发现反馈回社区。

总之,比起强行维护一个完美的 master 分支,让智能体在无数个 branch 中自由探索、互相启发并沉淀结果,可能才是更符合 AI 特性的科研姿态。

这本质上是在探索一种更适合 AI 高频产出的协作方式,让科研过程从传统的 “写软件” 逻辑,转向更灵活的 “攒经验” 逻辑。


    24小时新闻排行榜更多>>
  1. 是否将伊朗新最高领袖列为暗杀目标?川普回应
  2. 【翻墙必看】央企房产神话破灭 只剩吹牛
  3. 习近平吓坏不敢攻台湾?伊朗战争突出中共隐忧
  4. 传中共高官落马对纪委招供“睡过杨幂” 网络炸锅
  5. 海南刚封关就崩了 百姓叫苦连天!
  6. 路透:中方不满川普访中安排仓促 川习会恐难有突破
  7. G7财长会议,考虑动用战略石油储备
  8. “芭比”部长公然出轨男下属,绿帽丈夫为何坚守婚姻
  9. 两会主席台严控细节曝光 被指折射习政权虚弱
  10. 上海机器人表演时意外摔碎 现场一片惊呼
  11. 两名军队人大代表退役 传中共军官掀辞职潮
  12. 美国被曝对以军行动感到不满
  13. 日本加速部署升级版导弹 防范中共威胁
  14. 美媒:两艘伊朗货船从中国港口启航 疑载导弹关键化学品
  15. 分析:王毅为何认怂 否认“G2共治”
  16. 评价学生不能“穿新鞋走老路”
  17. 伊朗新领袖上台,油价利率暴涨
  18. 一场“不断缩水”的国是访问 川普访中国不带CEO
  19. 亚洲杯神奇一幕:仅靠多2个进球出线
  20. 人大代表被贬超两年总和 政协委员称坐习对面幸福眩晕
  21. 养“龙虾” 带火苹果主机 直接卖断货
  22. 传李克强一建议扭转述职尴尬 爆张又侠突发疾病去世
  23. 中共政协会议会场异常互动 引爆外界猜测
  24. 坎大哈山区血战 一场巨人与美军的秘密战役
  25. “推翻共产党 习近平下台”中国青年痛骂视频疯传
  26. 川普:无人知道谁将最终领导伊朗
  27. 日本远程导弹发射装置运抵熊本
  28. 英国18岁女游客饭店遭"8男性侵半小时"还拍片传炫耀
  29. 1962年我军保障水平远不及印军
  30. 组图:南加州河滨县“露营世界顶级房车展”
  31. 金融时报:川普的委内瑞拉模式在伊朗已失败
  32. 年轻人一边选择“断亲”,一边争当“全职儿女”?
  33. 汤姆汉克斯儿子被困国外机场 崩溃求助“需要绿卡”
  34. 20000月薪养得起“龙虾”吗?
  35. “离线休息权”,才是对职场人的善意松绑
  36. 川普称战事近尾声 油价跌 全球股市反弹
  37. A股市场整体走弱 沪深两市逾3900只个股下跌
  38. 国际妇女节有感
  39. 干净世界突破一亿用户 影视教育云端七大产品
  40. 政协委员:“与习近平面对面 幸福的眩晕感涌上…”
  41. 巴黎与多子女大家庭:一段不可能的爱情?
  42. 中共控制美打击伊朗报道 怕民众知道什么
  43. 战争本周会结束吗?川普回应
  44. 油价冲击或诱发“70年代式滞胀”
  45. 木村拓哉香港新作出演遭中止 疑日中关系紧张?
  46. 广东4儿童马路中央排成“减速带” 险酿事故
  47. 中东战争冲击全球经济的最新动态
  48. 油价回落,韩股日股上涨
  49. 川普:不会允许伊朗以石油挟持全世界
  50. 川普警告!伊朗敢动荷莫兹海峡"美国20倍奉还"特别点名中国
  51. 哥伦比亚滑水梯夺命 女子被甩出滑道身亡
  52. 日企计划赴美生产稀土磁铁 以摆脱中国供应链
  53. 世界大事距我们很远,但国际秩序离每个人很近
  54. 为何没缴保险的农民,也应该享受高覆盖的养老金?
  55. 穆杰塔巴·哈梅内伊上任,胜利靠5000万“野生诸葛亮”?
  56. 川普:古巴已“油尽灯枯”深陷困境
  57. 路易吉因“技术性缺陷”暂避死刑
  58. 逃离伊朗惊魂5天!他从炮火中接470名同胞回国
  59. 大中小学“同上一堂思政课”在上师大举行
  60. 秦刚两次敏感时刻公开露面藏玄机 于朦胧的话兑现?