AI写的论文,在顶会击败55%人类

2026-03-28 15:25:17 · chineseheadlinenews.com · 来源: 新智元

刚刚,Nature盖章AI独立科研时代!全新Scaling Law显现,人类死守的学术铁王座,正发生不可逆的转移。

一篇长达数十页的学术论文,在人类设定研究主题和实验边界后,系统自动完成了从实验到写作的大部分流程。

从论文正文、实验代码、图表和投稿稿件,主要由系统端到端自动生成。

它被投递到顶尖机器学习会议ICLR 2025某workshop的同行评审流程中,三位匿名审稿人不知道具体哪几篇是AI生成稿件,他们对着这篇稿件分别打出了6、7、6的高分。

这个成绩,高于约55%的同场投稿。稿件在评审完成后按实验协议撤回,未进入正式发表阶段。

这并非科幻,这是刚刚被《Nature》报道的一项震撼研究。

该项研究是由Sakana AI联合牛津大学、UBC共同推出的全自动AI科学家“The AI Scientist”。

Sakana AI联合创始人兼 CEO David Ha在推文中表示,启动该项目,正是想探索大模型是否能够完成整个科研全流程:

我坚信,AI将永远改变科学发现和科研进步的方式。

全自动“AI科学家”

究竟做了什么?

这一次,不是AI在“帮”人干活,而是AI第一次把科研流程从头走到尾。

一直以来,AI在科研领域的定位都是“高级打工人”:比如帮化学家折叠蛋白质,或是帮程序员找bug。

定义问题和统筹全局的,始终是人类。

The AI Scientist的出现,则颠覆了这套“主仆叙事”,它完整覆盖了科研的四大核心阶段:Idea生成、实验迭代、论文写作、自动评审。

在全新升级的v2版本中,它甚至走向了“无模板”模式:彻底抛弃人类提供的初始代码脚手架,引入了强大的“智能体树搜索”(agentic tree search)机制。

这意味着它能在庞大的未知解空间里,同时开启多条主线并行探索。科研不再是单线程试错,而变成了一个可扩展的搜索过程。

它怎么保证自己不和别人撞车?

系统会调用Semantic Scholar API进行全网查重,确保每一个idea都具备足够的新颖性。

在最棘手的数据可视化环节,它甚至内置了一个视觉语言模型(VLM)作为反馈审阅者。

如果坐标轴反了、图例丢了、展示有歧义,VLM会像严苛的导师一样立刻打回重做,直到生成完美的学术图表。

过去图表只是论文包装,现在图表也成了AI科研的反馈信号。

而完成这堪比博士生几个月工作量的闭环,它的账单是:单篇论文15美元。

如此惊人的性价比意味着,科研自动化第一次从“局部辅助”跨进了“全链路主导”。

AI不再只是科学家的辅助工具,而是向更具自主性的科研代理系统演进。

AI Scientist工作流程的概念概述,包括提出研究想法、实施实验、执行实验、撰写论文以及审阅论文。

通过人类同行评审测试

AI写的论文,人类学术金字塔尖的学者到底认不认?

于是,Sakana AI决定玩一把大的:直接向顶会投稿。

在获得ICLR大会领导层、ICBINB workshop组织者以及IRB伦理委员会的特批后,团队进行了一场极其大胆的“潜伏行动”:将3篇纯AI生成的论文混入了人类投稿池。

审稿人只被告知“可能有AI生成论文”,但根本不知道具体是哪几篇。

结果其中一篇探索神经网络组合正则化(Compositional Regularization)负面结果的论文,斩获了平均6.33分(弱接收、接收、弱接收)的高分。

这个分数不仅稳稳越过了该workshop的平均录用线,更是超过了55%的真实人类学者。

连科学研究中最难写出彩的负向论证,AI也能写得有模有样、逻辑自洽。

据Sakana AI团队所称,这是全AI生成论文首次在真实学术评审环境中获得通过接收线的成绩。

这也标志着同行评审,真正迎来了“图灵测试”时刻。

AI审稿人比人类更靠谱?

如果AI一天能花几百美元写出几十篇论文,人类审稿系统瞬间就会崩溃。

想让AI科研实现指数级爆发,就必须有能够大规模评估质量的“自动化裁判”。

Sakana AI给出的答案是:直接让AI来当Area Chair(领域主席)。

他们构建了一个高度还原NeurIPS官方审稿流程的自动化系统:

5个独立的AI审稿人进行背靠背挑刺,最后由1个AI元审稿人进行共识汇总和最终裁决。

在与数千条真实OpenReview人类审稿决策的硬碰硬对比中,自动化审稿人交出了69%的平衡准确率。

令人震惊的是,在作者设定的评测框架下,自动审稿系统的部分指标优于所对照的人类一致性结果。

有人质疑:AI是不是偷偷背过题?

团队特意用知识截止日期(2025年)之后的全新论文进行了数狙疼染测试。

结果依然坚挺:平衡准确率保持在66%,达到可与人类顶级学者比肩的实战水准。

这表明,AI正在进入过去长期由人类主导的科研流程核心环节。

过去,人类同时垄断了“写论文的人”和“决定论文是否成立”这两个关键角色。

现在,这两个角色都在被AI切入。

一旦评审环节也被自动化,AI科研就不再是零星爆款,而具备了大规模、左右互搏式迭代的基础设施。

该自动审稿系统在顶级会议(ICLR)发表的AI论文上,其审稿判断与人类审稿人一致,包括在模型训练完成之后(即超出其“知识截止日期”)发表的论文。这些结果表明,该自动审稿系统在为新撰写的AI论文提供评审分数方面,可靠性与人类审稿人相当。

科研的Scaling Law

如果说“过审”证明了AI科研站得住,那真正决定未来天花板的是另一件事:

它是不是可持续变强?

Nature论文中最具颠覆性的一组数据,揭示了潜藏在AI科研背后的全新定律。

研究发现,底层大模型的能力与生成论文的质量之间,呈现出令人头皮发麻的极度显著正相关(P

随着模型发布日期推进,AI产出的论文质量持续陡峭上升。

同时,算力正在暴力改写科研法则。

投入的测试时算力越多,智能体树搜索的深度就越深,实验质量就越扎实,最终的产出评级就越高。

当前最顶配的AI科学家,其平均产出已经逼近机器学习顶会workshop的边缘录用(borderline accept)水平。

这背后展示的是一条正在形成的“科研Scaling Law”。

过去的科技突破,依赖于虚无缥缈的灵光乍现,而未来的科学发现,将变成一条可精确计算的工业流水线。

随着模型能力呈指数级增长、推理算力成本呈指数级下降,这套系统会自动升级,这才是这项工作真正展现出恐怖势能。

根据自动评审员的评判,当使用更新、更智能的基础模型时,AI Scientist生成的论文质量会提高。

AI全面接管科研

我们准备好了吗?

当然,这篇Nature论文,同样也指出了The AI Scientist的目前的局限性:

它偶尔会想出幼稚的idea,写的代码会有bug,论文里会出现引用的幻觉,甚至在附录里重复粘贴同一张图表。

值得警惕的是,论文显示该系统具备自动调试、重试运行和在受限计算预算下持续迭代实验的能力。

这意味着,未来更强的科研代理一旦出现规避约束的倾向,可能带来新的安全治理问题。

如果这种系统被毫无节制地释放,海量生成的低门槛论文会瞬间压垮整个学术生态,学者的学术 credentials(资历证明)将被彻底稀释。

正因如此,Sakana AI采取了极其克制的立场:主动撤稿、通过IRB审批、呼吁添加生成水印,并急迫要求社区建立全自动AI科研规范。

这篇Nature论文不只是展示AI技术的里程碑,更是把AI所带来的伦理争议也摆上台面。

真正的问题早已不是“AI能不能做科研”,而是“当AI开始独立做科学,谁来定义什么算科学”。

正如团队所设想的终极愿景:AI科学家不会让人类科学家消失,但人类科学家的角色,必须被迫向着科研价值链的更上游迁徙:

去定义问题、设定边界、决定哪些发现值得被相信。


    24小时新闻排行榜更多>>
  1. 蔡奇目露杀机 他看习近平的眼神好吓人
  2. 炼油厂关闭在即 加州惊现每加仑8美元油价
  3. 中共监狱逼法轮功学员放弃修炼 手段残暴
  4. 广州已有四任书记出事 消息称郭永航案涉珠海
  5. 猪价“反内卷”,为何散户倒大霉?
  6. 傳溫家寶懟習近平 不和你玩了 我要退黨
  7. 欧洲议会8年来首次,临行前还对中国“留几手”
  8. 熬夜时心脏“咯噔”一下,咋办?
  9. 美国对伊朗"狂射850枚战斧",超过1年产量!
  10. 妻子由男医生产检,丈夫崩溃撞墙
  11. 钱给再多,瞿颖也不上钩
  12. 李昌钰在家突然离世,相伴7年的妻子含泪发文悼念
  13. 鲁比奥和其他G7外长们互喷,德国外长:气死了
  14. 川普:伊朗战争结束后经济将“火箭式”腾飞
  15. 出大事?传中共军事演习误射烟雾弹击中观察员人群
  16. “速效救心丸”搜索量暴涨30倍 医生紧急提醒
  17. 末日场景?澳大利亚多地惊见红色天空
  18. 张雪峰是“中式聪明人”吗?他为何能贩卖焦虑?
  19. 美国宇航员太空紧急撤离原因披露
  20. 中国经济学家巴曙松疑被带走 内情曝光
  21. 湾区民运人士集会 声援异议人士钱辰昌
  22. 丁奎岭寄语上海交大毕业研究生
  23. 忧个资外泄,移民报税人数缩水
  24. 川普预告古巴可能是下一个军事行动目标
  25. 中东战火蔓延,全球能源市场面临冲击波
  26. 波兰网红Stan南湾开讲 免费座谈揭AI资讯战
  27. 伊朗:将加快人道主义货船通行霍尔木兹海峡
  28. 川普:伊朗战事还剩3554个目标 将很快完成
  29. 利润涨三倍市值却蒸发千亿 泡泡玛特怎么了
  30. 犹如针尖对麦芒,美伊和谈“几近死局”
  31. 41岁东北汉子离婚跑海上避世,竟深陷美伊战火
  32. 传温家宝怼习近平 不和你玩了 我要退党
  33. 天津海边罕见“蓝眼泪”奇观 游泳者称“海上鬼火”
  34. 美众院通过60天DHS拨款案 参院恐难过关
  35. 复活节Storytime南湾登场 亲子齐聚捡彩蛋
  36. 盛雪:中共对伊朗暴政的全面武装(六)
  37. 狮子都怕它?刚果雨林的“狮子杀手”
  38. 美国“最强导弹”,击落了美国“最强战机”
  39. 伊朗战争验证了北京当局的战略方向是对的
  40. 川普坚称伊朗须开放荷莫兹海峡
  41. 速效救心丸,鱼油真能保命吗?
  42. 否决拨款方案,国安部部分停摆
  43. 京圈“富二代”落马,该对有钱人祛魅了
  44. 外媒关注重庆巫山神女大扶梯
  45. 以色列被炸成第二个加沙
  46. 马兴瑞案件同伙郭永航常用新词、辣词、流行词 ?
  47. 林宜敬南湾简报数位政策 聚焦资安发展方向
  48. 以军炸伊核设施 伊朗袭沙特基地致美军受伤
  49. 疯狂小扎边裁员边给高管发钱
  50. 遭中国学界集体抵制后,AI顶会紧急道歉
  51. 传音之后,华为继续起诉迪士尼的流媒体业务
  52. 美豁免制裁后 伊朗石油流向从中国转到印度
  53. 中国释放强有力的稳定开放信号
  54. 加拿大军费暴涨至600亿 达到北约国防开支目标
  55. 美国如此富有,为何美国人却如此痛苦
  56. 一场外卖大战,美团得与失
  57. “不要国王”第三度上街 民众盼期中选举给川普好看
  58. 众院共和党人挡下参院法案 美机场安检乱象未解
  59. 河南项城惊传中学生持刀杀人 致1死
  60. 我对近期市场的观察和思考