Nature认定的论文综述神器来了

2026-02-07 08:25:12 · chineseheadlinenews.com · 来源: 量子位

AI写论文这事儿确实不新鲜了,但天下苦假引用久矣。

以往咱用大模型写个综述,看着像模像样的,结果一查参考文献——

好家伙,论文不存在、期刊不存在、作者也不存在(扶额)。

现在不用愁了,Nature新发表了一篇研究,艾伦人工智能研究所(Ai2)和华盛顿大学开源了一个叫OpenScholar的AI系统,写文献综述绝不瞎编。

背靠整整4500万篇科学论文库,直接把GPT-4o那种78%-90%的虚假引用率给干翻了。

那么问题来了,大家都在编,OpenScholar为啥不编?

自我反馈推理

其实主要还是因为LLM的底层逻辑就是预测下一个词出现的概率。

当你问它一个非常生僻的学术问题时,它为了维持语言的连贯性以及“我无所不知”的人设——

会强行根据语料库里的作者名、期刊名、标题关键词,拼凑出一个看起来最像真论文的…幻觉产物。

还有,通用AI缺乏事实锚点,读过万卷书结果全记串了。

张教授写过超导,李教授写过材料,当你问它超导材料时,它能面不改色地给你编出一篇《张教授与李教授关于超导材料的巅峰对话》……

这种由于训练数据截断以及缺乏真实文献验证机制导致的假引用,真的太太太离谱了!

OpenScholar就不一样了,不再拍脑门预测下一个词,直接接入了一个名为ScholarStore的庞大数据库。

这是目前公开的最大科学领域段落索引,全开源可下载,任何人都能本地部署或者扩展。

里面实打实地存了4500万篇论文的全文和摘要,再通过RAG技术,让每个知识点都背靠一篇真实存在的论文。

当你抛出一个科研难题,它会先在那个拥有2.37亿个向量嵌入的超大数据库里疯狂检索,把相关的论文片段全翻出来。

给出初稿之后,带着生成的“这里缺少讨论”“这里引文不准”“需要补搜最新进展”等反馈再检索、再改稿,通过搜索、生成、自我审查、再搜索、再修正这套闭环,反复确认输出的内容是不是真有论文支撑。

这样一来显著降低了幻觉,提高了输出内容的覆盖度和引文精度,整个管道还会被用来生成高质量合成数据,反哺训练。

有多强?

但是!如果只是搜得准,那它充其量是个高级搜索引擎,OpenScholar不止如此。

它在知识合成的深度上,已经开始正面硬刚人类专家了。

研发团队整了个叫Scholar QABench的测试集,涵盖了计算机科学、物理、生物医药等最吃逻辑的领域,由3000个问题和250个长篇专家答案构成。

在自动测评上,OpenScholar-8B这个体量不算大的模型,在正确性上GPT-4o高出5%,比专业的PaperQA2也高出7%,引文准确度和人类专家持平。

团队还搞了个“人机大战”双盲实验,把AI写的答案和实打实的博士、研究员写的答案放一起,然后让另一群顶级科学家来盲评打分。

16位专家两两对比了108份学术答案。结果显示,OpenScholar-8B的回答有51%比人类研究者亲手写的更好,升级组合版的OpenScholar-GPT4o胜率更是冲到70%,而普通GPT-4o只有32%。

评审专家们普遍反馈,OpenScholar的优势集中在信息覆盖更全面、结构更清晰、逻辑连贯性更强,实用价值也更高。

作者团队

这篇研究的一作Akari Asai是艾伦人工智能研究所研究科学家,2026年秋起将任卡内基梅隆大学助理教授。

在此之前她获得了东京大学电气工程与计算机科学专业的学士学位,后在华盛顿大学完成博士学业,研究聚焦于自然语言处理和机器学习,尤其侧重于大型语言模型。

Jacqueline He目前在华盛顿大学读自然语言处理专业博士,本科毕业于普林斯顿大学,曾是普林斯顿自然语言处理小组成员,主要导师是陈丹琦。

读研之前,她还担任过Meta的软件工程师。

Rulin Shao本科毕业于西安交通大学,取得了数学的学士学位,后在卡内基梅隆大学完成了机器学习硕士学位,现为华盛顿大学博士生,同时也是Meta的访问研究员。

团队的其他作者均来自伊利诺伊大学厄巴纳 - 香槟分校、卡内基梅隆大学、Meta、北卡罗来纳大学教堂山分校、斯坦福大学等高校和机构。


    24小时新闻排行榜更多>>
  1. 两中央掐架? 罢免张、刘代表议题流产 真相或更惊悚
  2. 中共年度军政会军方将领名单大变 无上将出席
  3. 习近平被原中共官员实名举报:践踏中共党章国法 多次用人失误
  4. 川普大女儿久违现身,被曝和梅拉尼娅“仍冷淡”
  5. 小李子27岁超模女友惊艳冬奥会,被委以重任
  6. 为何没有摄像头录下NBC主持人之母遭绑架过程
  7. 运河裁决惹怒北京 ! 中国传将全面反制巴拿马
  8. 年轻人的“赛博伙伴”,拯救春节社恐
  9. 川南县城“一元食堂”,供80岁以上独居老人
  10. 川普发布种族歧视奥巴马的影片,并且拒绝道歉
  11. 台湾11所重点高校赴纽约揽才 曼哈顿2月28日活动登场
  12. 梅洛尼晤万斯 强调意美同盟 米兰爆反ICE示威
  13. 梅洛尼会晤万斯,强调意美同盟
  14. FBI调查疑似中共关联的地下生物实验室网络
  15. 美印达协议 印度拟购800亿美元波音飞机
  16. 成功采集深海稀土泥 专家:日本国产化还得等10年
  17. 程序是如何一步步跑进内存的?
  18. 两野猫把景观池当“自助餐厅”走红
  19. 意大利总统宣布2026冬季奥运开幕
  20. 被皮夹克掌控的日子
  21. 开领馆、派巡逻舰,加拿大为何在格陵兰岛插上国旗?
  22. 2025太平洋之旅——初抵悉尼
  23. “快手”遭罚1.19亿元 中共网安法首案巨额罚单
  24. 坐飞机要称体重,什么意图?
  25. 美战争部控哈佛亲共反犹 切断双方学术合作
  26. 涡扇-19的最大推力有11.8吨?
  27. 从一规则看签证误区:误会也可能变欺诈
  28. 曾因呛声川普丢饭碗 ! 福特员工复职 还获网捐80万
  29. 中国古人太厉害了 失传的11大超前发明
  30. 海南“两虎”落马扰动官场 或牵出更多高官
  31. 中资烂尾楼泛海广场迎转机
  32. 消息:中共曾游说东南亚国家反日 遭冷遇
  33. 甜点控有好消息!3招血糖不飙高
  34. 英国安全事务部长:威胁神韵的行为极其恶劣
  35. 美劳动市场濒临“断裂点” 引爆美联储恢复降息预期
  36. 华府控北京秘密核试
  37. 汪文华近况曝光,得罪大人物遭雪藏?
  38. AI越强,为什么科技股反而越慌?
  39. 绿茶搭配它们,“防癌力”上涨
  40. 贝森特畅谈“美元武器”砸烂伊朗经济 引爆全国示威
  41. 湖北应城警察利用监控迫害法轮功学员
  42. 华南植物迁地保护与利用重点实验室重组获批
  43. 霍金也登萝莉岛
  44. 陆企“快手”遭罚1.19亿元 各界忧言论空间收窄
  45. 斯德哥尔摩新城区,街道以16位女性命名
  46. 美上诉法院驳回对川普DEI禁令的挑战
  47. 挪威王储妃就与爱泼斯坦“露骨信息”致歉 她曾“心动”
  48. 刘强东拿下中兴
  49. 美股轮动新潮流:“抗AI”类股成避风港
  50. Uber美国首度败诉 须为司机性侵赔850万美元
  51. 为何餐馆都在统一提供免费柠檬水?
  52. 一尼加拉瓜非法移民袭击ICE特工 被起诉
  53. 两个法国小伙徒步上万公里抵达上海
  54. 股市动荡冲击对冲基金
  55. 立陶宛总理承认“犯大错” 官媒:口头表态不足止损
  56. 习慰问部队老干部 独张升民陪同 引讥讽
  57. 美印达成临时贸易框架
  58. 美民权委员:不处理校园霸凌 学校应被撤资
  59. 美航母已进入对伊发动打击的“阵地”
  60. 到底谁在“装瞎” 王志安嘲讽陈光诚被索赔两百万美金