AI挑战化学家:大模型解锁新边界

2025-06-18 22:25:08 · chineseheadlinenews.com · 来源: Nature

ChemBench 评估大型语言模型化学能力,顶级模型超越人类专家,但仍存缺陷,需优化教育与安全应用。

大型语言模型(LLMs)席卷科技界,它们能处理海量文本,完成未曾明确训练的任务,比如通过美国医学执照考试或设计化学反应。化学家和材料科学家也对这些模型着迷,有人甚至宣称“化学的未来是语言”。想象一下,模型能从科学文献的浩瀚文本中挖掘见解,预测分子性质,优化反应,甚至基于自然语言指令自主实验。这就像一个不知疲倦的助手,能读遍人类无法企及的文献量。

然而,机遇与风险并存。化学模型的强大功能可能被滥用,例如设计毒性分子。正如设计无毒药物的方法稍加改动就能预测毒物,模型的广泛用户群体——包括学生和普通公众——可能因误导信息而面临安全隐患。学生或许用这些工具准备实验,公众可能询问化学品安全性,错误的回答可能酿成大错。为此,我们需要系统了解模型的化学能力,以改进其性能并降低风险。

为此,我们开发了 ChemBench,一个自动化框架,包含2788个问答对,涵盖本科和研究生化学课程的广泛主题,从普通化学到分析化学、毒理学等。问题类型多样,既有选择题也有开放式问题,测试知识、推理和化学直觉。比如,一个问题可能描述实验观察,要求推断样本中的离子;另一个可能要求判断分子对称性,预测核磁共振谱的信号数。我们还请了19位化学专家回答部分问题,以便与模型表现对比,模拟真实场景,专家甚至可以使用网络搜索。

ChemBench 揭示了令人震惊的结果:顶级模型 o1-preview 的表现几乎是最佳人类专家的两倍,许多模型也超过平均人类水平。例如,在普通化学和技术化学领域,模型得分较高,轻松应对教科书式问题。但在需要深入推理的任务上,比如分析核磁共振谱,模型表现不佳,o1-preview 仅答对22%。这表明,模型可能依赖训练数据的模式,而非真正“理解”分子结构。

更令人担忧的是,模型往往过于自信。GPT-4 在一个安全相关问题上答对时自信满满(评分1.0,最高5),答错六个问题时却给出了4.0的自信度。Claude-3.5(Sonnet)在化学品标签问题上的自信度也几乎无差别,无论答案对错。这种不可靠的自信评估对依赖模型的用户来说是个隐患,强调了批判性思考的重要性。

化学领域的现有基准测试多聚焦于特定任务,如预测分子溶解度或毒性,难以全面评估模型能力。ChemBench 则不同,它不仅覆盖多领域,还支持特殊编码,如用 [START_SMILES][END_SMILES] 标记分子结构,便于模型处理化学信息。它的灵活设计还能兼容工具增强系统,如结合搜索或代码执行的化学助手。

我们还创建了 ChemBench-Mini,一个包含236个问题的子集,代表性强且适合快速评估,降低成本。专家们回答了这一子集,模型表现依然亮眼,尤其在基于德国化学禁令考试的问题上,GPT-4 答对71%,Claude-3.5 达61%,远超人类专家的3%。但这也暴露了一个问题:模型在教科书问题上表现优异,却在需要推理或偏离训练数据的问题上挣扎。这提示我们,传统化学考试可能已不适合评估依赖海量数据的模型。

ChemBench 的分析还显示,模型性能与规模相关,越大越强。这符合其他领域的趋势,暗示通过扩大模型规模可进一步提升化学能力。然而,模型在某些子领域,如毒理学和分析化学,表现欠佳,可能因为所需知识不在常见文献中,而在专业数据库如 PubChem 中。未来,整合这些数据源或训练更专业的模型或能弥补这一短板。

另一个有趣发现是,模型难以判断化学品的“有趣性”。我们模仿药物公司情境,问模型更喜欢哪种化合物,类似化学家在早期筛选中的选择。结果,模型表现接近随机猜测,与专家的偏好一致性差。这表明,未来可通过偏好调整优化模型在化学优化任务中的表现。

ChemBench 的意义不仅在于揭示模型的优劣,还在于重新审视化学教育。模型在记忆性问题上超越人类,说明死记硬背已不足以应对未来。化学教育需更注重批判性推理,培养学生质疑模型输出的能力。同时,ChemBench 作为一个开放框架,允许开发者添加新模型,推动化学领域的智能系统向更接近人类化学家的目标迈进。

就像化学实验需要精确的试剂配比,评估模型也需要精心设计的框架。ChemBench 不仅为我们提供了衡量工具,还点燃了关于化学与智能融合的无限遐想。未来,这些模型或许能成为化学家的得力助手,但前提是我们必须正视它们的局限,确保安全与实用并重。


    24小时新闻排行榜更多>>
  1. 彭丽媛掌控武警 张又侠后怕?特种兵被卸磨杀驴!
  2. 【时政春秋】习近平访中亚 鸡肋之行
  3. 美财长:或在三周后与中方面对面会谈
  4. 传情报总监被拒战情室外 只因她说过这些话 失川普信任
  5. 是否参战?MAGA开始内讧 卡尔森激辩克鲁兹
  6. 川普已批准攻击伊朗
  7. 不藏了!美空军联合日韩演习 美方主动曝光台湾高层…
  8. 中国上千年轻女被拐欧洲卖淫 警方:还有保险套快递员
  9. 网传法官助理“卷款三亿潜逃” 真相是啥
  10. 伊朗最高领袖拒投降 川普回应:祝你好运
  11. 规避川普关税 中国比特币矿机制造商赴美设厂
  12. “90后”华裔女孩,悄悄干成新西兰女首富
  13. 伊朗开始用高超音速导弹,对冲突影响多大?
  14. 纽约时报:一场新的中国冲击正席卷全球
  15. 邓小平又一大败笔 越战谎言“血染的风采”
  16. 美防长:会执行川普有关战争的任何命令
  17. 美联储继续维持利率 年内或降息2次
  18. “掩体克星”蓄势待发?川普在酝酿重大决策
  19. 对手若开战 美陆战队:恐攻击美国本土基地
  20. 英媒:中国三架货机向伊朗运送了什么?
  21. 中国高端餐饮客流大降 人心惶惶 老板:比疫情还狠
  22. 伊朗全面停电断网,政府专机逃往阿曼
  23. 跳火坑、滚泥坑…月入十万的中产 都去玩“斯巴达”了
  24. 1个华人在美国的归属感思考
  25. 中方喊话叙利亚:必须铲除“东突”武装
  26. 白宫竖起两根巨型旗杆 川普要看升旗仪式 自费完成…
  27. 第3艘美航母来了,美上百架战机进驻
  28. 伊朗为何越混越不行了 内部有个无解的终极悖论…
  29. 第三艘美航母将部署至以海域 伊朗全国大面积断网
  30. 每年注射两次!美国批准全球首款艾滋预防“疫苗”
  31. 坏消息!社安金、Medicare均将在这年耗尽……
  32. 人老了还要不要戒酒?
  33. 中国东航“五连亏” 负债总额达2449亿
  34. 15岁亚裔学生遭6人持刀殴抢
  35. 川普政府或对美国家公园的国际游客多收费
  36. “犹如世界末日降临” 英民众馀悸形容伊朗对以空袭
  37. 北京一法官助理“卷巨款外逃”案或出现反转
  38. 伊朗核设施深埋地下 聚焦B-2轰炸机和钻地弹
  39. 分手爱零食之后,三只松鼠仍要“多线突围”
  40. 伊朗至少20将领、14科学家遭定点清除 疑内鬼设计
  41. 电影《扶摇直上》主题曲 网友:听到泪流(图/视频)
  42. 摧毁伊朗深山核设施 川普和以军权衡作战方案
  43. 伊朗大使:若美介入程度达到红线,将反制
  44. 90%患者都要“挨一刀”?医院被曝上百起过度医疗事件
  45. 老戏骨买催情香水,与“少妻”房事和谐
  46. 北京助理法官“卷巨款外逃”传闻或现反转
  47. 纽约周四将迎来炎炎夏日 高温或持续整个下周
  48. 中共“第一击”引发关注 最新分析出炉
  49. AI挑战化学家:大模型解锁新边界
  50. 油轮绕道走,运费一周飙涨超一倍
  51. 小伙驱车逃离德黑兰时,机场被炸
  52. “吃人的体制”传浙江女访民在政府楼外自焚
  53. 兰德被捕,凸显市府对移民无作为
  54. “黑骑士”卫星传递外星文明的信息
  55. 最脏蔬果排行出炉,第1名经常吃
  56. 南部边境封锁下走私者拼死入美
  57. 美国轰炸伊朗会怎样?7专家曝可能走向"警告最坏结局"
  58. 美参议院提案 限制中企在美军基地旁购地
  59. 食安专家警告:吃西瓜前一定要做这件事
  60. 中共禁酒令引官场怨声载道 餐饮业人心惶惶