AI挑战化学家:大模型解锁新边界
2025-06-18 22:25:08 · chineseheadlinenews.com · 来源: Nature
ChemBench 评估大型语言模型化学能力,顶级模型超越人类专家,但仍存缺陷,需优化教育与安全应用。
大型语言模型(LLMs)席卷科技界,它们能处理海量文本,完成未曾明确训练的任务,比如通过美国医学执照考试或设计化学反应。化学家和材料科学家也对这些模型着迷,有人甚至宣称“化学的未来是语言”。想象一下,模型能从科学文献的浩瀚文本中挖掘见解,预测分子性质,优化反应,甚至基于自然语言指令自主实验。这就像一个不知疲倦的助手,能读遍人类无法企及的文献量。
然而,机遇与风险并存。化学模型的强大功能可能被滥用,例如设计毒性分子。正如设计无毒药物的方法稍加改动就能预测毒物,模型的广泛用户群体——包括学生和普通公众——可能因误导信息而面临安全隐患。学生或许用这些工具准备实验,公众可能询问化学品安全性,错误的回答可能酿成大错。为此,我们需要系统了解模型的化学能力,以改进其性能并降低风险。
为此,我们开发了 ChemBench,一个自动化框架,包含2788个问答对,涵盖本科和研究生化学课程的广泛主题,从普通化学到分析化学、毒理学等。问题类型多样,既有选择题也有开放式问题,测试知识、推理和化学直觉。比如,一个问题可能描述实验观察,要求推断样本中的离子;另一个可能要求判断分子对称性,预测核磁共振谱的信号数。我们还请了19位化学专家回答部分问题,以便与模型表现对比,模拟真实场景,专家甚至可以使用网络搜索。
ChemBench 揭示了令人震惊的结果:顶级模型 o1-preview 的表现几乎是最佳人类专家的两倍,许多模型也超过平均人类水平。例如,在普通化学和技术化学领域,模型得分较高,轻松应对教科书式问题。但在需要深入推理的任务上,比如分析核磁共振谱,模型表现不佳,o1-preview 仅答对22%。这表明,模型可能依赖训练数据的模式,而非真正“理解”分子结构。
更令人担忧的是,模型往往过于自信。GPT-4 在一个安全相关问题上答对时自信满满(评分1.0,最高5),答错六个问题时却给出了4.0的自信度。Claude-3.5(Sonnet)在化学品标签问题上的自信度也几乎无差别,无论答案对错。这种不可靠的自信评估对依赖模型的用户来说是个隐患,强调了批判性思考的重要性。
化学领域的现有基准测试多聚焦于特定任务,如预测分子溶解度或毒性,难以全面评估模型能力。ChemBench 则不同,它不仅覆盖多领域,还支持特殊编码,如用 [START_SMILES][END_SMILES] 标记分子结构,便于模型处理化学信息。它的灵活设计还能兼容工具增强系统,如结合搜索或代码执行的化学助手。
我们还创建了 ChemBench-Mini,一个包含236个问题的子集,代表性强且适合快速评估,降低成本。专家们回答了这一子集,模型表现依然亮眼,尤其在基于德国化学禁令考试的问题上,GPT-4 答对71%,Claude-3.5 达61%,远超人类专家的3%。但这也暴露了一个问题:模型在教科书问题上表现优异,却在需要推理或偏离训练数据的问题上挣扎。这提示我们,传统化学考试可能已不适合评估依赖海量数据的模型。
ChemBench 的分析还显示,模型性能与规模相关,越大越强。这符合其他领域的趋势,暗示通过扩大模型规模可进一步提升化学能力。然而,模型在某些子领域,如毒理学和分析化学,表现欠佳,可能因为所需知识不在常见文献中,而在专业数据库如 PubChem 中。未来,整合这些数据源或训练更专业的模型或能弥补这一短板。
另一个有趣发现是,模型难以判断化学品的“有趣性”。我们模仿药物公司情境,问模型更喜欢哪种化合物,类似化学家在早期筛选中的选择。结果,模型表现接近随机猜测,与专家的偏好一致性差。这表明,未来可通过偏好调整优化模型在化学优化任务中的表现。
ChemBench 的意义不仅在于揭示模型的优劣,还在于重新审视化学教育。模型在记忆性问题上超越人类,说明死记硬背已不足以应对未来。化学教育需更注重批判性推理,培养学生质疑模型输出的能力。同时,ChemBench 作为一个开放框架,允许开发者添加新模型,推动化学领域的智能系统向更接近人类化学家的目标迈进。
就像化学实验需要精确的试剂配比,评估模型也需要精心设计的框架。ChemBench 不仅为我们提供了衡量工具,还点燃了关于化学与智能融合的无限遐想。未来,这些模型或许能成为化学家的得力助手,但前提是我们必须正视它们的局限,确保安全与实用并重。