AI挑战化学家：大模型解锁新边界-墙外头条

ChemBench 评估大型语言模型化学能力，顶级模型超越人类专家，但仍存缺陷，需优化教育与安全应用。

大型语言模型(LLMs)席卷科技界，它们能处理海量文本，完成未曾明确训练的任务，比如通过美国医学执照考试或设计化学反应。化学家和材料科学家也对这些模型着迷，有人甚至宣称“化学的未来是语言”。想象一下，模型能从科学文献的浩瀚文本中挖掘见解，预测分子性质，优化反应，甚至基于自然语言指令自主实验。这就像一个不知疲倦的助手，能读遍人类无法企及的文献量。

然而，机遇与风险并存。化学模型的强大功能可能被滥用，例如设计毒性分子。正如设计无毒药物的方法稍加改动就能预测毒物，模型的广泛用户群体——包括学生和普通公众——可能因误导信息而面临安全隐患。学生或许用这些工具准备实验，公众可能询问化学品安全性，错误的回答可能酿成大错。为此，我们需要系统了解模型的化学能力，以改进其性能并降低风险。

为此，我们开发了 ChemBench，一个自动化框架，包含2788个问答对，涵盖本科和研究生化学课程的广泛主题，从普通化学到分析化学、毒理学等。问题类型多样，既有选择题也有开放式问题，测试知识、推理和化学直觉。比如，一个问题可能描述实验观察，要求推断样本中的离子；另一个可能要求判断分子对称性，预测核磁共振谱的信号数。我们还请了19位化学专家回答部分问题，以便与模型表现对比，模拟真实场景，专家甚至可以使用网络搜索。

ChemBench 揭示了令人震惊的结果：顶级模型 o1-preview 的表现几乎是最佳人类专家的两倍，许多模型也超过平均人类水平。例如，在普通化学和技术化学领域，模型得分较高，轻松应对教科书式问题。但在需要深入推理的任务上，比如分析核磁共振谱，模型表现不佳，o1-preview 仅答对22%。这表明，模型可能依赖训练数据的模式，而非真正“理解”分子结构。

更令人担忧的是，模型往往过于自信。GPT-4 在一个安全相关问题上答对时自信满满(评分1.0，最高5)，答错六个问题时却给出了4.0的自信度。Claude-3.5(Sonnet)在化学品标签问题上的自信度也几乎无差别，无论答案对错。这种不可靠的自信评估对依赖模型的用户来说是个隐患，强调了批判性思考的重要性。

化学领域的现有基准测试多聚焦于特定任务，如预测分子溶解度或毒性，难以全面评估模型能力。ChemBench 则不同，它不仅覆盖多领域，还支持特殊编码，如用 [START_SMILES][END_SMILES] 标记分子结构，便于模型处理化学信息。它的灵活设计还能兼容工具增强系统，如结合搜索或代码执行的化学助手。

我们还创建了 ChemBench-Mini，一个包含236个问题的子集，代表性强且适合快速评估，降低成本。专家们回答了这一子集，模型表现依然亮眼，尤其在基于德国化学禁令考试的问题上，GPT-4 答对71%，Claude-3.5 达61%，远超人类专家的3%。但这也暴露了一个问题：模型在教科书问题上表现优异，却在需要推理或偏离训练数据的问题上挣扎。这提示我们，传统化学考试可能已不适合评估依赖海量数据的模型。

ChemBench 的分析还显示，模型性能与规模相关，越大越强。这符合其他领域的趋势，暗示通过扩大模型规模可进一步提升化学能力。然而，模型在某些子领域，如毒理学和分析化学，表现欠佳，可能因为所需知识不在常见文献中，而在专业数据库如 PubChem 中。未来，整合这些数据源或训练更专业的模型或能弥补这一短板。

另一个有趣发现是，模型难以判断化学品的“有趣性”。我们模仿药物公司情境，问模型更喜欢哪种化合物，类似化学家在早期筛选中的选择。结果，模型表现接近随机猜测，与专家的偏好一致性差。这表明，未来可通过偏好调整优化模型在化学优化任务中的表现。

ChemBench 的意义不仅在于揭示模型的优劣，还在于重新审视化学教育。模型在记忆性问题上超越人类，说明死记硬背已不足以应对未来。化学教育需更注重批判性推理，培养学生质疑模型输出的能力。同时，ChemBench 作为一个开放框架，允许开发者添加新模型，推动化学领域的智能系统向更接近人类化学家的目标迈进。

就像化学实验需要精确的试剂配比，评估模型也需要精心设计的框架。ChemBench 不仅为我们提供了衡量工具，还点燃了关于化学与智能融合的无限遐想。未来，这些模型或许能成为化学家的得力助手，但前提是我们必须正视它们的局限，确保安全与实用并重。