急诊室里，AI比医生早12小时诊断出致命感染-墙外头条

哈佛医学院的最新研究显示，AI模型在急诊室的真实病例临床推理中，比人类医生更早得出正确的诊断。研究者认为，我们需要进行更严格的临床试验，开始认真考虑如何进行人机协作。

图源：Pxhere.com

1959年，两位名叫Robert Ledley和Lee Lusted的研究者在《科学》（Science）杂志上发表了一篇名为《医疗诊断的推理基础》的论文。他们提出一个想法：用《新英格兰医学杂志》（NEJM）每周发表的临床病理讨论会病例来考计算机。这些真实的病例来自麻省总医院，经过专家整理，充满了罕见病表现、干扰信息，是医学界公认的高难度考题。

Ledley和Lusted想知道，机器能不能像医生一样思考。

左：Robert Ledley，图源：Wikipedia；右：Lee Lusted，图源：Rutgers University

67年过去了。哈佛医学院和贝斯以色列女执事医疗中心（Beth Israel Deaconess Medical Center）的研究团队在《科学》上交了答卷。他们让OpenAI的推理模型做了这套题，143个病例，模型在78.3%的情况下把正确答案放进了鉴别诊断；如果把标准放宽到"至少给出了有帮助的诊断"，这个数字是97.9%。而检查方案几乎完全一致的比例，是87.5%。而在真实世界的急诊室中，这一推理模型对于病例的临床推理评估，也比人类医生更早得出正确的诊断结果。

但研究团队最想讲的，不是这些分数本身。

在《科学》杂志组织的一场线上发布会上，论文作者们讲了一个急诊室里的故事。一位器官移植后的患者走进急诊室，抱怨睾丸疼痛，同时有些上呼吸道症状。人类医生把注意力放在了呼吸道。o1模型却从分诊记录里注意到“免疫抑制”，在病历中标记了坏死性筋膜炎——一种需要手术治疗的毁灭性感染。这比人类医生的诊断早了12到24小时。

论文共同第一作者、贝斯以色列女执事医疗中心医学临床研究员Peter Brodeur表示，“我们已经证明推理模型极其有能力。现在该把这一点放在一边，开始思考医生如何在现实世界中使用它。”

五个实验和一张成绩单

这项研究测试的是OpenAI的o1系列，被称为“推理模型”的新型AI系统。

研究团队设计了五项实验，系统性地比较了OpenAI的推理模型o1-preview与医生的表现，覆盖了从鉴别诊断到管理决策的多个维度。

第一个实验是来自《新英格兰医学杂志》临床病理讨论会（CPC）的143个病例。自1950年代以来，《新英格兰医学杂志》临床病理讨论会就是评估临床AI的黄金标准。这些病例每周发表，来自麻省总医院的真实患者，经过专家撰写，充满了罕见病表现和干扰信息。用论文作者的话说，它们是“被有意设计得很难”的。

研究团队只给模型看“初始呈现”——患者第一次被接诊时的症状、病史和体征——然后让它做两件事：给出鉴别诊断，以及选择下一步该做什么检查。

两位医生用5分制Bond量表对模型的回答进行盲评。评分时，两位医生不知道答案来自AI还是人类。

结果是：o1-preview在78.3%的病例中把正确答案纳入了鉴别诊断。如果把标准放宽到"给出了有帮助或非常接近的诊断"，这个数字升至97.9%。

这些数字意味着什么？此前一项发表在《自然》上的研究中，有搜索权限的医生在302个CPC病例上的准确率是44.5%。而在本研究中重叠的70个病例上，GPT-4的准确率是72.9%，o1-preview则高达88.6%。

研究团队还检查了模型是否在“背答案”：训练数据截止日期前后的准确率，没有显著差异（79.8%对73.5%），说明得分不完全是靠记忆。

在136个病例中，研究团队还测试了模型选择下一步检查的能力。87.5%的情况下，o1-preview选择的检查方案与麻省总医院实际采取的方案完全一致；另有11%被认为"有帮助"；只有1.5%被两位评分医生认为"无帮助"。

第二个实验是关于写病历的考试。NEJM Healer课程提供20个虚拟患者的接诊场景，用R-IDEA量表（满分10分）评估受试者的临床文档写作质量，涵盖病史采集、鉴别诊断、推理过程和文档结构四个维度。

80份病程记录中，o1-preview在78份中拿了满分。相比之下，GPT-4是47份，主治医生28份，住院医生16份。

第三个实验用来测试AI在在病例上的管理决策能力。Grey Matters测试使用5个真实病例改编的管理场景，场景包括抗生素选择、临终关怀对话等。这些决策比诊断更复杂，还需要考虑患者偏好、资源约束和合并症等文本之外的因素。

在这项测试中，o1-preview的中位数得分是89%，GPT-4是42%，配备GPT-4的医生是41%，使用传统资源（如UpToDate或Google）的医生是34%。o1-preview比最后一组高出了48.4个百分点。

为了排除模型依赖记忆作答的可能性，研究团队使用了6个从未在互联网公开的病例，源自1994年的一项研究。模型需要给出鉴别诊断、支持证据、反驳证据，以及下一步计划。有两位评分医生对模型回答进行盲评。

o1-preview的中位数得分是97%。GPT-4是92%，使用GPT-4的医生76%，使用传统资源的医生则是74%。

这一结果显示，o1-preview与GPT-4的成绩差距不大，但都大幅领先于人类医生。

最后一项测试，使用了5个病例，要求模型估算疾病在检查前后的疾病芭率，并与专家文献基准对比。

结果显示，o1-preview与GPT-4表现相近，但在心脏病缺血病例的后测概率估计上，o1-preview显著优于GPT-4和人类医生。值得一提的是，对这五个病例做出估算的人类医生，答案极度分散，方差明显超过两个AI模型。这表明模型更稳定，人类更波动。

这五个实验覆盖了诊断、文档、管理、推理和概率估计。在文本-based的临床推理任务上，o1-preview已经超越了此前所有AI模型，也超越了大多数人类医生的基线。

急诊室里的三个时间点

实验室里的高分，能不能搬到急诊室？这是本研究区别于以往研究的核心亮点。研究团队没有把病例"洗干净"再喂给模型，而是直接从电子病历复制粘贴，包括所有无关噪音。

贝斯以色列女执事医疗中心。图源：维基百科

这些真实世界的病例来自贝斯以色列女执事医疗中心急诊部，作者们随机抽取76例最终入院的患者。研究设计了三个诊断时间点：

第一个时间点是分诊时。护士记录的生命体征——血压、心率、体温、血氧——患者年龄性别，以及一段很短的分诊说明。这段说明通常只有几句话，解释患者为什么来，比如"胸痛三小时"或"发热伴咳嗽两天"。信息极度稀缺。

第二个时间点是急诊医生接诊后。加上了医生的问诊记录、体格检查发现，以及实验室和影像结果。信息开始丰富。

第三个时间点是入院时。所有信息都到齐了，包括住院医疗团队的评估、专科会诊意见、额外检查。这是信息最充足的时间点。

与o1和GPT-4o同台竞技的，则是两名真实的人类主治医生。还有另外两名主治医生负责对诊断质量进行盲评，他们不知道答案来自人类还是AI。

最后，盲评的结果很惊人：一位医生在83.6%的情况表示“分不清是人类还是AI”，另一位则在94.4%情况下都说分不清。

在这一真实场景中，分诊时o1诊断的病例有67.1%诊断准确或非常接近，而两位医生分别为55.3%和50.0%；急诊医生阶段，o1为72.4%，两名医生分别为61.8%和52.6%；入院时差距缩小，o1为81.6%，两名医生分别为78.9%和69.7%。

该论文的共同通讯作者、哈佛医学院生物医学信息学系的助理教授Arjun (Raj) Manrai表示，信息越少，AI的优势越明显。人类在信息稀缺时更容易被噪音干扰，模型能从碎片中快速建立关联。而一旦信息充足，人类医生的整合能力追了上来。

论文的另外一位通讯作者、哈佛医学院助理教授Adam Rodman讲了两个令他印象深刻的病例。

左：Arjun (Raj) Manrai，图源：哈佛医学院；右：Adam Rodman，图源：贝斯以色列女执事医疗中心

第一个是肺栓塞患者。患者因新发肺栓塞就诊，最初好转后症状突然恶化。急诊室里，人类医生合理地怀疑抗凝治疗失败——这是最常见的并发症。o1模型却注意到患者有狼疮病史。随着新信息出现，模型越来越倾向于一个统一病因：狼疮性心肺炎——由狼疮导致的肺部和心脏炎症，既能解释症状恶化，也能独立导致肺栓塞。这个判断从最早的分诊阶段就已存在，最终被证实正确。

第二个病例就是文章开头提到的坏死性筋膜炎。Rodman说：“模型实际上从一开始就对坏死性筋膜炎有所怀疑，可能比人类医生早12到24小时。这是留在我脑海中最突出的例子。”

他补充了一个重要的临床视角：在这两个病例中，患者都得到了恰当的治疗。AI更早给出正确诊断，未必会改变临床结局。但如果在真实世界中部署这样的系统作为“第二意见”，它可能在某些时刻帮助医生少走一段弯路。

考试及格，能上岗吗？

Manrai表示，Ledley和Lusted扔下的“战书”终于被接住了。“我们可以明确地说，按照医生自己设定的标准，信息学推理模型能够满足在最高人类表现水平上进行诊断推理的标准。”

但他立刻表示：“我们的发现不意味着AI会取代医生。这意味着技术正在深刻改变医学，我们需要严格的前瞻性临床试验。”

他提到了一个非常重要的技术细节：这些通用模型一般不是被训练成临床医生的，因为其底层机制是被训练来预测下一个词是什么，并在通用场景下提供帮助。因此，解答《新英格兰医学杂志》的CPC病例，处理贝斯以色列急诊室的真实病例，可能只是大规模通用训练的“副作用”。

哈佛医学院AI与医学博士生Thomas Buckley负责研究的大部分实验设计和模型测试。他坦承团队没有正式测量幻觉率，但“我们知道o1确实会产生幻觉”。Manrai补充说：“这意味着，我们既要选择信任大模型，也要充分验证大模型”。

Rodman是共同资深作者，执业内科医生。他花了很长时间纠正可能的误读。“急诊室的工作是分诊和稳定，不是预测最终诊断。”他说，“诊断像下棋，有正确答案，容易衡量；但日常医疗行为其实是极其微妙的。”

他也谈到了应用场景的边界。“任何人都不应该看了这个就说：我们不需要医生了。”他说，"你可以想象这是一个被动运行在电子健康记录上的系统，能够在诊断错误发生之前识别出来。或者在某些时刻，医生可以向AI寻求第二意见。这些是大模型在临床上比较明显的应用场景。"

Rodman补充说，2025年的一项全球调查发现，五分之一的临床医生已经开始习惯使用大语言模型获取第二意见。“而且这个数字在过去一年里增长了很多。”

Brodeur回应了《赛先生》关于AI未来角色的提问：“我们已经证实o1这类推理模型具备极强的能力。现在应当暂且搁置对其性能的论证，转而探讨医生如何在真实临床环境中加以运用——这正是人机交互研究的核心议题。”

他进一步解释：“理想状态是，我们知道模型何时错了，模型知道我们何时错了，我们都能识别出来。但研究目前没给出这个答案。所以接下来几年，我们要研究的是如何让医生和AI在真实临床环境中都发挥最大作用。”

真正的挑战，刚刚开始

这项研究有几项重要局限值得重视。

病例主要集中在内科和急诊，而关于产科、儿科、外科的表现则是未知。而医生基线主要来自哈佛和斯坦福网络，以急诊、内科、家庭医学为主。Rodman坦言：“这不是一个非常具有普遍性的医生群体。”

另外，所有实验都是文本输入，而大模型没有视觉和触觉，看不到肢体语言，也读不了X光片。Manrai透露，团队正在做平行研究测试模型在图像上的表现，但影像能力远不如文本能力表现的那么好。

Rodman则强调，急诊室的实际决策核心是分诊和处置，不是诊断准确率。他提醒说，如果输入的是30天住院病历或完整医疗记录，"我们可能不会看到如此令人印象深刻的结果"，因为大语言模型处理大量数据时仍有困难。

67年前，Ledley和Lusted给计算机出了一套题。67年后，o1-preview在这套题上拿了接近满分的成绩。但医疗AI真正的考场，在医生按下回车键、模型给出建议、患者等待决定的那个真实瞬间。

这样的未来，值得期待，但也需要更多的验证。