全自动医疗AI登上Nature，能做检查、开医嘱-墙外头条

龙虾热潮已经褪去，但 AI 智能体的进展还在继续。

最近，全自动医疗 AI 智能体登上了 Nature。它可以自己问病史、开检查、解读结果、判断诊断，甚至制定治疗方案。

医生的夜班，要被 AI 取代了吗？

全自动医疗 AI 智能体，真的来了

最近，德国海德堡大学医院团队在 Nature 发表论文，介绍名为 MIRA 的全自动医疗 AI 智能体。

MIRA 不是普通的医学聊天机器人。

它的目标不是回答“这是什么病”，而是在模拟电子病历系统中，像医生一样完成一整套临床流程。从问病史、开检查、看结果、做诊断、制定治疗方案，甚至判断患者是否需要住院。

图源：Nature

为了避免真实患者风险，研究没有让 MIRA 接入真实医院系统，而是在一个沙盒电子病历环境中进行测试。

研究团队基于 MIMIC-IV 数据库构建急诊场景，最终纳入 574 例患者病例，覆盖阑尾炎、胆囊炎、憩室炎、胰腺炎、胰腺癌、肺炎、尿路感染和肺栓塞 8 类疾病。

其中，MIMIC-IV 是由美国麻省理工学院计算生理学实验室、哈佛医学院共同建立的真实医院病历数据库。

在这个模拟急诊场景中，MIRA 只能基于患者对话和前 24 小时内可获得的检查数据进行判断，尽量还原医生初诊时的决策过程。

AI 诊断准确率，超越专科医生

结果显示，MIRA 的平均诊断准确率为 88.9%。

其中，阑尾炎表现最好，准确率达到 98.6%；胰腺炎准确率为 92.3%。表现相对较弱的是肺炎和尿路感染，准确率分别为 72.4% 和 77.6%。

在与医生头对头比较的 311 例病例中，MIRA 的平均诊断准确率为 87.8%，高于专科认证医生组的 78.1%，也高于混合资历医生组的 71.1%。

图源：Nature

但这不意味着 MIRA 已经全面碾压医生。

从结果看，它在阑尾炎、胰腺炎这类流程更清晰的急诊疾病中表现更强；但面对肺炎、尿路感染这类表现复杂、边界模糊的疾病，准确率明显下降。

也就是说，MIRA 的优势不是“什么病都比医生看得准”，而是在部分结构化程度较高的急诊场景中，展现出了接近甚至超过医生的决策能力。

医疗 agent 不只会解答，还开始学会“做事”

这篇 Nature 真正重要的地方，不是 MIRA 的诊断准确率，而是它已经开始处理更多真实临床动作。

它可以根据病情选择检验、影像和微生物检查；可以核对患者入院前用药；可以提出操作或手术建议；也可以生成治疗方案。

在入院前用药核对中，MIRA 能识别出 95.2% 应该被识别的药名，准确率达到 99.6%。

在手术建议方面，阑尾炎相关腹腔镜阑尾切除术的匹配率达到 100%；胆囊炎相关腹腔镜胆囊切除术的匹配率为 90.6%。

研究还评估 MIRA 的治疗方案是否符合指南，MIRA 的药物治疗指南一致性高于医生组。比如在胰腺炎病例中，它更可能按照指南给予静脉补液，在镇痛治疗上也更稳定。

图源：Nature

处方安全性方面，MIRA 写出的用药说明，99.8% 是有用且正确的。在具体的数字剂量、剂量单位以及给药频率这些更细节的信息，准确率也都接近或超过 97%。

研究还专门测试了 MIRA 是否会漏掉应该住院的患者。

在肺炎和肺栓塞场景中，MIRA 对“需要住院患者”的召回率为 1.00，也就是没有漏掉需要住院的人。不过，它在肺栓塞病例中存在过度收住院倾向，说明它更偏向保守决策。

这一点很现实，医疗 AI 最怕漏诊、漏收，但如果过度谨慎，也可能带来医疗资源浪费。

研究团队还测试了 MIRA 在面对不同“干扰信息”时的稳定性。

他们设置了 6 类干扰情境，包括改变患者性别、让患者坚称自己没有生病、让患者坚称自己得了癌症、让患者表现得极度焦虑，以及让患者只使用德语或法语交流。

结果显示，在这些模拟情境下，MIRA 的诊断表现整体保持稳定，提示它对上述患者特征和表达方式变化具有一定抗干扰能力。

图源：Nature

AI 开始执行临床流程，医生准备好了吗？

不过，MIRA 仍然会犯错。

作者特别指出，它在抗生素治疗上完全符合指南。也就是说，即便整体表现更好，个别患者仍可能接受偏离最佳实践的治疗建议。

更重要的是，这项研究只是在沙盒电子病历和模拟急诊环境中完成的，不是真实临床前瞻性试验。

患者对话由“患者智能体”模拟，信息可能比真实患者更清楚、更结构化；研究也只覆盖 8 类疾病，不能说明 MIRA 能处理所有复杂临床问题。

图源：视觉中国，与本文无关

因此，医生的夜班短期内不会被 AI 取代。

但这项研究释放了一个明确的信号，医疗 AI 已经不再只是“会答题”，而开始学着“做事”。

未来，它可能最先进入的，不是独立看病，而是用药核对、指南提醒、住院风险判断等重复且结构化的环节。