清华百川主动问诊：超越GPT-5.5-墙外头条

6月22日，百川智能与清华大学研究团队联合发布新一代医疗增强大模型Baichuan-M4。百川智能由清华大学计算机系1996级校友王小川创立，此次与母校清华的深度合作，让M4在医疗AI领域实现了一系列关键突破。

登顶全球医疗评测，超越GPT-5.5

在OpenAI提出的权威医疗评测HealthBench上，M4综合得分68.6，位列世界第一，领先第二名GPT-5.5超过10分。在HealthBench的Hard、Professional三个子榜单上，M4同时登顶。事实性幻觉率低至3.3%，为全行业最低。

通用大模型擅长“拿到完整病历后答题”，但现实中患者叙述往往零散模糊。M4的核心改进落在主动追问这一环节——它会围绕症状性质、诱因、危险信号等进行多轮追问，优先排查危急重症，而不是被动等待信息。百川联合150余位一线医生，参照医学教育中的OSCE（客观结构化临床考试）方法构建动态问诊评测SCAN-bench，M4初诊与复诊得分分别为79.0与74.7。

全病程记忆+证据锚定

M4推出 “全病程记忆” ，打通历史病历、多轮问诊、化验趋势与用药反馈，让模型在多次对话中始终掌握患者的完整病史。在长上下文临床记忆评测中，M4取得86.9分，较上一代M3提升21.1分。

M4首创 “证据锚定” ——每一句医学结论都精确对应到原始论文或指南的具体段落。模型内置标准化临床路径超1000个、覆盖200余种疾病。在百川自建循证评测Baichuan-EBM上，M4引用精度达90.0%，GPT-5.5仅54.7。

此外，百川构建了医疗调度层Baichuan-Harness，由模型自主决定追问、检索、调取病史的时机，并对工具调用施加安全约束。

从主动问诊到全病程记忆，从循证溯源到任务调度，M4正在从一个“会答题”的模型，成长为可完成连续诊疗动作的医疗智能体。