清华百川主动问诊:超越GPT-5.5
2026-06-26 07:25:08 · chineseheadlinenews.com · 来源: 水木TsinghuaCent公众号
6月22日,百川智能与清华大学研究团队联合发布新一代医疗增强大模型Baichuan-M4。百川智能由清华大学计算机系1996级校友王小川创立,此次与母校清华的深度合作,让M4在医疗AI领域实现了一系列关键突破。

登顶全球医疗评测,超越GPT-5.5
在OpenAI提出的权威医疗评测HealthBench上,M4综合得分68.6,位列世界第一,领先第二名GPT-5.5超过10分。在HealthBench的Hard、Professional三个子榜单上,M4同时登顶。事实性幻觉率低至3.3%,为全行业最低。
通用大模型擅长“拿到完整病历后答题”,但现实中患者叙述往往零散模糊。M4的核心改进落在主动追问这一环节——它会围绕症状性质、诱因、危险信号等进行多轮追问,优先排查危急重症,而不是被动等待信息。百川联合150余位一线医生,参照医学教育中的OSCE(客观结构化临床考试)方法构建动态问诊评测SCAN-bench,M4初诊与复诊得分分别为79.0与74.7。
全病程记忆+证据锚定
M4推出 “全病程记忆” ,打通历史病历、多轮问诊、化验趋势与用药反馈,让模型在多次对话中始终掌握患者的完整病史。在长上下文临床记忆评测中,M4取得86.9分,较上一代M3提升21.1分。
M4首创 “证据锚定” ——每一句医学结论都精确对应到原始论文或指南的具体段落。模型内置标准化临床路径超1000个、覆盖200余种疾病。在百川自建循证评测Baichuan-EBM上,M4引用精度达90.0%,GPT-5.5仅54.7。
此外,百川构建了医疗调度层Baichuan-Harness,由模型自主决定追问、检索、调取病史的时机,并对工具调用施加安全约束。
从主动问诊到全病程记忆,从循证溯源到任务调度,M4正在从一个“会答题”的模型,成长为可完成连续诊疗动作的医疗智能体。