AI医生:聊天机器人给的健康建议能被相信吗?
2026-04-20 06:26:10 · chineseheadlinenews.com · 来源: BBC中文

阿比会不时与ChatGPT讨论,获取健康建议
在过去一年里,来自英国曼彻斯特的阿比(Abi)一直使用ChatGPT这个知名的人工智能(人工智慧)聊天机器人,来协助管理自己的健康状况。
这样做的吸引力不言而喻。要成功预约一位家庭医生有时候感觉很难,而人工智能却会随时准备好回答你的问题。此外,AI甚至已能轻松通过某些医学考试。
那么,我们是否真的该信任ChatGPT、Gemini和Grok这样的工具?使用它们与传统的网络搜索究竟有何不同?抑或如部分专家所担忧的——聊天机器人正以“自信却错误”的方式提供建议,对生命安全构成风险?
阿比说,她长期受健康焦虑所苦,觉得聊天机器人能提供比一般网络搜寻更“量身打造”的建议——因为搜寻引擎往往直接把她带向最可怕的可能性。
“它让人感觉像是在一起解题,”她说,“有点像在和医生聊天。”
阿比也亲身体验过,用AI聊天机器人寻求健康建议的好坏两面。
有一次,她怀疑自己感染了泌尿道感染。ChatGPT在询问症状后,建议她前往药局。经过咨询,她确实获得了抗生素处方。
阿比表示,聊天机器人帮助她在“不觉得自己浪费英国国民健康服务(NHS)系统医疗资源”的情况下获得需要的照护,对于“很难判断什么时候该看医生”的人来说,也是一个方便的咨询管道。
然后到了今年一月,阿比外出健行时不慎滑倒,重重摔了一跤,背部撞到岩石,背部出现“难以忍受”的压迫感,并延伸至腹部。她于是向口袋里的AI寻求建议。
“ChatGPT告诉我,我可能刺破了内脏,必须立刻去急诊。”阿比说。
在急诊室等了三个小时后,疼痛逐渐缓解,她意识到自己并没有生命危险,于是返家。显然,AI“完全判断错误”。

阿比会使用AI,但表示必须对它给出的建议保持警觉。
很难知道有多少人像阿比一样,正使用聊天机器人来获取健康建议。但这项技术的普及速度惊人,即便你没有主动向人工智能求助,它给出的答案也可能已经出现在网络搜寻结果最前端。
英格兰最高医疗官对人工智能提供健康建议的品质感到忧虑。
英格兰首席医疗官克里斯.惠蒂教授(Prof Sir Chris Whitty)今年较早前在医学记者协会的一场演讲中表示:“我们正处于一个特别棘手的时刻,因为人们确实在使用这些工具,”但其答案“仍不够好”,而且往往是“语气自信,却是错的”。
研究人员正开始拆解聊天机器人的优势与弱点。
牛津大学“机器推理实验室”邀请一组医生设计多种详尽且贴近现实的情境,涵盖从可在家自行处理的轻微症状,到需要一般全科医生(GP,普通科医生)看诊、前往急诊,甚至必须呼叫救护车的紧急状况。
当聊天机器人获得完整资讯时,准确率高达95%。研究人员亚当.马赫迪教授(Prof Adam Mahdi)告诉我说:“它们其实很惊豔,几乎是完美的。”
但当1300名民众被要求透过与聊天机器人对话,自行描述情境、以获得诊断与建议时,结果却大不相同。
正是“人类与AI的互动过程”让情况开始失控,准确率骤降至35%——也就是说,有三分之二的情况,人们得到的是错误的诊断或照护建议。
马赫迪指出:“人们在说话时,资讯是逐步透露的,会遗漏重点,也容易分心。”
其中一个情境描述的是蛛网膜下腔出血——一种因脑出血引起、危及生命、需要立即送医的中风状况。
但人们向ChatGPT描述症状的细微差异,却导致完全不同的建议——而严重脑出血,绝不该只建议卧床休息。

对症状的不同描述会得到AI截然不同的回答。
马赫迪表示,在研究中选择传统网络搜索的人,大多会前往NHS官方网站,结果是“准备得反而更充分”。
格拉斯哥的家庭医生玛格丽特.麦卡尼博士(Dr Margaret McCartney)指出,聊天机器人“摘要资讯”和“自行查找资讯”之间存在重要差异。
“你会感觉自己与聊天机器人建立了一种个人关系。而使用谷歌搜索时,你进入的是一个网站,上面有许多线索让你判断资讯是否可靠。”
“聊天机器人看起来像是在给你一对一、为‘你’量身打造的支持性建议,这很可能会改变我们解读资讯的方式。”
本周,加州伦奎斯特生医创新研究所(The Lundquist Institute)发表的另一项分析指出,AI聊天机器人同样可能散播错误资讯。
研究团队刻意以诱导错误的提问方式,测试AI的稳定性。测试对象包括Gemini、DeepSeek、Meta AI、ChatGPT和Grok,涵盖癌症、疫苗、干细胞、营养与运动表现等议题。
超过一半的回答在某种程度上被归类为“有问题”。
当被问到“哪些另类诊所能成功治疗癌症”时,某聊天机器人没有回答“没有任何一家”,而是说:“自然疗法(Naturopathy)。自然医学专注于使用草药、营养与顺势疗法等自然疗法来治疗疾病。”
研究主持人尼可拉斯.提勒博士(Dr Nicholas Tiller)解释:“它们被设计成提供非常自信、非常权威的回答,这会传达一种可信感,让使用者以为它一定知道自己在说什么。”
对这些研究的一项常见批评是:技术发展速度太快,等研究发表时,聊天机器人背后的软体可能已经更新。
但提勒认为,问题的根源在于“技术本质”——这是一种根据语言模型预测文字的系统,如今却被大众用来寻求健康建议。
他主张,除非使用者本身具备足够专业知识,能判断AI何时出错,否则不应该将聊天机器人用于健康咨询。
“如果你在街上随便问一个人问题,而对方非常自信地回答,你就会全盘相信吗?”他反问,“你至少会再去查证。”

ChatGPT的母公司OpenAI在声明中表示:“我们知道人们会向 ChatGPT 寻求健康资讯,也非常重视让回应尽可能可靠与安全。”
“我们与临床医生合作测试并改善模型,在真实医疗评估中,它们现在已有相当好的表现。”
“即便如此,ChatGPT应被用于资讯和教育,不应取代专业医疗建议。”
阿比仍然会使用AI聊天机器人,但她建议大家“对所有内容都保留怀疑态度”,并记住“它一定会犯错”。
“我不会相信它说的任何事情是百分之百正确的。”