英国科学家研究发现,大语言模型(LLM)或许不能协助公众做出更好的日常健康决策。研究者表示,这类工具的未来设计需要更好地支持真实用户,才能安全用于向公共提供医学建议。相关研究2月10日发表于《自然-医学》。
全球医疗机构提议将LLM作为提升公众获取医疗信息的潜在工具,让个人在向医生求助前进行初步健康评估和疾病管理。但之前的研究显示,控制场景下在医师资格考试中得分很高的 LLM并不保证能有效完成真实世界的交互。
英国牛津大学互联网研究所的Adam Mahdi、Adam Bean和同事测试了LLM是否能协助公众精准辨别医疗病症——如普通感冒、贫血或胆结石——并选择一种行动方案,如呼叫救护车或联系全科医生。他们给1298名英国受试者每人指派了10种不同的医疗情景,并让他们随机使用三个LLM(GPT-4o、Llama3或CommandR+)中的一个,或使用他们的常用资源(对照组),如互联网搜索引擎。
不用人类受试者进行测试时,LLM能准确完成这些情景,平均能在94.9%的情况下正确辨别疾病,在56.3%的情况下选择正确的行动方案。不过,当受试者使用相同的LLM时,相关病症的识别率低于34.5%,选择正确行动方案的情况低于44.2%——该结果未超过对照组。研究者通过人工检查了其中30种情况的人类-LLM交互,发现受试者常向模型提供不完整或不准确的信息,并且LLM有时也会生成误导性或错误的信息。
研究者总结道,当前的LLM未准备好部署用于直接的患者医疗,因为将LLM与人类用户配对会产生现有基准测试和模拟交互无法预测到的问题。
相关论文信息:
https://doi.org/10.1038/s41591-025-04074-y
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。