近日,《医疗场景下大模型应用效果回顾性评测专家共识(2025版)》(以下简称共识)中英文版本在《数字医学与健康》与《智慧医学(英文)》发布。
据悉,该共识由国家新闻出版署医学期刊知识挖掘与服务重点实验室牵头,联合《数字医学与健康》编辑委员会、《智慧医学(英文)》编辑委员会、中华医学会杂志社指南与标准研究中心、医疗人工智能研究及应用安徽省重点实验室共同制定,汇聚了医学、人工智能、伦理、法学、统计学等多领域专家力量,全面构建了我国医疗大模型回顾性评测的系统化技术框架。共识面向大语言模型在医疗场景实际落地前的评估需求,旨在为模型评测机构、研发机构和临床应用方提供统一、规范、可复用的技术指南,推动人工智能在医疗行业的高质量发展。
共识在制订过程中严格遵循《世界卫生组织指南制订手册》《中国制订/修订临床诊疗指南的指导原则(2022版)》等标准方法学要求,并在国际实践指南注册平台PREPARE完成注册(编号 PREPARE-2025CN503),实现了制订流程的科学化、透明化与规范化。来自全国三甲医院、科研机构与人工智能企业的数十位专家参与了问题遴选、证据评估、推荐意见制订和Delphi共识投票,全程经由专家委员会与指导委员会多轮论证,最终形成6条核心推荐意见,均获得超过80%的专家同意并达成共识。
共识从评测流程、指标体系、团队建设、数据集设计、反馈更新机制和报告规范等方面构建了完整评测框架。其中,评测流程强调科学客观、真实全面与伦理合规;指标体系涵盖结构化与生成式任务的定量与定性评估;团队建设强调医学专家、工程技术人员、伦理与法律专家的协同;数据集构建突出临床真实性、全面代表性、公正性及动态扩展能力;反馈与更新机制确保评测体系的长期迭代;报告模板则规范评测结果披露与版本管理。
值得关注的是,基于国家卫生健康委办公厅、国家中医药局综合司、国家疾控局综合司联合发布的《卫生健康行业人工智能应用场景参考指引》,共识明确提出医疗大模型评测的六大核心能力维度,包括医疗知识问答、医疗复杂语言理解、医疗诊断与治疗推荐、医疗专业文书生成、医疗多轮对话以及医疗多模态交互,从而为不同类型模型的评测提供了清晰的应用场景定位和指标选择依据。同时,共识围绕患者隐私保护、数据脱敏、算法公平性、输出安全性等关键问题提出严格要求,有助于推动医疗人工智能安全、可控、可解释的发展路径。
据悉,未来该项工作将继续推动前瞻性研究、真实世界验证与动态评测机制的深化,持续完善评测标准体系,共同促进人工智能在医疗健康领域的安全应用和高质量发展。
相关论文信息:
https://doi.org/10.3760/cma.j.cn101909-20250924-00177
https://doi.org/10.1016/j.imed.2025.09.001
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。