全球首个基于全国家健康记录训练的生成式人工智能(AI)模型正式亮相。这款名为 “前瞻”的模型能够预测住院风险、心脏病发作及数百种其他疾病,研究人员利用英格兰国民医疗服务体系(NHS)5700万患者的去标识化数据对其进行了训练。
患者的医疗记录是AI模型的重要数据来源。图片来源:Christopher Furlong/Getty
?
目前,“前瞻” 仅可用于与新冠病毒相关的研究,且必须在 NHS 运营的安全 “数据环境” 中运行。在5月6日的新闻发布会上,英国剑桥大学健康数据科学家Angela Wood表示,这是首次在5700万人的健康研究中使用AI模型,是真正的突破性进展。
“如果该AI的预测在不同人群中被证明具有价值,,它最终可能指导个体患者的诊疗,并帮助分配 NHS 资源。”她补充道。
随着AI通过疾病诊断和其他医疗任务逐渐融入医学研究,在部分任务上的表现甚至超越人类,此类技术发展正成为趋势。
“前瞻”的早期版本曾基于伦敦约150万人的健康记录进行训练,并测试其根据患者病史预测未来诊断的能力。在一项研究中,该模型大多数情况下做出了正确的判断。
该模型整合了多个数据源,包括医院记录、疫苗接种记录、全科医生就诊记录以及英国国家死亡登记系统。最新版本的数据覆盖2018年至2023年,总计约100亿条医疗事件。
这些数据已去除了患者姓名、地址和出生日期等标识信息。作为额外保护措施,NHS英格兰数据访问主管Michael Chapman在发布会上表示,该模型只能在NHS计算机系统上运行,且任何由其生成的研究预测在发布前都将接受筛查。
然而,英国牛津大学数据隐私研究员Luc Rocher在向组织发布会的英国科学媒体中心发表的声明中指出,完全杜绝从模型中提取患者隐私数据可能极具挑战。他表示:“数据的丰富性使其对AI有价值,但也让匿名化难上加难。这些模型应始终处于 NHS 的严格控制下,以确保安全使用。”
目前,“前瞻”仅限于用于约100个与新冠疫情相关的现有项目,这些项目由英国心脏基金会和NHS英格兰合作开展,旨在研究疫情对医疗预约取消和其他中断的影响。Chapman表示,任何超出这一范围的研究使用均需额外审批。
研究人员还将测试“前瞻”在给定2018-2022年病史的情况下,能否准确预测患者在2023年将发展的约1000种疾病中的哪一种。英国伦敦大学学院健康数据科学家Chris Tomlinson在发布会上表示:“这使我们能够尽可能接近‘真实情况’。”
“NHS数据在训练此类生成式健康模型方面提供的潜力令人兴奋。”德国癌症研究中心的健康数据科学家Moritz Gerstung认为,NHS数据的庞大规模将提升医疗AI的准确性,使其更能预测罕见疾病或解读非典型病史。目前,他已申请权限,计划在NHS数据上训练其团队开发的名为Delphi的模型。
论文相关信息:https://doi.org/10.1038/d41586-025-01422-3
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。