作者:文乐乐 来源: 中国科学报 发布时间:2026-4-16
选择字号:
多个AI疾病预测模型竟由可疑数据训练而成

 

图片来源:Marko Nikolic/Alamy

本报讯 一项近日公布于预印本服务器medRxiv的研究显示,一些可疑的数据集正被用于训练那些预测人们患病风险的人工智能(AI)模型,其中一些模型已投入临床应用。

据《自然》报道,澳大利亚昆士兰科技大学的Adrian Barnett团队发现了124篇经过同行评审的论文,这些论文均报告使用两个开放获取健康数据集中的一个来训练机器学习模型,但关于这些数据的来源却几乎没有提供。

相关分析揭示了许多不可能来自真人数据的异常之处,这让Barnett团队怀疑,这些数据可能是伪造的。

“基于不明来源数据的预测模型,在临床决策中毫无价值,它们本质上是不可靠的。”澳大利亚乔治全球健康研究院的Soumyadeep Bhaumik表示,如果这些工具未使用真实世界的数据,则很可能做出错误的预测,导致临床医生做出不当的决策,例如开出不必要的治疗处方,或在需要时不开处方。

目前至少有两个模型已在印度尼西亚和西班牙的医院使用,其中一个还出现在2024年提交的一份医疗器械专利申请中。还有两个模型是公开的网络工具,允许人们通过上传个人信息来评估自身的风险等级。

Bhaumik表示,研究机构和资助方必须要求研究人员披露用于训练医疗应用AI模型的数据来源,期刊也应拒收未披露数据来源的论文。Barnett提醒,研究中标记的问题数据集应立即“删除”,以防被后续研究使用。

这项研究调查的两个数据集均来自Kaggle—— 一个供开发者获取数据集以构建机器学习模型的平台。

第一个数据集名为“中风预测数据集”,上传说明为“用于预测中风事件的11项临床特征”,包含了5110人的健康信息,涉及心脏病史、婚姻状况、平均血糖水平和身体质量指数(BMI)等风险因素数据。

然而,当将平均血糖水平与参与者标识进行对比后,研究人员发现了多处异常。Barnett指出,其中一处异常是数据缺失极少,这与真实数据形成了鲜明对比。真实数据通常存在缺失,因为部分参与者会错过随访、退出研究或去世。“在现实世界中收集的任何数据集都不可能是完整无缺的。”

共有104篇研究论文使用该数据集构建中风预测模型,其中包括一个被印度尼西亚一家医院采用的模型,以及一个在少数人身上进行了测试的模型。该中风数据集由西班牙数据科学家Federico Soriano Palacios上传,下载量已超过28.8万次。

第二个数据集名为“糖尿病预测数据集”,是“一个利用医疗和人口统计数据预测糖尿病的综合数据集”,包含了10万人的信息,涵盖BMI、吸烟史、血糖水平等。但Barnett团队发现,所有参与者的数据中只有18个离散的血糖值。鉴于人群存在巨大差异,这种情况是不可能的。该团队还发现了数千个似乎重复的数值。

共有21项研究使用该数据集构建了糖尿病预测模型,但截至目前,这些模型均未应用于临床。值得一提的是,有一项研究同时使用了上述两个数据集。

该糖尿病数据集由印度数据工程师Mohammed Mustafa上传。Palacios和Mustafa迄今仍未对数据来源作出回应,Kaggle也拒绝就该平台是否会对这些数据集进行调查或采取相关措施发表评论。

《科学报告》主编Rafal Marszalek表示,他的团队正在审查Barnett团队标记的5篇论文,并将在适当情况下采取相应措施。自3月31日以来,该期刊已撤回了其中3篇论文,并指出“这些研究使用的数据来源和有效性存疑”。

(文乐乐)

相关论文信息:

https://doi.org/10.64898/2026.02.24.26347028

《中国科学报》 (2026-04-16 第2版 国际)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
金刚石/铜散热模组在国家超算平台部署 《科学》(20260409出版)一周论文导读
科学网2026年3月十佳博文榜单公布 “植物国宝”大黄花虾脊兰野生种群被发现
>>更多
 
一周新闻排行
 
编辑部推荐博文