医疗AI：管好才能用好—新闻

作者：任芳言来源：中国科学报发布时间：2019/3/29 9:04:05

选择字号：小中大

用户磨合、审批门槛、算法迭代……

医疗AI：管好才能用好

图片来源：NUANCE

■本报见习记者任芳言

各国布局医疗人工智能（AI）的脚步越来越快。除了批准世界首例AI医疗设备外，美国食品药品监督管理局还在2018年批准了首个使用电子健康记录数据的AI算法产品，该产品集成了实时生命体征数据，可识别体征不稳定的住院患者。

截至2018年11月，我国国家药品监督管理局收到创新医疗器械审批申请1054项，51项创新医疗器械已通过特别程序获准上市。医疗AI器械审批通道也于同年12月开放。

基于新一代算法的医疗AI愈发强大，能做的事也越来越多。但业内人士也有了一个不得不面对的问题：对此类设备的监管。而这既要从算法设计者角度入手，也应考虑临床医生的使用需求。

技术与用户相互磨合

今年2月，美国宾夕法尼亚大学肿瘤学研究员Ravi B.Parikh与合作者在《科学》杂志上刊文，指出新一代AI医疗产品的监管标准似乎略显宽松。

Parikh在文章中提到，早先较为初级的算法大多基于固定的规则和模型，对变量数有限制。相应的医疗产品也仅限于肺栓塞识别等场景较为局限的临床诊断。

但在过去几年中，基于AI的现代算法可容纳的变量数激增。跟一般的静态设备或者药品不同，算法可以随着变量和数据而变化，预测结果也会随着时间的推移而改变。相应的，这为设定监管其安全性和稳定性的标准增加了难度。

如果说AI需要大量的训练，那么在临床使用时，医生或许是AI最好的训练者。然而一名临床经验丰富的医生，未见得能理解新一代AI算法详细的运行过程，也无法用传统临床试验的评估标准做检验。

如此一来，基于新一代算法的AI能否明显改善患者护理效果，也需要更确凿的证据。

北京大学医学院教授王月丹对《中国科学报》表示，目前基于图像识别的AI在国内外相对更常见，对CT图像的诊断准确率甚至高于人工。但AI医疗设备的定位仍需明确。

“如果是辅助医生做出诊断，那么临床医生对其基本原理及使用规则应有基本了解。在后续培养医生的过程中，也要有相应的训练。”王月丹表示。

另外，王月丹指出，医学研究不断会有新的发现和认知，对迅速迭代的AI算法来说，也有可能遇到类似情况。“谁有权力修正和评定这些标准，也是需要考虑的问题。”

高标准审批门槛

目前在国内，含有AI算法的医疗器械可分为两类。使用传统AI算法的如肺结节、乳腺癌等辅助识别软件，仅提供辅助诊断功能，属于第二类医疗器械，目前已有产品注册上市。

而基于新一代AI技术的医疗器械产品，如病理图像识别、利用眼底照片筛查糖尿病性视网膜病变等疾病，能给出较明确的诊断提示的，划为第三类医疗器械。

2018年12月，国家药监局开放了AI医疗器械申报审批通道，依照软件类型或用途划分具体种类。目前还未有相关产品正式通过审批上市。

除了算法上的差异，二类和三类医疗器械的盈利模式也不相同。医疗AI产品作为医用软件单次出售，还是作为检查设备按次收费、分成，对开发者来说，显然获得第三类医疗器械审批许可，商业前景更为广阔。

比如眼底疾病筛查，国内糖尿病患者数量过亿，糖尿病性视网膜病变筛查工作量大、需求多，需要利用技术手段为眼科医生及三甲医院分流。目前国内已有通过AI设备辅助医生进行筛查的先例，且应用前景良好。

依未科技CEO柯鑫告诉《中国科学报》，针对医疗AI产品设立严格的审批流程是一件好事。“这拉高了行业准入标准，对行业发展也有好处。”

“AI产品的标准由人设定，其中既有医生，也有相关的技术专家。”柯鑫指出，缺乏交叉性的专业人才，是当前医疗AI领域存在的问题之一。医疗AI产品若想扩大影响力，还须开发者本身有过硬的医疗知识储备。

柯鑫还提到，目前的医疗AI产品大多起辅助作用而非完全替代医生。而检测产品可靠性的手段之一是“向医生看齐”——将诊断结果与医生的诊断标准相比较。

以该公司旗下的眼底筛查产品为例，在阅片平台上，有问题的眼底图像会传送到医生手中进行辨别。除了医院外，面对体检中心、社区等应用场景，业内专家的评价结果是推广产品时重要的认证手段。

算法迭代

按目前国内对于医疗AI器械的审批流程，临床试验设计应考虑到产品预期用途、使用场景和核心功能。

而为鼓励创新并降低临床试验成本，临床试验可使用回顾性数据。对于中风险等级软件，可采用临床预试验或替代临床试验；高风险等级的软件，可采取临床预试验或临床试验补充。

在软件更新方面，审批内容包括重大软件更新和轻微软件更新。前者涵盖算法和数据驱动型软件更新，须进行许可事项变更，开展算法性能再评估和临床再评价。

针对算法的评估，Parikh等人也提到，如果是基于临床医生主观数据的预测算法，主观数据对某一类患者产生的偏见也可能被纳入运行标准。因此除了疗效指标，对AI算法的评估还应考虑是否会对这些偏差进行有效干预。

此外，只有提供适当的数据训练算法，才有可能更准确地掌握其性能。

比如一种可以识别败血症的AI算法反应速度比医生还快，但医生识别出相应症状后会作出让患者服用抗生素的决定，要完成上述动作，就需要进一步迭代算法，相应的训练数据也会发生变化。

因此，Parikh等人指出，训练和评估算法不仅应根据临床医生的最佳判断，还应在多种环境下进行测试。在评估标准中，除了临床医生和AI的单独表现外，或许还应加设一类，即将二者结合起来。这也凸显了医疗AI与临床医生之间相辅相成的关系。

此外，Parikh等人还提到，随着申报审批的AI设备增多，监管机构需要在透明度和知识产权间权衡。这就像新药研发与新药审批，通常会找到一个适当的平衡点。

《中国科学报》 (2019-03-29 第3版国际)

以下评论只代表网友个人观点，不代表科学网观点。

编辑部推荐博文
基金申请最后一周！短时间还能做哪些提升？科学网2026年2月十佳博文榜单公布！寻觅大树杜鹃王（下）——我的寻觅之旅区分梅花、樱花、桃花、李花、梨花、杏花等一项简单的力量测试，可预测60岁后的寿命杂说蔬菜（3）青菜更多>>