【综述文章】大数据点亮生命“美好时代”—新闻

作者：张思玮来源：科学网 www.sciencenet.cn 发布时间：2020/1/19 14:05:06

选择字号：小中大

【综述文章】大数据点亮生命“美好时代”

2019年对于吴双（化名）而言是最难熬的一年。年初，本以为是一场普通感冒引起的咳嗽，却未曾料想到在3个月后，竟被诊断为中央型肺腺癌第四期，纵隔淋巴转移，伴远端肾上腺转移。

“拿到诊断报告的那一刻，我没有掉一滴眼泪。”说这句话的时候，吴双转头看向窗外，故意将视线避开了记者的目光，但眼角却渗透出晶莹的泪水。

吴双，41岁，是一位都市职业女性。她告诉《科学新闻》，患病后，她和家人跑遍了北京多家知名的三甲医院，尝试过靶向药物、化疗、中药等办法，但病情都没有得到缓解。“我还特地花了一万多块钱做了肿瘤基因检测，很遗憾，报告显示是没有可用药的基因突变。”

没有相应的“可用药”，又不能通过手术和放疗进行积极干预，这在临床上就意味着只能“盲”用药，即只能尝试使用临床上常用的一些药物进行治疗，再定期评价治疗效果。但通常盲用药物治疗的效果只能“听天由命”，而在医院，像吴双这样的患者是大多数。

“即便能检测到相应的基因突变，靶向药物对不同患者的疗效也并不相同。”中国工程院院士、中国医学科学院肿瘤医院主任医师孙燕表示，肿瘤的发生是多基因联合“发力”的结果，虽然通过基因检测等手段可以得到海量的数据，但现有的认识仍集中在个别基因与治疗肿瘤的关系，比如携带了致病性突变的BRCA1/2基因与乳腺癌、卵巢癌的关系，突变的EGFR基因与肺癌的关系等。“但是否还会有其他基因的参与，每个基因发挥的作用如何，我们不得而知。”

其实，孙燕的这种困惑，也正是目前肿瘤领域最让人“头疼”的难题。对此，中国科学院计算技术研究所高性能计算机研究中心主任谭光明在接受《科学新闻》采访时表示，当前，生物医学大数据的规模和产生速度远远超出了普通规模计算机的处理能力，亟需超算助力科学家从多维、立体、融合的数据中摸索出规律，从而更精确地辅助疾病的诊断和治疗。

大数据是基础战略资源

事实上，自人类基因组计划启动以来，以下一代测序技术（NGS）和质谱技术（MS）为代表的各类组学技术得到了飞速发展，再加上传统的显微镜技术、生化方法、免疫组织化学方法、生理体征检测和临床影像拍摄技术等数据源的聚集，使得海量生物医学数据正呈现指数级增长态势。

“这些生物医学大数据是国家基础战略资源也是重要资产。”中国医学科学院医学信息研究所副所长钱庆告诉《科学新闻》，生物医学大数据主要包含以下特征：一是数量大、复杂性高。例如，目前单个样本的人类基因组和转录组测序数据量分别超过了100GB和30GB。二是内容与类型丰富。不仅包括临床数据、生物组学数据，还包括医药研发与管理数据、医疗保险数据、行为与情绪数据等。三是存储分散。医学数据与信息往往存储在不同机构所创建的数据库中，具有异地、异构的特点。四是时效性强。比如医学检测时间、影像数据的时间函数、医学文献的半衰期等，均是反映相关数据时效特征的重要指标。五是私密性。生物医学数据不可避免地会涉及有关病人的姓名、年龄、病情等隐私内容。

也就是说，国家级样本库与数据中心应当承担起大数据基础建设的重要任务，建立百万级中国人群基础表型的基因组多样性数据，作为临床基因组学研究的基线。因此，对样本和数据的管理、生产、调度、处理、使用都需要相关部门的投入和规划，以保证数据的质量控制、使用效率和安全性。从长远来看，这也为未来临床研究提供了标准和对照数据，不仅能大大节省研究经费，同时也能提高研究质量。也就是说，工业化的获取、生产与管理，才能保证生物医学大数据能够作为国家基础战略资源。

生物医学大数据已经赋能临床

不可否认，即便尚未引入信息科学的大型工具，这些大数据也赋予了医生和临床科研人员更多、更细致的维度去了解疾病发生发展过程，大大拓展了医学研究的深度和广度。

截至2014年3月，美国人类基因组研究中心（NHGRI）基因组测序和全基因组关联性分析（GWAS）目录有3961条人类疾病相关的单核苷酸多态性（SNP）信息记录在案，涉及571种疾病。而到2016年9月，NHGRI-GWAS目录中的疾病相关SNP信息已经增长至24218条。

“可以说，目前对一些明确的、单基因突变引起的疾病，基因组测序已经能实现精准诊断，帮助临床更好地区分不同疾病、施以更恰当治疗。”北京大学第三医院病理科分子病理实验室武睿博士向《科学新闻》表示，21-三体综合征、新生儿遗传耳聋基因筛查等都是测序技术在临床的良好应用。

“我们还可以通过与检测药物浓度高低、效应强弱有关的药物代谢酶、转运体和受体的突变基因，调整给药剂量或治疗方案。”山东大学齐鲁医院临床药理研究所教授郭瑞臣在接受《科学新闻》采访时说。

此外，生物医学大数据目前也在肿瘤精准诊疗、优生优育、病原微生物检测、疾病易感人群预防等方面发挥着作用。

亟需从数据中挖掘规律

“但是，对于复杂的、多基因改变引起的疾病，我们尚不能有效地解读患者的生命数据信息，更谈不上对这些疾病进行精准诊断、个体化治疗和疗效检测。”武睿表示，除部分服从于孟德尔遗传定律的单基因遗传病外，多数疾病的发病往往涉及多重的分子生物学机制，并同时受到环境或个体行为等外部因素的影响。

以癌症患者为例，绝大多数突变都具有“个体特异性”，除了个别基因（例如EGFR等），同一个基因内，在不同患者中能找到相同突变的可能性微乎其微。不过，若从数据呈现的网络调控模型来看，特定信号通路上的关键节点基因，尽管发生了不同突变，但驱动的下游细胞内事件可能是相同的。

而现在生物医学专家习惯性地将基因组数据与已有的知识体系进行“查对”（俗称“查字典”），虽然这种方式在一定程度上解决了相应问题，但是并没有将多维数据进行系统整合与分析，自然也无法从数据里挖掘出更底层的知识和规律。

“这就需要我们有将生物学、医学相关学科的知识转化为数学模型的能力。”中国科学院计算技术研究所副研究员、中国科学院计算机研究所西部高等技术研究院常务副院长张春明向《科学新闻》表示，应充分利用现有的生物医学数据，引入系统科学理论和视角，通过设计新的算法挖掘数据之间的相关关系，为解决现有的问题寻找新的路径。最终，以生物医学大数据推动生物医学研究由原来的假设驱动向数据驱动的方式转变。

这也是全球范围内亟待解决的难题。

“毕竟，由于科学研究越来越专业化，学科门槛也越来越高，因此各个学科之间的壁垒事实上是越来越森严，并且现有的科研评价体系也不利于开展交叉研究。”华中科技大学生命科学与技术学院教授薛宇对《科学新闻》直言，目前我们对生物医学大数据的应用还处于非常初级的阶段。

高质量数据才能成就“算法”

不过，要想从纷繁复杂的数据中摸索出规律，并非易事。数据质量首当其冲。遗憾的是，我国生物医学大数据的现状并不乐观。数据的存储分散、碎片化，标准多样化，数据库建设低水平重复，数据质量参差不齐、汇交共享机制不完善等问题，使得各种数据很难有效融合。

“并且，不同检测机构从业人员的专业，仪器型号和配置、质控体系的设置等都会影响数据的质量及可比性。”神州医疗高级副总裁、SNOMED International全球管理委员会董事弓孟春接受《科学新闻》采访时表示，国内外现行的检测平台缺乏相互质控验证，参比文库不完整，测序技术缺乏测序分析准确性的统一标准，这就很难准确地建立基因数据与临床信息相对应的数据库。

这一点也得到零氪科技首席数据科学家阮耀平的认同。他告诉《科学新闻》，目前，每家基因检测公司虽各有特色，但参考的基因组数据库和医学数据库主要来自国外，并且测序方法与解读标准都不一样，这势必会影响结果的可靠性与可通用性。

采访中，多位受访专家也向记者表示，数据安全性更是他们关心的话题。

“生物医学大数据蕴含了极其丰富的信息和知识，是关乎国家持续发展、人类生存与健康的重要战略资源。”中南大学计算机学院院长王建新表示，使用生物医学大数据一定要保护个体的隐私，对数据进行清洗。

但同时，王建新也强调，不要因为安全问题而把数据锁死，而应加大基因组数据加密和共享技术的开发力度，以便在保证研究协同的情况下，避免患者隐私的泄露。

“我国也在逐步完善各方面的体系和机制建设，但还需加快法律法规的建设脚步。”钱庆建议还要健全伦理监管和审查机制，切实做到事前审批、事中监督和事后跟踪，规范生物医学研究和应用活动，从而推动科学技术的良性发展。

此外，数据的规范采集和标准化也是掣肘数据融合的关键因素。

“只有在不同信息系统之间的互操作性得以保证，信息共享才具有实际意义。而要实现互操作性就需要对数据结构、文件格式、传输标准、接口协议及语义控制等进行统一。”弓孟春表示，如果没有统一，谈生物医学数据的共享及利用，则纯属“空中楼阁”。

这一点，钱庆也非常赞同。他表示，生物医学大数据的应用发展，标准是前提，质量是保障。“我们有必要引入适宜的国际标准，并结合我国具体情况进行改进和优化以实现标准的本地化。在政策部门的牵头下，推动建设一批国家标准、行业标准与团体标准，并配有相应的执行与监督管理。”

弓孟春提醒，让数据大规模脱离产生这些数据并负有监管责任的医疗机构显然是有巨大风险的。“但现有的医学信息学技术体系可以保证在每家医疗机构的内部对数据进行治理，而各家机构甚至各个国家之间执行通用的数据模型、语义控制及质量控制标准，这将进一步支持真实世界研究，为临床诊疗及政策决策提供真实世界证据。”

从假设驱动到数据驱动离不开“算力”

那么，即便有了高质量的生物医学大数据，有了相应的算法，就一定能摸索出疾病的发生发展规律么？

谭光明给出的答案是否定的。他表示，光有数据和算法还远远不够，必须要有强有力的算力支持。他举例到，过去单一零散的数据，只需要在普通服务器上用简单程序处理和统计就可以；现在是多维海量的大数据，为了解决复杂生物医学问题，要用多维海量的PB级（1PB=10⁶GB）大数据对生命进行建模，那就要设计复杂的算法，而算法的复杂度和计算量远远超过了普通服务器所能处理的规模，亟需高性能的算力资源支撑。

采访中，记者了解到，中国科学院计算技术研究所高性能计算机研究中心（原国家智能计算机研究开发中心）一直以来都将生命科学数据处理作为研制高性能计算机的关键应用牵引之一。

“大数据的核心是利用数据的价值，而机器学习是利用数据价值的关键技术，对于大数据而言，机器学习是不可或缺的。相反，对于机器学习而言，数据越多越可能提升模型的精确性。”中国科学院院士、中国科学院合成生物学重点实验室主任赵国屏说。

这在谭光明看来，势必会产生一门新型交叉学科——计算医学。“它致力于发展定量方法，通过应用数学、工程学和计算科学来智能化理解人类疾病的机理，并基于工业化的数据、算法、算力及生物医学技术体系为医学服务提供新洞见。”

文章开头提到的吴双，最后选择借助中国科学院计算技术研究所—哲源图灵达尔文实验室的数据分析方法，该分析结果建议医生采用一种可能的治疗方案。目前，经过这一方案的治疗，吴双体内已经没有影像可见的肿瘤，血液肿瘤指标也回落至正常水平，生活逐步恢复平静。

“未来，在计算医学的引领下，临床医务工作者除了精确引导治疗方案的实施，更要集中力量在全程临床管理上，包括个性化药物副作用管理、术后管理、康复方案管理、突发事件管理、预后管理、随访、准确定义个体化康复指标等。”图灵达尔文实验室主任牛钢表示，未来谁能处理大数据，谁就能在临床医学的发展方向上“扛大旗”。