李国杰：生物医学大数据时代呼唤计算机结构师—新闻

作者：李国杰来源：科学网 www.sciencenet.cn 发布时间：2020/1/19 13:07:45

选择字号：小中大

李国杰：生物医学大数据时代呼唤计算机结构师

中国工程院院士李国杰

生物医学数据已经从PB量级的基因组测序时代进入到多组学融合的EB量级大数据时代。但是，由于生物医学数据种类繁多、数据分散、内部结构高维复杂，大数据分析比其他领域更困难。目前生物医学领域虽然数据量增长迅速，但成效并不十分明显。

大数据与人工智能是一个硬币的两面，只有充分发挥机器学习技术的巨大潜力，才能从EB级的数据中获得有价值的知识。生物医学领域如果仍停留在采用字符串比对、搜索等传统的计算机技术，就难以挖掘生物医学大数据的潜在高价值。但要让机器学习在生物医学领域发挥更大的作用，需要在基础研究方面下更大的功夫。

为机器学习奠定理论基础的是图灵奖得主Valiant，他提出的可能近似正确学习模型(PAC)指出，机器学习只能在一定的误差范围内以某种概率保证学习结果正确。因此，不同的领域机器学习的成效取决于该领域对学习误差和泛化成功率的容忍度。

众所周知，医疗领域与人的生命攸关，对医疗判断失误的容忍度很低，这就需要更高超的机器学习技术。有人戏谑目前信息领域的形势是，软件在吞噬世界，人工智能在吞噬软件，深度学习在吞噬人工智能，GPU在吞噬深度学习。研究制造更高性能的GPU或类似的硬件加速器似乎成了对付大数据的主要出路。但是如果不清楚该在什么地方加速，只盲目依靠硬件的蛮力是不明智的。

在30年前上一波人工智能的高潮中，我和华云生教授在一篇综述文章“A Survey on the Design of Multiprocessing Systems for Artificial Intelligence Applications”中指出：“设计智能系统的关键在于对要求解的问题的理解，而不是高效的软件和硬件。利用基于常识、高层的元知识、更好的知识表示获得的启发式信息比改善计算机结构可以获得更大的性能提高。是否用硬件实现一个给定的算法取决于问题的复杂性和该问题出现的频率。计算机结构师的角色是选择好的知识表示、识别开销密集型任务、学习元知识、确定基本操作，用软硬件支持这些任务”，这些观点可能现在还没有过时。

相关专题：生物医学大数据之困

编辑部推荐博文
基金申请季，这里有2份攻略请查收！科学网2026年1月十佳博文榜单公布！温敏性结晶和刻蚀碳布电极构筑高性能液态铜基热电池诺奖得失：戈登与童第周的科学分流史你能“设计”一场梦吗？神经科学家：可以十二生肖和植物：与马有关联的植物拾遗！更多>>