在百P超算实现之后,E级超算将成为世界各国争夺的“下一顶皇冠”。图片来源:百度图片
人类对宇宙探索的好奇心以及对问题规模和精度的追求,决定了人们对超级计算能力的需求“不会止步”。在百P超算实现之后,E级超算,也就是百亿亿次超级计算机,将成为世界各国争夺的“下一顶皇冠”。
■本报记者 赵广立
“新科”全球最快超级计算机“神威·太湖之光”亮相之后,全世界为之一震。“全球第一快”有多快?国家超级计算无锡中心主任杨广文打了一个比方:“神威·太湖之光”1分钟的计算能力,相当于全球72亿人同时用计算器不间断计算32年。
这个速度就是93PFlops,浮点运算速度每秒9.3亿亿次——人类历史上第一次,将高性能计算机的运转速度记录接近至每秒十亿亿次这个数量级。
然而,人类对超级计算机性能的追求没有止境。“超算性能每提高1个数量级,人类对它们的需求可能提高1000倍,也就是3个数量级。”中科院计算所研究员、中国计算机学会高性能计算专委会秘书长张云泉在接受《中国科学报》记者采访时说,人类对宇宙探索的好奇心以及对问题规模和精度的追求,决定了人们对超级计算能力的需求“不会止步”。
“在百P超算实现之后,E级超算将成为世界各国争夺的‘下一顶皇冠’,也就是百亿亿次超级计算机。”张云泉对记者说。
预计2020年左右实现
超算水平是一个国家综合国力和科技创新能力的重要标志,各国对E级超算的争夺,无不掺杂着国家战略的意味。
自“天河二号”于2013年11月正式登顶当时的超算TOP500榜首之后,美国这个头号超算强国已连续3年未曾染指这一宝座。然而,种种迹象表明,美国从未在“最快超算梯队”上掉队。
全球超算TOP500排行榜发起人、橡树岭国家实验室及田纳西大学教授杰克·唐加拉(Jack Dongarra)在接受《中国科学报》记者邮件采访中说道,美国能源部通过国家战略计算计划(NSCI)以及与产业界和学术界的合作,正在推行能进行百亿亿次计算系统的开发。“该系统集成了硬件和软件能力,在一系列代表政府需求的应用中的表现将是目前10千万亿次系统的100倍。”
记者了解到,欧洲、日本也制定了自己的E级超算研发计划,并将相应计划的完成时间表设定在了2020年。
张云泉透露,中国也将百亿亿次超级计算机及相关技术的研究写入了国家“十三五”规划,同时也希望在2020年左右实现这一宏伟研究计划。出人意料的,在几个制定了相关计划的国家中,只有美国相对“悲观”,他们预计百亿亿次超级计算机的建成或许需要到2022年。
业内人士认为,美国此举或许并非故弄玄虚,因为随着高性能计算机运算规模的增加,建造它的难度可能将是几何级数的提升。
E级超算的挑战
张云泉告诉记者,百亿亿次超级计算机的建造难度并不仅仅在于速度的提升,更在于对大规模超算设备的功耗要求。按照由美国倡导的国际公认标准,E级超算的功耗应低于20MW。按照这一功耗目标要求,未来的E级超级计算机的能效比要达到50 GFlops/W。
这在张云泉看来,是一堵难以逾越的高墙,毕竟排在Green500第三位、创造了大规模高性能计算机效能比的最好成绩的“神威·太湖之光”每瓦性能只有6 GFlops,仍相差一个数量级。
“功耗墙很难逾越,是各国都在面临的难题。”张云泉对记者说:“现在大家希望采用异构加速或异构综合的方式来降低功耗的要求,但由此带来的是编程的困难。因此,可以说研发E级超算实际上面临着编程墙、功耗墙、可靠性墙和存储墙几个‘大墙’的围堵,如何越过这几堵墙,面临很大的挑战。”
在被问及这一问题时,杰克·唐加拉给记者列出了一份“没有特定顺序”的百亿亿次计算实现之前的“TOP10挑战”名单,具体地描绘出了实现百亿亿次超级计算机之路上“拦路虎”的样子。
在这份名单里,关乎计算性能的挑战有2个,分别是研发更节能的电路、电源和冷却技术和增加数据流动的性能和能量效率;关乎计算硬件的更新升级的只有1个:集成先进的内存技术以提高容量和带宽;而关乎软件和开发环境方面的挑战则有不少,分别是开发可扩展更强的系统软件、发明适于大规模并行处理的新的编程环境、创建更优化的数据管理软件等。在这份列表中,杰克·唐加拉还提醒计算科学家们需要从系统或更高角度准备迎接E级计算的挑战,比如要重塑百亿亿次超算系统对科学问题的解决方案、提高用新的软件工具和环境的生产力、确保E级超算发生故障时科学计算的重现性等。
“E级应用”
“每秒执行百亿亿次计算,这可是我们今天所见机器计算速度的数十上百倍,这些未来的计算机将是一个全新的‘物种’。而且,它们不仅在于快,更在于它们可以以全新的方式处理大数据。”杰克·唐加拉说,“这将是非常必要的,E级超算未来将非常有用,比如它们或许能攻克癌症。”
“为了找到治疗癌症的方法,我们需要找出以前没有见过的模式。”杰克·唐加拉说,在癌症治疗方面,人们面临的挑战不是缺乏相关数据——现在比以往更多,而是如何“打开”这些数据,并找到合理的模式处理它,从而告诉人们到底是什么原因导致癌症或者如何更有效地对抗它。“超级计算机是用于分析基因组和相关分子数据集、患者记录、家族史和与癌症相关的其他复杂信息优良的工具。随着超级计算机的发展,我相信我们可以找到答案。”
张云泉也指出,E级超算如此受“欢迎”,正在于它在解决人类共同面临的健康危机、能源危机、环境污染和气候变化等重大问题上将发挥巨大作用。“从目前来看,E级超算主要面对一些具有重大计算的需求,如全球气候变化模拟、天体物理大数据的处理、模拟宇宙的演化、新型材料验证及无库存核武器仿真等。”
此外,杰克·唐加拉指出,百亿亿次计算设备除对各个产业领域提速换挡有贡献、提高国家竞争力之外,还将“向下流动”促进产业发展,比如增强包括从智能手机到相机在内的消费电子产品计算系统的软硬件性能等。
自主实现的曙光
在“神威·太湖之光”以自主芯片和操作系统获得接近十亿亿次的计算速度之后,中国看到了自主研发E级超算的希望和曙光。张云泉认为,“神威·太湖之光”的成功已经为我国向E级超算迈进打下了一个坚实的基础,只要做好人才、资源、经费和材料的储备,冲击E级超算指日可待。
按照一般科研规律,在类似大科学装置正式进入研发日程之前,原型系统等预研项目非常必要。
“从原型系统到大规模系统,难度是几何倍数增加的。所以原型系统不可能暴露所有的问题。”张云泉说,但预研项目可以验证一些关键的技术设想,对一些关键技术难点进行测试和改进,“为最后建造全部的系统来扫清障碍,避免出现大的技术错误和难题。”
在最新公布的国家“十三五”高性能计算专项课题中可以看到,我国公示出了三个分别由中科曙光、国防科技大学以及江南计算技术研究所牵头的E级超算的原型系统研制项目。据消息人士透露,中科曙光牵头的E级超算原型系统研制项目将于近期举行的曙光技术创新大会(IDIC2016)上正式启动。
“我们国家发展E级超算是‘三头并进’——这下代表着中国超算“三足鼎立”——三家单位在超算技术领域均具有强大的研发实力。”张云泉告诉记者,我国在E级超算研制方面采取的是竞争机制,预计两年之后会对三家单位进行评估,最后吸取最好的方案来整合成最后国家的E级超算研发体系。
《中国科学报》 (2016-06-28 第6版 前沿)