作者:王握文 陈明 来源:科学时报 发布时间:2009-11-16 23:24:49
选择字号:
国防科大“天河一号”研制纪实:自主创新攀登世界科技高峰
 
[科学时报 王握文 陈明报道]当共和国迎来第60个金秋,我国首台千万亿次超级计算机系统——“天河一号”在国防科学技术大学横空出世。
 
“天河一号”是国防科大计算机学院承担的国家“863”计划“千万亿次高效能计算机系统研制”课题的重大成果。该系统峰值性能达每秒1206万亿次双精度浮点运算,综合技术水平进入世界前列,标志着我国超级计算机研制能力实现了从百万亿次到千万亿次的重大跨越,我国成为继美国之后第二个能研制千万亿次超级计算机系统的国家。10月29日,在中国高性能计算机TOP100组织公布的2009年度前100强排名中,“天河一号”高居榜首。
 
超前谋划,积极抢占科技制高点
 
科研人员告诉记者,我国自主研制的首台千万亿次超级计算机系统,创造性地采用了多阵列、可配置、协同并行的体系结构,突破了一系列关键技术,可满足我国大规模科学和工程计算领域的高性能计算需要。
 
当今世界,各国纷纷投入巨资研制开发超级计算机系统,以提升综合国力和科技竞争力。面对高性能计算领域的严峻挑战,面对建设创新型国家对高性能计算的迫切需求,国防科大计算机学院的科研人员再次吹响了攀登世界科技高峰的冲锋号——瞄准国际前沿,实施超前部署,加强技术积累和预先研究,积极抢占战略制高点,争取早日研制出我国的千万亿次超级计算机系统。
 
这支被中央军委授予“科技攻关先锋”荣誉称号的优秀团队,在高性能计算领域有着辉煌创新成果:1983年研制出我国第一台亿次巨型计算机,实现了我国巨型机“零”的突破,之后又相继研制出不同量级的“银河”系列巨型机,一步步将我国巨型机研制水平推向世界前列。但他们清醒地知道,要实现从百万亿次到千万亿次的跨越,将比过去任何一次创新进步都要艰难得多。
 
为此,该院根据国际高性能计算发展趋势与最新动态,组织专家教授进行深入论证,确立了以国家和军队战略需求为牵引,以原始创新与集成创新相结合,实现自主创新能力整体跃升的发展思路。他们将国际上公认的主要技术难题作为创新的突破口,成立多个课题组,组织精干的技术力量,针对高性能计算发展的前沿技术、关键技术和新兴交叉技术等方面开展基础研究和前沿探索,相继突破了大规模可扩展共享存储体系结构等一系列技术难题,掌握了一批拥有自主知识产权的关键技术,从而为研制更高性能的超级计算机奠定技术基础。
 
在国防科大创建我军特色世界一流大学的历史进程中,计算机学院不断调整和优化学科布局,促进学科建设与科学研究的良性循环,重点发展了高性能计算、大规模集成电路设计、网络与通信、基础软件等重点研究方向,“计算机科学与技术”一级学科和所属的3个二级学科成为国家重点学科,在全国综合学科评估中名列前茅,有效提升了自主创新能力。
 
近年来,该院“高性能计算创新团队”和“高性能微处理器技术创新团队”还入选教育部“长江学者与创新团队发展计划”,“高性能计算机研究团队”获军队首届科技创新群体奖。
 
机遇总是垂青有准备的头脑。当我国将发展千万亿次超级计算机系统列入《国家中长期科学和技术发展规划纲要》时,该院凭借充分的技术储备和先进的研制方案,以及天津市滨海新区的大力支持,顺利获得国家“863”计划重点课题的支持。
 
自主创新,全面突破核心关键技术
 
满足国家重大战略计算需求的超级计算机,体积不能太大,能耗不能太高,要实用、好用,而且用户对系统可扩展性、可靠性、均衡性、可编程性、可管理性和能效比的要求将大大提高。
 
在千万亿次超级计算机的体系结构设计中,他们创造性地提出了多阵列、可配置、协同并行体系结构,将全系统分为计算阵列、加速阵列、服务阵列,通过实现“CPU(通用微处理器)+ GPU(图形加速处理器)”的异构协同计算,融合多种计算资源并对其灵活配置,最大限度提高计算效能。为此,他们经过长期封闭攻关和反复探索,最终决定采用混合语言编程技术,通过自适应动态任务划分、流式数据存取、软件流水及亲和调度等技术,实现了计算核心异构协同、系统资源有效配置,一举将GPU的计算效率从国际上通常优化前的20%提高到70%,系统运算速度得到大幅提升。
 
为满足各类用户对超级计算机的开放性和安全性要求,科研人员开发了国内最高的B2级安全标准的操作系统,并通过软件安全隔离和虚拟域技术,构造相互隔离的用户独立工作环境,有效实现了开放网络环境下用户保密信息的安全隔离。这就是说,多个用户共同使用“天河一号”时,都有独立的计算空间和完全隔离的工作环境,满足用户对安全性的特殊要求。
 
系统容错性能是评价超级计算机系统的重要指标。科研人员在“天河一号”软硬件规划中,专门设计了监控诊断子系统,采用分布式集中管理结构,实现全系统的实时安全监测、系统控制和调试诊断等功能。他们还建立了多层容错技术,通过操作系统的检查点功能、资源管理的任务级和作业级容错技术,以及容错并行算法和断点续算功能,有效提高了系统的可靠性。
 
为了让用户能充分使用“天河一号”强大的计算能力,在研制过程中,科研人员对Linux操作系统平台进行了高性能并行计算、能耗管理、虚拟化和安全隔离等方面的针对性设计,专门提供了一体化集成开发环境,支持应用程序的调试和性能分析,从而降低了用户使用“天河一号”的技术门槛,扩大了应用领域。
 
此外,“天河一号”还通过自主研发的软件控制和动态调频技术,使系统可以根据用户需求动态调整CPU、GPU、内存、显存的工作频率,实现最佳的系统能效,在节能技术方面进入世界先进行列。
 
随着一系列关键技术的突破与工程实现,“天河一号”具有了高性能、高安全、高能效和易使用等显著特点。
 
统筹兼顾,科学推进重大项目攻关
 
千万亿次超级计算机系统的研制是一个复杂的系统工程,技术起点高、研制难度大、研制时间紧。科研人员在突破一系列关键技术的同时,在工程组织管理与质量控制方面也面临着重大考验。
 
国防科大计算机学院运用统筹兼顾的方法,正确处理质量与进度、技术跨越与工程实现的关系,坚持硬件系统、系统软件、应用软件同步开发、协调推进,使“天河一号”获得显著的质量效益。
 
在长期的攻关实践中,该院以科学发展观为指导,探索出一条行之有效的科研质量管理体系和质量保障机制,在全国高校中第一个通过了GJB9001质量管理体系认证。“天河一号”研制之初,他们就制定了“质量保证大纲”和“可靠性大纲”。在硬件设计上,科研人员遵循严格的设计程序和检测环节,确保系统的质量标准。在软件开发中,引入国际先进的CMM(能力成熟度模型)管理体系,实现了软件开发与硬件开发同步。
 
作为一个规模庞大、技术复杂的系统,每一项技术方案的创新与突破,很难一蹴而就。科研人员采用小系统模拟,验证设计方案和技术创新的正确性,把各种可能出现的问题有效地解决在大系统调试之前,在很大程度上奠定了“天河一号”成功的基础。
 
“天河一号”的研制,集中了该院的200多名科研人员。学院党委和总师组在工程组织中,实施一体化人力资源管理,并建立行政、技术、质量的3条指挥线:总指挥负责资源配置,总设计师负责技术攻关,总质量师负责质量监控。
 
融入国家创新体系,走军民融合式发展之路
 
据介绍,“天河一号”将作为国家超级计算天津中心的业务主机,部署在天津滨海新区,将作为中国国家网格计算主结点,面向国内外用户提供高性能计算服务。
 
国防科大计算机学院领导介绍说:“天河一号”是在军委、总部的正确领导下,在科技部领导的支持下,通过与天津市滨海新区密切合作研制成功的。党的十七大报告提出,要更好发挥天津滨海新区在改革开放和自主创新中的重要作用。十七大闭幕后不久,该校组织机关和计算机学院有关专家来到天津滨海新区考察,与天津市和滨海新区领导探讨开展合作事宜,在深入考察论证的基础上,双方很快就加快科研成果向国民经济建设领域转化方面形成共识。可以说,“天河一号”的研制是贯彻落实党的十七大精神,积极融入国家创新体系,走中国特色军民融合式发展路子的成功实践。
 
2008年2月,天津滨海新区与国防科大签署了全面合作协议。
 
此后,国家“863”计划立项支持国防科大研制千万亿次超级计算机系统,天津滨海新区同时进行配套资金支持。今年6月9日,双方签署了合作协议,确定在滨海新区共建国家超级计算天津中心,并在此基础上着力打造国家高新科技服务、产业技术创新、人才聚集培养等3个平台,促进滨海新区信息产业发展、推动其高水平研发转化基地建设。
 
据介绍,“天河一号”将于2009年底至2010年在天津滨海新区安装部署,首批重大应用包括应用于石油勘探数据处理、生物医药研究、航空航天装备研制、资源勘测和卫星遥感数据处理、金融工程数据分析、气象预报、气候预测、海洋环境数值模拟、短临地震预报、新材料开发和设计、土木工程设计、基础科学理论计算等众多领域。
 
投入使用后,国家超级计算天津中心将成为我国首个、同时也是世界上少数几个具有千万亿次计算能力的超算中心之一,将有力带动天津滨海新区高科技服务产业发展和高端信息产业发展。
 
“天河一号”的研制成功,既是我国高性能计算机技术发展的一个重大突破,也是国防科大贯彻军民结合、寓军于民方针的成功实践,对促进国家科技发展和国防现代化建设具有重要意义。
 
《科学时报》 (2009-11-17 A2 国内)
 
 打印  发E-mail给: 
    
 
以下评论只代表网友个人观点,不代表科学网观点。 
SSI ļʱ
 
 
读后感言:

验证码:
相关新闻 相关论文

图片新闻
中国超重元素研究加速器装置刷新纪录 彩色油菜花又添7色!总花色达70种
考研复试,导师心仪这样的学生! 地球刚刚经历最热2月
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文
 
论坛推荐