“进入人工智能(AI)时代以来,大家可能都有一种感觉:图形处理器(GPU)是这个时代的主角。”
6月15日,中科曙光新一代通用高性能计算平台发布会上,一场主题围绕“AI时代纯CPU超算的价值、发展前景与技术生态演进及国产化发展机遇”的研讨,在东南大学物理学院副教授李强、中国科学院计算机网络信息中心高性能计算技术与应用发展部主任金钟、中科曙光解决方案与创新业务总经理张磊之间展开。话题一开场,这一“普遍印象”就被摆上桌面。
但三位专家的共识恰恰相反——在科学与工程计算应用场景下,纯CPU(中央处理器)超算“不但没有被替代,反而更加不可或缺”。
曙光新一代通用高性能计算平台采用“纯CPU”核心。中科曙光 供图
AI时代,纯CPU超算更加不可替代
谈及纯CPU超算的角色,三位学者达成共识:CPU与GPU并非替代关系,而是长期并存、各司其职。
李强从科研应用视角介绍说,在他的课题组,围绕薛定谔方程求解、功能材料多尺度模拟开展研究,CPU有着两大不可替代性:一是超高精度需求——这类计算对收敛精度要求达到10-5、10-6量级,依赖64位双精度浮点(FP64)运算,恰是当前GPU的短板;二是大体系数据交互需求——数百上千个原子的体系存在强相互作用,无法拆分为独立任务,需要高频、大量的数据交互,GPU的任务切割模式难以适配。
李强同时强调,人工智能赋能科学研究(AI for Science)的底层支撑数据,大多来自CPU运行的第一性原理计算,“AI的发展反而进一步增加了CPU的使用需求”。
金钟则提到,材料计算、第一性原理计算、生物信息计算等应用场景,依托CPU多线程即可高效运行,几乎“拿来就用”,迁移成本极低。
“GPU擅长‘暴力式’的快速算力求解,CPU则深耕高精度计算与逻辑运算。”从产业落地视角,张磊概括说道,二者不是谁取代谁,而是长期并存、各司其职。
他进一步谈到,结合国家智能计算政策,行业最看重的是数据质量与计算精度,这恰恰是CPU的先天优势。加之数十年沉淀下来的CPU科研生态成熟、用户基础深厚,大量商用软件都适配CPU架构,国产化替代、工业验证、效益提升等落地需求都得靠稳定的CPU生态托底。
因此,他认为,未来很长一段时间,CPU仍将是科研与工业计算领域的主流选择。
既要“算得准、算得大”,也要“算得快”
面对AI技术快速迭代与科学计算需求升级,CPU技术该如何演进?三位专家从顶层架构、产品落地、终端需求三个层面提出了演进路径。
金钟从顶层架构出发提出,科学计算正从单纯的方程求解,升级为多尺度、多类型方程求解的耦合并结合人工智能计算的复合型计算,这对CPU提出了四点新要求:一是强化复杂任务统筹能力,支持多精度混合运算;二是要提升单核的计算能力,减少分支运算的算力损耗,并尽量减少异构系统中CPU与GPU间频繁的数据迁移消耗;三是提升存算间的数据读取带宽并降低数据交换的延迟,破解CPU空转、数据吞吐滞后的痛点;四是兼顾技术迭代与产业商业化的平衡,保证技术可商用、可持续。
李强则坦言,终端科研用户其实不太关心复杂的技术原理,诉求很朴素,就三句话——“算得快、算得大、算得准”。
围绕这三点,他提出了三点期待:一是高性价比的超大内存扩容,如今科研模拟动辄需要2TB、4TB内存,硬件能扩,但成本太高,亟需降下来;二是模块化算力协同,在后摩尔时代单核性能迭代放缓的背景下,把复杂任务拆成模块、由CPU统筹调度协同运算;三是优化异构融合性价比,坚持CPU为核心、GPU辅助加速的模式,按需匹配算力,把CPU在成本与能耗上的优势真正发挥出来。
值得关注的是,这些被期待的方向,已有国产CPU平台“跟进”。
中科曙光当天发布的新一代通用高性能计算平台,搭载国产128核512线程通用CPU,通过“算—存—网”全栈协同优化,整体规格达到行业先进水平。据介绍,该平台单CPU 的FP64双精度算力达10 TFLOPS(即每秒可执行10万亿次双精度浮点运算)。同时,该计算平台原生兼容x86生态,是国内首个原生支持AVX-512指令集的国产通用计算平台。在散热方面,平台提供风冷、冷板液冷、浸没液冷三种节点形态,其中冷板式高密计算柜PUE值(数据中心总能耗与IT设备能耗的比值,值越接近1表明能效越高)低至1.08,浸没式相变液冷技术PUE进一步降至1.04。
对于CPU计算产品的演进,张磊分享说,新一代处理器新增AI专用特性单元,优化了数据存取与推理算力,适配AI for Science全新场景;同时,通过研发全新互联协议提升进程间、物理核心间的通信效率,有助于打通数据吞吐瓶颈。
国产CPU,从“可用”到“一流”
高性能计算是国家科研必须守住的算力底座。国产CPU能否跻身世界一流?对此,三位学者在看到差距的同时,也对国产计算产业发展充满信心。
“国产CPU虽起步晚,但迭代与成长速度显著。”张磊从产业产品视角介绍说,中科曙光“北斗”128C单颗处理器算力可达10T ,整体性能与国际主流处理器仅存小幅差距,未来可通过优化IPC指令效率、升级生产工艺、拓展算力边界进一步提升。
李强表示,他的团队基于东南大学的国产化小型超算平台,对国产CPU做了大量验证,得出了“国产CPU的硬件参数与核心性能已接近国际一流,但仍有两块明显的短板”的结论。
他介绍说,两块短板分别是“小众软件适配不够”和“集群并行效率不足”,这让科学计算效率大打折扣。尤其后者,集群中的单节点跑得不错,但双节点、多节点拼起来却“不划算”,普遍存在“1+1<1.5”的情况。
在金钟看来,国产CPU赶超国际一流是必然趋势,真正的瓶颈不仅在于芯片设计,更在工程经验与应用生态的长期积累上。
“这些都是靠长期不断地试错、反复验证和迭代攒出来的家底,很难快速复制。”他举例说,比如在芯片生产时,光刻产生的毛刺、锯齿怎么修复,都是各家企业打磨多年的独门经验,这些细节都得靠全行业长期投入、慢慢磨才能取得进步。
“国产CPU的发展,既要对标国际先进,也要立足国内国情。”金钟说,在国家新型举国体制下,经过持续投入,他相信国产CPU软硬件生态“将逐步迈向国际一流”。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。