“前段时间我在克拉玛依参加一个会议,有一位某运营商‘老总’听我讲完之后很激动,他说他第一次知道算力原来是不可流动的。”
在近期在北京举办的第六届中国算力大会上,国家信息中心信息化和产业发展部主任单志广决定将他长期以来观察到的、人们对算力许多常识性的误区一股脑儿地分享出来。
“‘算力流动’只是一种比喻,不是严谨的科学术语,更不是客观事实,因为这无法在工程上实现。”单志广告诉《中国科学报》,当“算力不能沿着计算机网络流动”这样一个基本常识都被误会很深的时候,就会给行业发展乃至产业应用带来许多叙事逻辑错误。他认为,在“算力热”背景下,厘清一些基础概念、找准算力建设关键问题显得格外重要。
在大会报告的幻灯片里,单志广晒出了自己20年前在清华大学计算机系网络技术研究所从事博士后工作期间的研究报告以及参撰的一些专著“亮名身份”:“我的专业背景是做计算机网络和计算机系统性能评价的,(谈的现象和问题)也是基于专业背景的一些独立思考和学术观点。”
单志广在ChinaSC 2024上。ChinaSC 2024供图
关于“算力”的4个常识性断言
算力流动、算力并网、算力调度、算力网络、算力通道……“‘算力热’同时带来了一些概念上的迷惑。”单志广说,这些概念给了人们一些关于算力像用水用电一样方便的美好期待,但却带有许多叙事逻辑错误。
“如果没有科学、专业的引导,我非常担心“算力热”会变成‘皇帝的新装’。”他说。因此,在这次报告中,他首先提出了关于算力的4个常识性断言。
第一个断言,即“算力是不可流动的”。单志广说道,算力就是对数据的处理能力,它由计算机、服务器、高性能计算集群等所承载,物理上不可移动,故而其不可能沿着网络进行“流动”。
第二个断言,即“算力是不能调度、并网的”。“‘算力调度’是一个缩略语,应该是‘算力任务调度’,能调度的是算力任务、算力作业,它们可以从异地调到算力中心进行计算。”单志广说道:“我认为大家不要嫌字多,就叫‘算力任务调度’或‘算力作业调度’,省略会让非专业人士误认为算力可以像水一样作为资源可调度。”
同时,他认为“算力并网”也是一种比喻,因为“在工程上讲算力是不能并网的”。
第三个断言,是“算力不能直接产生经济价值”。
“如果没有应用的牵引,算力设施带不来任何经济效益。就像我们开饭店做好了饭菜,如果没人来吃、没人买单就没有收入。”单志广说,现在许多报告将算力增长跟数字经济的增长、GDP的增长直接挂钩,但他提醒:“这是一种相关性,不是因果性,这个一定要让社会知道。”
他谈到,业界喜欢的一个叙事逻辑是:西部或某些地方风光电便宜、煤电便宜,适宜把它们变成算力、变成经济。“实际上这是有逻辑鸿沟的,如果没有应用保障,算力设施就不能发挥作用,反而会造成设施的空置和能源的空耗。”他说。
第四个断言,是单志广的一个观点:“如果没有真实的应用需求牵引,就没有必要对算力设施进行普遍互联。”他对记者说,他提出这一点,是希望强调“要避免形成算力设施需要短期内普遍互联的误判”。
“大家提到的‘超算互联网’我认为是有价值的,因为超算大都是公益性的、非竞争性的,且国家级超算设施资源是有限的,各自应用往往具有互补性,可以通过互联实现资源的集约高效化利用;但通用计算、智算往往是存在商业竞争、经济利益互斥的,除了同一机构内部等特殊情况,基本上没有跨机构普遍互联的需求。”单志广说,应根据实际应用需求,对算力中心/设施进行分级、分域、分区的有限联通,从局域“网”向广域“网”有序拓展。
因此,他认为,所谓“算力网”不可能像通信骨干网、铁路干线网一样形成“几横几纵”的架构,也不可能形成所谓的“算力大通道”。他进一步厘清:“‘算力枢纽’严格意义上不是‘算力资源枢纽’,而应该是‘算力作业调度枢纽’。”
当下主流仍是“A数A算”
谈到算力相关概念,“东数西算”是绕不过去的一个。
“‘东数西算’经常跟南水北调、西电东送、西气东输相提并论,但是我认为它跟后面三者没有可比性。”单志广单刀直入:“‘东数西算’目前还是一种愿景,并没有真正实现,另外其与后三者在概念上是有本质差异的。”
单志广解释说,从目标上看,“东数西算”主要是面向超算和智算进行任务调度和统筹,期望是把东部地区的非实时算力需求以及大量生产生活数据输送到西部地区的数据中心进行存储、计算并反馈,适用于视频渲染等对时延不敏感的应用;但对于远程医疗、电子游戏等实时性较强或对时延敏感型的应用需求,就目前技术而言,本地数据还无法搬到异地计算。
要指出的是,相比“东数西算”,本地计算的需求和体量更为庞大。
“我认为在概念的内涵上,我们需要对‘东数西算’的定位有更加合理的认识。”单志广谈道,“东数西算”是全国一体化算力体系总体布局的一个子概念、子模式,该体系下既有东数西算,也有东数东算、西数西算,而且目前而言“A数A算”仍是主流。
“东数西算是本地计算和近地计算的补充和完善,而不是反过来。”单志广说,他在网络上看到了完全相反的表述,“我个人认为是不对的”。
什么是真正意义上的“东数西算”?单志广认为,“东数西算”是在国家一体化算力体系建设完成、并且建立起成熟的算力任务调度系统和机制时,才能实现面向业务、服务质量(QoS)和成本要求的全网、实时/及时、动态优化调度,从而真正意义上实现“东数西算”。但这一切尚未真正实现,“东数西算”不是现在时,而是将来时。
而对于“东数西算”的算力成本是否划算,单志广认为,这需要进一步精算。
“从节能减排角度来讲,‘东数西算’确有其现实意义,数据中心建设在西部有用电成本低、避免输电损耗、制冷系统能耗低、地价便宜等优势,但考虑到数据中心的建设成本,‘东数西算’节省的能耗空间,从长远看是否能抵消建设成本,我认为要做精算,而不是粗略地概算或估算。”他说。
单志广进一步提到,“东数西算”未来一个大问题是“数”与“算”的供需匹配问题,“我认为这个供需匹配的重要性和难度现在被严重低估了”。
当下,由于数据类型多样、业务需求各异,业务层面上要做好供需匹配和精准对接、解决谁的“数”由谁“算”的问题,并不容易。
如何确保“东数西算”的“数—算”供需匹配?到底需要建立的是“数—算匹配系统”,还是“算力任务调度系统”?这个系统应该由政府牵头还是市场主导?这些都尚无合理解决方案。单志广认为,这种供需匹配可能需要在国家、地方以及企业和业务层面等多层级开展面向性能、价格、效益等多方面的测算,进一步形成真正的应用需求供给和可持续的长效机制。
此外,对于业界常提及的“算力网络”,单志广也有看法。他认为,目前算力网络还处在概念提出期,还没有真正从实践上形成全域范围的统一解决方案。
“算力任务的统筹调度和运行机制,我认为过去大家把它想得过于简单了,以为有了算力中心、网络一连就可以调度了。考虑到算力不是可流动的资源,我认为这样的理解是有问题的。”单志广说,从计算机科学的角度,要实现理想的算力任务网络调度,在实践上是难度极大的。
“在理论上可描述,不代表可在实践中实现,因为全域、全网、实时/及时、按需、动态的任务调度本身可能就是NP难题。”单志广强调,调度策略的分析求解可能由于“系统状态空间爆炸问题”而无法及时获得系统最优解,只能走降维、降阶、分而治之、局部优化、近似优化、求次优解之路。
对“算力热”的冷思考
单志广还谈到了一些他对于“算力热”的感受和思考。
“我的感受上,觉得算力有点过热了。”他分享说,据他了解,有的地方提出的算力规划增速惊人:某省份不仅当下计划建设E级智算,还提出要在3年内全省算力规模发展超过100EFlops,增长几十倍。
“要知道,现在全中国没有超过1000EFlops的算力规模。如果都是按照几年内几十倍的算力增长,合不合理?有那么多真实需求没有?”单志广说,当前智能算力的59%都消耗在大模型的训练和推理上,那么是不是要考虑,这个算力需求是否可持续?
他进一步表示,从历史上看,计算机系统有着“分久必合,合久必分”的特征,他担心未来算力需求也可能会重复这样的故事。未来算力会不会从集中式、大型化、远程(异地)化思维转向分布式、中小型化、本地(近地)化?这样的问题要考虑。
他提出,同样需要考虑的问题还有,如何实现算力供需平衡?避免算力供大于求、产能过剩?如果避免“算力热”造成盲目建设、重复建设、铺张浪费、算力烂尾?
“谈这么多,我重点想要强调的是,当前我们需要准确理解和把握算力建设领域的关键问题,包括概念、路径问题,也包括经济和产业问题。要以务实、科学、专业的精神,系统谋划、有序推进,切实推动算力经济的高质高效的持续发展。”单志广说。
“信息产业领域过去对许多新概念、新模式趋之若鹜,往往喜欢一哄而上,但到最后发展不好又一哄而散。”他说,这就提醒人们,既要避免对算力经济短期的发展估计过高,也要避免对它长远发展战略意义估计不足,“这是我们经常容易犯的毛病,要以务实、科学、专业的精神,系统谋划,有序渐进,切实推进算力经济高质高效持续发展。”
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。