鄢贵海
?
当前,我们处于两个“Scaling Law”激烈碰撞的时代。一个是摩尔定律的Scaling Law,但自2015年起其增速开始显著放缓,单位芯片面积的性能增量日益变小。然而,芯片性能仍在快速提升,核心原因在于单颗芯片的面积持续增大。
与此同时,另外一个Scaling Law:大模型的Scaling Law为芯片规模扩张和算力提升提供了“涌现”的必要条件。智能与算力形成闭环并相互强化。
在“算力即智能”的时代背景下,高速网络作为连接与调度大规模算力资源的关键基础设施,其技术范式与性能要求正面临深刻变革。准确识别并应对这些变化,是把握下一代人工智能计算体系架构机遇的重要前提。
AI芯片的定义
AI需要“AI芯片”,但究竟哪些芯片类型应该被归于AI芯片的范畴?结合AI的发展历程,我们尝试给出AI芯片的一种“定义”:具备与特定AI算法的运算特征高度匹配的计算架构的芯片或芯片组。这里的运算特征主要取决于算法,包括模型可并行、数据可并行、流水线并行、数据精度自适应、迭代、概率性与确定性、Memory footprint、非线性运算、Softmax等,计算架构主要取决于硬件实现,包括计算单元、缓存结构、阵列规模、互联拓扑、IO带宽、指令集、可扩展性、虚拟化支持、处理延时、运行能耗、可靠性设计等。
从这个定义上看,AI芯片不仅包括各类GPU/NPU芯片,还包括为了给这些GPU传输数据,构建大规模并行系统的网络芯片。简而言之,要想得到有效的算力,不仅需要大量高性能的GPU算力芯片,还需要将这些芯片通过高效的网络有机组合起来,协同工作。可以将其称之为算力乘法定律:有效算力=算力x网络。算力和网络,两者缺一不可。
AI网络催生DPU芯片的大发展
计算芯片缺乏数据供给,其算力优势也很难发挥。而数据需要通过IO获得,特别是各种高速网络IO。数据分析显示,过去10年间IO性能的年均提升幅度远超CPU,但仍低于GPU算力的增长速度。这表明,当前对于高带宽IO的需求主要来自于GPU算力的提升。
过去两年,行业对网络的关注度空前上升,各种“Link”犹如雨后春笋,NVLink、UALink、EtherLink、ALink等。其原因是AI对于网络的需求已无法用传统网络技术通过量变来满足,正在逼近质变时刻。
网络具有天然分层的架构:从最底层用于互联IP所使用的片上网络和总线,到不同晶圆互联所使用的Chiplet互联协议,到模块、服务器内设备互联的PCIe、NVLink技术,再到上层机架范围互联中的Scale-Up、RDMA等技术,以及长距离数据中心互联的VXLAN协议、SD-WAN技术等。越上层的技术网络属性越明显,越底层的技术,IO特征就越清晰。
高速IO的复杂度非常高。相较于处理器芯片内部,IO要处理的任务具有高度不确定性。特别是在追求无损网络的场景下,技术挑战更为突出。例如,RDMA技术对网络丢包极为敏感,这正是UEC等新技术试图解决的主要挑战之一。
当前AI模型对算力需求的急剧攀升,使得面向智算中心的高带宽低延迟网络也成为技术发展的一个热点。不同于传统基于TCP/IP的以“尽量服务”为设计原则的网络协议,除了带宽延迟指标不在一个数量级以外,面向AI模型的智算中心网络,需要的是确定性的“无损”网络。不同的网络协议需要设计不同的网络芯片,因此,面向AI网络的芯片也成为当下最重要的机遇之一。
产品迭代开拓DPU的广阔前景
直到现在,业界很多人还将DPU视为一种新型芯片。我们需要重新定义DPU,应该把DPU当作网络侧的载体,作为连接各类资源的代理,无论是真实的物理资源,还是软件虚拟的资源。
当前业内普遍对DPU的认知是SmartNIC包括NIC,DPU又包括SmartNIC,将DPU简单归为超级网卡(SuperNIC)。这种观点虽然具有合理性,但仅反映了DPU的广度,没有反映深度。DPU不仅仅是NIC或SmartNIC发展的延续,更是为了适应AI原生、云原生的创新产品。从广度而言,DPU既可以支持云原生网络里的OVS、存储卸载、弹性裸金属服务器等应用,也可以支持网络底层的无损网络、自定义流控算法、安全加密算法卸载等。但是,当前的一些网络具有专用属性,需要与应用深度结合。
DPU从诞生之初,就带着网络基因,并且天然倾向于通过数据加速处理来优化系统的性能,通过全栈协议支持对CPU屏蔽网络的多样性和网络传输天然的不可靠性。当前国际上DPU的代表性厂商都将DPU作为重要的产品线。抓住这一机遇,有望实现跨越式发展,为国产算力平台补上DPU芯片的短板。
(作者系中科驭数创始人鄢贵海)
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。