华为高管谈存储创新：漂亮的存储成就聪明的AI—新闻

作者：赵广立来源：中国科学报发布时间：2024/9/26 9:53:35

选择字号：小中大

华为高管谈存储创新：漂亮的存储成就聪明的AI

人工智能大模型时代，各行各业对计算服务提出各种新的需求，作为“三大件”之一的存储需要怎样应变？对此，华为公司副总裁、数据存储产品线总裁周跃峰有许多切身感受。

“存储的创新是由应用驱动的，上层应用变了，存储一定要变化，否则就不是一个负责任的存储厂商。”在华为全联接大会2024期间，接受《中国科学报》等媒体专访时，周跃峰开门见山。

他说，当前许多用户的AI建设正处于初级或探索阶段，但“数据准备”这件事可以从现在开始。存储行业的创新，也正围绕“数据准备”和“AI-Ready”展开。

周跃峰（左）和华为闪存存储领域总裁黄涛接受媒体采访。华为供图

面向AI训练的存储：“做不好会更‘缺电’”

众所周知，大模型训练系统对算力需求很大，计算密度空前。与此同时，这类计算对数据吞吐量的要求也与时俱增。

“这对于存储来说，首要就是快速地将数据源源不断送上去。”周跃峰说，以往计算系统对存储是没有“快速”这个要求的，但现在，大规模参数的模型训练同时意味着对海量大数据的学习，计算系统需要十倍、数十倍的数据吞吐和带宽。“如果让机器在那儿等数据，那就是空转。”

联想到此前业界戏称“大模型训练的尽头是用电”，周跃峰诙谐地说：“如果存储做不好，我们的训练系统就更‘缺电’了。”

近期，中国移动将华为AI存储用于大模型训练，实现150PB单存储集群、8TB/s带宽和2.3亿IOPS的能力，端到端训练效率提升5%。

“这证明使用AI存储可以达成AI训练不中断、不空转的目标。”周跃峰说，华为和中国移动这一实践，算是为后续更大规模大模型训练“打了样儿”。

存储系统的第二个应变，则是要面对越来越复杂的计算集群。

“万卡、十万卡的AI训练系统，集群内部网络互联关系非常复杂，人们期待存储系统能够跟万卡、十万卡级别的训练系统直连，而且能够共享存储数据。”周跃峰举例说，美国Meta公司用于训练Llama3的存储系统，基于目前公开的信息是由8100台服务器搭建而成，内部互联、通讯等非常复杂。

他介绍说，华为新推出的AI存储——OceanStor A800，单存储集群（128台设备构成）就能支持十万卡级训练集群，不仅性能得到了提升，空间占用和故障率也大大降低。

面向AI推理的存储：聪明AI背后的漂亮存储

AI训练集群之外，与应用和场景更为贴近的是AI推理实现。

“现在用大模型产品，问一句答一句，马上就能得到答案，这是‘快思考’；但其实人区别于机器，人有大量的慢思考，许多问题都需要慢慢梳理逻辑，慢慢想出解决之道。”周跃峰说，要让AI变得更“聪明”，像人一样也有“慢思考”，需要存储发挥作用。

AI怎样产生“慢思考”？他告诉记者，关键在于推理过程中的每一次思考结果都要记下来：“这样未来再有相同问题就不需要重新计算了，可以以存代算，这样整个系统就会更快、性价比更高。”

周跃峰称之为“长记忆内存型存储”，在这类存储中，存储作为内存的扩展，以分级的方式实现了长周期的记忆能力，甚至是终生记忆。

“人的一些思考是需要通过推理慢慢梳理逻辑，过程中有些‘素材’是现成的，只需要把记忆中的内容直接‘剪切’进来就可以了。”周跃峰说，如果每个节点都要重新计算，再加上是在复杂的层层逻辑上计算，“这个‘脑袋’恐怕要炸”。

他特别谈到，推理相对训练而言，是一个“弱算力、强缓存”的需求，就如人类大脑一样，不同脑区的构造和功能有所区分，用于推理的存储也可以选择不同类型的存储介质进行“混搭”（如高带宽存储和DDR、SSD等介质协同），从而可以实现以相对经济可靠的方式构造出“漂亮的存储”。

OceanStor A800就集成了这一理念，成为业界首款提供长记忆能力的存储。据介绍，它通过“多级键-值缓存（KV-Cache）机制”将所有的思考结果持久化保存并高效使用，让大模型推理具备长记忆能力，以减少大模型在预填充阶段的重复计算。如此，客户推理的时延可降低近八成，单个计算卡的吞吐量提升约2/3，实现了推理体验提升的同时降低成本。

“人脑有时也记不住一些信息，但可以通过查词典、上网查资料来弥补。存储也是这个道理，没必要都是比较昂贵的、可以即时访问的‘高级内存’，以存代算的系统是可行的。”周跃峰说：“所以推理系统要想做得好，一定要有漂亮的存储。”

存储“必须强调安全”

采访中，周跃峰多次强调存储安全的重要性。

“国内一些所谓中高端存储，都没有集成数据安全相关的功能，这让人很不解。”他说，一方面，中国是全球范围内勒索病毒发生最频繁的区域，另一方面，中国也是许多企业最不关心数据安全和保护的区域，“令人很困惑”。

周跃峰觉得，存储应从被动应对攻击走向主动全面防护。企业在构建存储系统时要注重建设备份存储和多层防勒索机制，这就好比保险箱在遭到暴力撬锁时，要有发出警报声并再加一把锁的反应。

“我们认为，存储既要有其功能，也要在发生勒索事件时及时‘关门’的能力。”在周跃峰看来，避免人因损害等数据的内生安全，应成为存储的基本要求甚至强制要求，否则会留下重大隐患：“有时候数据的安全问题一旦爆发就是0和1的区别，数据丢了就是丢了。”

存、算、网须紧密协同

在华为全联接大会2024期间，中国工程院院士倪光南在相关主题发言中谈到，智算集群建设就好比构建一个足球冠军团队，不仅需要有优秀球员，还需要球员之间的协同和配合以达到最高效能。智算集群是一个复杂工程系统，而不是简单的软硬件的堆砌，它要求“3+1”算力体系，即存、算、网和服务的紧密协同。

他说，也正是基于复杂工程系统思维，智算集群在算力规模、算力利用率、集群可靠性等关键指标上，才可以持续“挑战”和“对抗”源于单模块、单机、单系统的各种物理极限和物理失效问题。

“以国内刚刚建成的某运营商超大规模集群为例，它共含近2万张算卡，2000多台智算设备，近8万根线缆互联，700多台RoCE高速交换机，以及800多台通用计算、存储设备，10万+光模块占用1千多个机柜。数量巨大的这些设备之间相互交织互联，任何一个关键点出现问题都可能影响训练任务中断，“一卡断，万卡停”。

“一个典型的超大规模集群一年的运营成本超过亿元，假设由于各种单点故障导致了训练时间上5%的浪费，都会带来上千万元的直接经济损失。”倪光南说。

周跃峰对上述观点无比认同。“西方发达国家在构建AI基础设施的时候，是存、算、网协同发展的。”他谈到，英伟达构建的AI超级计算机——DGX SuperPOD，不单单是靠GPU，它收购了Mellanox这家网络公司，同时跟许多存储厂商合作，搭建了许多私有协议，最终才搭建出了这台全球超算排名前十的“巨无霸”。

“如果有所谓专家只是学计算机的，不懂网络、不知存储，他一定不能领导整个IT基础设施的建设和发展。”周跃峰说。

编辑部推荐博文
基金申请倒计时！这项优化让你的本子脱颖而出科学网2026年1月十佳博文榜单公布！ “路线” 还是 “通道”？环保人需厘清临床神经精神病学与神经科学交叉领域期刊科学家完成椰壳纤维增强淀粉基生物复合材料的声学性能研究太阳能电池通过增强光吸收与最小化能量损失实现更多>>