阿里云：CPU为中心的计算体系也可加速AI推理—新闻

作者：赵广立来源：中国科学报发布时间：2024/1/12 11:13:50

选择字号：小中大

阿里云：CPU为中心的计算体系也可加速AI推理

1月11日，阿里云宣布第八代企业级通用计算实例ECS g8i算力再升级，国内首发代号Emerald Rapids的第五代英特尔至强可扩展处理器，依托阿里云自研的“飞天+CIPU”架构体系，ECS g8i实例的整机性能最高提升85%，AI推理性能最高提升7倍，可支撑高达72B参数的大语言模型。

阿里云弹性计算产品线总经理张献涛表示：“阿里云ECS g8i实例的强劲表现，证明了以CPU为中心的计算体系同样具备加速AI推理的巨大潜力，公共云不仅可胜任超大规模的AI模型，也为AI应用加速落地开辟了新路径。”

对此，英特尔中国数据中心和人工智能集团至强客户解决方案事业部总经理李亚东解释说，最新上市的第五代英特尔至强? 可扩展处理器每个内核均内置 AI 加速功能，有能力处理要求严苛的 AI 工作负载。与上代相比，其AI训练性能提升多达 29%，AI推理能力提升高达 42%。

生成式AI掀起的技术革命，正在推动计算范式发生根本性的变化。当前，AI大模型推理在算力上依然面临诸多挑战，例如首包延迟受限于并行处理能力与浮点运算能力、吞吐性能则受限于内存带宽和网络延迟等。

阿里云ECS g8i实例针对这些难题进行了优化，包括内置指令集从AVX512升级到了Intel AMX高级矩阵扩展加速技术，可让生成式AI更快运行。相对于AVX512指令集，启用AMX AI加速后，ECS g8i 实例在int 8矩阵计算的性能最高提升7倍。基于AMX AI加速能力，g8i可更迅速地响应中小规模参数模型，运行知识检索、问答系统及摘要生成等AI工作负载时，起建成本相比A10 GPU云服务器下降50%。

与此同时，基于自研eRDMA超低延时弹性网络，阿里云g8i实例集群拥有超低延时网络和高弹性优势，可支撑72B参数级别的大语言模型分布式推理，推理性能随集群规模接近线性加速，并可支持超过32batchsize的超大参数规模的AI模型负载，运行文生图、AI生成代码、虚拟助手以及创意辅助工具等AI工作负载。

以阿里云通义千问开源的Qwen-72B大模型为例，可在g8i实例eRDMA网络构建的集群实现高效运行，在输入小于500字情况下，首包延时小于3秒，每秒可生成7个Token。

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！科研传播新形态：视频摘要的兴起与生态构建机会总归会有的【EI会议推荐】会议主题：电子信息、计算机等人文社科教育学SSCI，无版面费！更多>>