|
开源开放推动系统创新 加速AIDC全球协作 |
2025开放计算技术大会举行 |
|
8月7日,2025开放计算技术大会在北京举行。大会聚焦在MoE大模型与AI智能体的技术发展趋势下,如何以开放计算更好地促进纵向扩展性能(Scale up)与横向扩展效率(Scale out)的协同发展。
当前,模型算法开源、算力系统开放已经成为AI时代的主流趋势之一,开源开放的全球化协作平台正发挥越来越重要的作用。平台既能以系统化思维,通过提升单系统性能,满足万亿参数大模型发展的需求;又能应对日益扩张的数据中心规模,通过全球产业链协作解决未来GW级AI数据中心面临的系统性工程挑战。
2025开放计算技术大会由开放计算社区OCP(Open Compute Project,开放计算项目)及开放标准组织OCTC(中国电子工业标准化技术协会开放计算标准工作委员会)联合主办,以“开放变革:筑基、扩展、进化”为主题,聚焦计算、存储、网络、液冷等基础设施底层架构的技术创新,算法与算力系统、硬件和软件的协同创新,以及开放计算技术赋能人工智能热门应用等议题。来自中国移动、字节跳动、阿里云、三星、浪潮信息、清华大学、立讯技术等超千位知名学者、技术专家、应用开发者及厂商代表参与了大会。
在本次大会上,龙蜥社区智算基础设施联盟正式成立,联盟汇聚AI芯片、服务器、操作系统、应用开发及高校等产业链各方,以“打造AI原生操作系统、形成开放兼容的AI生态体系、增强AI产业链竞争力”为目标,聚焦开源大模型等AI技术落地过程中的兼容适配、系统稳定性、人才培养以及AI安全等问题,推动操作系统和AI融合发展,促进AI技术在各行业的落地应用。
大会现场。主办方供图
开源开放加速全球化协作,推动AI普惠
开源大模型(如Llama3、DeepSeek、Qwen、GLM、MiniMax)的意义已超越技术本身,深刻重塑了全球AI产业格局和发展路径。它们大幅降低了获取、部署和定制先进AI能力的门槛,使各类企业与个人开发者都能便捷利用顶尖技术,推动研发范式从封闭走向开放协作,显著降低技术壁垒,加速实现“智能平权”。
与之伴生的是,公共云平台和模块化AI基础设施的普及,为开源模型的规模化落地和应用创新提供了至关重要的开放算力基础。这种开源模型与开放算力的结合,会有效驱动海量长尾应用爆发,进一步加速AI普惠的实现。
OCP基金会高级总监Michael Schill表示:“过去的十数年间,OCP所建立的全球化协作创新模式成功开发及实施了数以百计的项目,在极大激发创新活力的同时也重塑着数据中心产业。随着AI日益成为社区成员关注的核心场景,OCP的工作重心正转向AI主导,所有核心工作围绕着AI开放系统(Open Systems for AI)战略计划展开,包括数据中心物理基础设施、数据中心IT基础设施和系统管理三个重点领域,并且发布了《可扩展基础设施的蓝图》,这是AI开放系统战略计划当中的重要工作成果。”
OCTC秘书长陈海认为:“产业协同创新要从应用出发、从用户思维出发,坚持标准引领产业发展,制定更切实落地的规范标准,推动和加速数据中心各领域的技术创新与成果普惠,让更多的组织和个人从中获益。例如,面向多元计算资源组合和多应用场景的服务器算力算效评估基准,就是通过系统评估服务器整机的综合算力与能效表现,为行业提供科学、可信的算力算效评估体系,为用户服务器架构选型和优化提供标准范式。”
针对指数级增长的智算需求,OCTC与OCP聚焦现阶段用户需求与产业技术方向,正在探讨如何加强双方在开放算力、液冷等方面的合作,两大社区的互通合作将形成一个更加融通的、更多地区、国家和行业通行的国际化标准,让底层技术实现全球共享,加速技术普惠。
大会现场。主办方供图
创新超节点架构,凸显产业链融合创新之力
毋庸置疑,开放计算的兴起与日益壮大,使得数据中心产业链的协同效应更紧密、融合创新能力更强,这一点对于飞速迭代的AI产业至关重要。
目前,MoE大模型的参数量仍在保持高速增长且迭代迅速,对单系统的算力密度与互联速率提出极致要求,带动了计算架构的变革。此次大会重点探讨并集中展示了创新的超节点计算架构,在高速互联、通信协议、内存控制、系统架构设计等层面实现全维度创新,能够满足万亿级别参数MoE大模型应用需求,凸显出开放计算的产业链融合创新之力。
2025 OCTC轮值主席、中国移动通信有限公司研究院副院长段晓东指出,MoE大模型持续推高大算力,仍然是今天的时代主题,产业将会很快迈入以超节点这种网络和算力、软件和硬件全面协同优化的时代。超节点打破了传统服务器的物理边界,触发了系统性变革,互联技术成为提升集群有效算力的关键。随着卡间互联技术的发展,开放互联架构将在下一代智算集群中发挥重要作用。
浪潮信息副总经理赵帅强调,开放计算社区的核心目标就是利用生态力量打破性能瓶颈,推动业务创新发展,这是一种系统化思维与应用价值导向。超节点架构本质上也是系统化思维的产物,它不是某一个点的突破,而是在现有技术、生态和成本约束下,从系统层面去打破芯片本身的性能边界,最大化用户价值。作为社区的一员,浪潮信息后续将向社区成员开放自研的超节点架构设计以及PD分离框架,推动开放超节点架构的发展。
大会现场。主办方供图
高校企业平台三方联合,加强产学研全链条互动
大会后的媒体专访中,龙蜥社区智算基础设施联盟主席宋卓表示,联盟与清华大学、上海交通大学、澳门大学及天津大学等几家高校有着紧密的合作。高校在开源中贡献了重要力量,具备持续创新和探索的能力,与企业的合作具有非常强的合力。此外,社区和联盟都希望能与高校进行更多分享和交流,进一步将工业界的问题协同高校一起思考,一起解决。
龙蜥社区技术委员会主席杨勇指出,在AI领域,高校或者科研机构的力量扮演了重要角色,早期的许多关键项目都有国内外顶尖高校的人才背景。同时,国内外正面临一个现实问题,受分布式推理成本过高的影响,高校普遍很难获取算力。希望能通过结合社区搞产学研的方式,企业能提供一些算力平台跟高校进行合作,形成功能实践与产学研协作的成熟模式。
浪潮信息系统软件产品部总经理苏志远提出,高校或者科研机构在使用AI技术时,常常会面临诸多技术难题,尤其是不同加速器上因基于不同Python、Gcc版本编译的vLLM、Pytorch等软件所带来的编译效果问题。这种差异不仅增加了科研人员的时间成本,还可能影响科研项目的推进效率。联盟通过整合产业链上下游资源,能够有效统一操作系统版本、内核以及Python软件包的选型,为高校科研人员提供了一个更加稳定和高效的科研环境。
FlagOS社区秘书长朱其罡认为,现在国内的AI基础人才相对比较匮乏,需要从建设人才梯队角度出发,做好更充分的准备。如AI编译器,现在国内没有这样的课程,这样的专业也是没有的。而社区可以从资源整合的角度,推动全国性大赛,选拔青年人才。
GW级AI数据中心驱动更紧密的跨社区协作
随着AI计算需求的持续爆发式增长,单机柜功率将从当前的100+kW跃升至未来的1MW以上,AI数据中心的电力需求也将步入GW级。AI数据中心正在从“机柜级密度革命”迈向“数据中心级系统工程挑战”,更需要全球产业链开放协同,优势互补,共同应对挑战。
未来,开放计算技术大会将致力于打造全球开源开放联合体,为数据中心产业链上下游搭建起全球链接协作平台,推动不同国家和地区的开发者参与开放计算项目,加强产业链互联互通和开放协作,推动全球供应链创新融合发展,进而增强社区的多元化和包容性。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。