|
|
“大厂”角逐大模型,它为何成为“新基建” |
——以腾讯Angel机器学习平台为例谈 |
世人皆知算力、算法、数据是人工智能大模型的三驾马车,驱动AI奔向新纪元。在这幅图景里,拉车的是“三马”,狂奔的是AI大模型,那么“车”是谁?
好问题。但先不急揭晓谜底,我们先来看一条不久前的新闻。
套“三马”的车:AI机器学习平台
今年5月,腾讯混元大模型星脉网络技术团队针对DeepSeek开源的DeepEP通信框架进行深度优化,使其在RoCE、IB等多种网络环境下均实现显著性能提升。对此,DeepSeek公开致谢,称这是一次“huge speedup”(巨大的加速)代码贡献。之后,腾讯团队也将这一技术开源。
这是开源社区一次友好的开放共建、互动共享。从这件事可以看到腾讯团队在大模型技术方面的两点坚持:一是创新,二是关注技术的场景应用。
这两点,也恰恰和我们的谜底有关系。星脉网络是腾讯Angel机器学习平台这个“超级流水线”上关键一环,它的使命是让训练模型的成千上万张算力卡能够“集团作战”,以便算力集群能够更好地协作,高效处理海量数据,支持算法落地。
看到这里,已经有人找到了前面问题的答案:这辆“马车”,就是AI机器学习平台,它包含了模型训练和推理一整套流程。从开发者的角度来看,能够同时把算力、算法、数据这三匹“骏马”整合在一起的,也只有AI机器学习平台这一大模型“工厂”。
如今,在算力、算法和数据之外,AI机器学习平台正在成为各基础大模型“大厂”越来越重视的新基建。
AI工业化时代的核心“新基建”
作为大模型训推的“工厂”,AI机器学习平台在大模型出现之前,人们习惯称之为“深度学习框架”;现在,人们更愿意叫它“机器学习平台”或“训练/推理平台”。就其功能性而言,AI机器学习平台更像是一片沃土和工厂,离开了它,开发者将“难为无米之炊”。
以英伟达DGX1计算系统为例,它不仅是一台高性能计算机,更是集成GPU 集群与深度学习框架的软硬一体平台。如果不是预安装了经过深度优化的CUDA 8.0、cuDNN 5.1、TensorFlow/PyTorch 框架以及 DIGITS 可视化训练工具,恐怕它也不会如此“引无数英雄竞折腰”。
也正因此,机器学习平台几乎成了基础大模型厂商的标配。可以看到在国内,阿里通义有PAI,百度文心有飞桨,腾讯有Angel,等等。
机器学习平台为何如此受青睐?腾讯机器学习平台部总经理陈鹏说,提升业务效率、促进团队协作、优化资源管理等等,都可以成为“大厂”蓄力发育机器学习平台的理由,但它最重要的角色,“我认为是AI‘工业化’的核心基础设施”。
陈鹏以腾讯Angel机器学习平台为例谈道,作为AI工业化的基础设施,Angel机器学习平台对内驱动全系列混元大模型(从0.5B至万亿参数)的迭代升级,涵盖语言模型、多模态生成模型等,支撑其应用于微信、广告推荐等业务场景;对外,Angel机器学习平台支撑各型号混元大模型通过腾讯云服务30万企业客户,覆盖金融风控、广告投放、工业质检等场景。同时,Angel平台支持异构芯片混合计算,可灵活调度不同芯片算力,推动自主可控技术落地。

腾讯混元T1的迭代开发离不开Angel机器学习平台。
?
陈鹏介绍说,在大模型训练任务中,机器学习平台就是“工厂超级流水线”。在这条流水线上,共性技术被提炼、流程要素被整合;模型从训练到部署,质量可控、效率翻倍,真正从“实验室研发”转化为产业生产力。
腾讯Angel平台的技术价值不仅体现于混元大模型的成功落地,更通过开源生态与云计算输出,推动千行百业智能化升级,成为AI工业化时代的核心“新基建”。
开发者共同成长的“数字家园”
“大厂”重视AI训练平台的建设,当然还有打造开发者生态的愿望在其中。陈鹏说,机器学习平台对汇聚开发者、打造开源社区的价值很大,其作用远超技术工具本身。
开发者生态对于大模型技术落地而言,比机器学习平台本身更重要,其中道理很简单:机器学习平台可以用一支百人量级的队伍来构建,但生态需要几万、几十万乃至上百万的人参与才可以。对于大模型等AI技术应用而言,市场只会为解决应用问题买单,不会为训练平台买单。
作为国内首个从LF AI基金会(系Linux基金会旗下面向AI领域的顶级基金会)毕业的开源项目,腾讯Angel平台的技术文档和 API 设计遵循国际标准,吸引华为、小米等百余家企业和机构参与生态建设,目前累计贡献者已超1.8万人,其中超过 20% 的社区贡献者来自非中文地区。
AI机器学习平台为数据工程师、算法工程师、业务研发工程师等不同角色提供了统一的工作平台和流程。各方可以在平台上协作,实现数据、模型、代码等资源的共享和管理,提高团队协作效率。同时,机器学习平台还提供可视化界面和统一接口,方便不同专业背景的人员理解和使用,降低沟通成本。
陈鹏表示,未来随着AI 工业化加速,AI机器学平台将进一步成为技术民主化的基础设施,推动全球开发者共建普惠的AI落地和应用。
“第一梯队”的战略坚守
在刚刚落下帷幕不久的世界人工智能大会(WAIC)上,腾讯向世界展示了其加速推动AI从技术突破迈向场景落地、打造真正“好用的AI”的实践与愿景。
在AWAIC腾讯论坛上的信息显示,腾讯混元大模型已实现图像、视频、3D、文本等在内的全模态开源,图像、视频衍生模型数量达到3000+个,混元3D系列模型社区下载量超过230万,成为“最受欢迎的3D开源模型”。而面向端侧的0.5B到7B系列小模型也在近期陆续开源,助力开发者高效构建AI原生应用。
混元系列小模型陆续开源。
?
自2025年以来,腾讯混元大模型持续迭代、小步快跑,混元家族不断拓展,端到端语音模型Voice、多模态理解模型Vision等相继推出。尤其在多模态理解上,腾讯今年连续发布多款模型,在LMArenaVision全球大模型权威榜单中跃居国内榜首,中文能力稳居全球第一梯队。
而对于AI发展态势,腾讯相关负责人表示,AI是一场工业革命级的技术创新,对个人和产业发展都将产生前所未有的价值。但相对于一个完整的技术周期,当前AI还处于发展的初级阶段。
因此,腾讯的技术战略,仍然是夯实地基、咬定“平台能力”不放松。现成的例子是,WAIC大会上,面向当前火热的智能体(Agent)应用开发,腾讯云推出了全新升级的智能体开发平台,帮助企业一站式完成从数据处理、模型训练、知识融合到部署上线的完整流程,降低智能体开发门槛。
“腾讯将持续围绕模型、平台、应用等维度发力,结合腾讯丰富的应用生态优势,全方位推动AI从技术突破走向场景实践,让好用的AI出现在离用户和产业更近的地方。”陈鹏说。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。