采用Sora同款架构，混元文生图大模型宣布开源—新闻

作者：赵广立来源：中国科学报发布时间：2024/5/14 18:15:32

选择字号：小中大

采用Sora同款架构，混元文生图大模型宣布开源

5月14日，腾讯宣布其旗下混元文生图大模型全面升级，并对外开源。据了解，这是首个中文原生的类Sora 架构开源模型，填补了国产大模型在文生图先进架构上的空白。

目前，主流的文生图开源生态基本围绕英文建设，如Stable Diffusion 等主流开源模型，虽然一定程度支持中文输入，但其核心数据集仍以英文为主，对中国的语言、美食、文化、习俗都理解不够，容易因翻译而产生语义分歧乃至生成错误。

建设中文原生的大模型以及相应的开源生态迫在眉睫。据腾讯文生图负责人芦清林介绍，混元文生图大模型以中文原生为基础，支持中英文双语输入及理解，更理解中文语境，对中国的古诗词、俚语、美食、文化、习俗等都有更好的生成效果。升级后的混元文生图模型采用了基于Transformer的扩散模型架构（简称DiT架构，是此前爆红的文生视频产品Sora 背后的关键技术），具备更强的可扩展性，参数量越多、性能越强，可持续提升视觉模型生成效果及效率。

目前，腾讯混元文生图模型参数量为15 亿。评测数据显示，最新的腾讯混元文生图模型效果相比前代提升超过20%，远超开源的Stable Diffusion模型，在目前已开源的文生图模型中，综合性能佳，达到国际先进水平。

据介绍，腾讯混元的文生图能力，已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初，腾讯广告基于腾讯混元大模型，发布了一站式 AI 广告创意平台“腾讯广告妙思”，可为广告主提供文生图、图生图、商品背景合成等多场景创意工具。

芦清林表示，腾讯混元文生图的研发思路就是实用，坚持从实践中来，到实践中去。此次把最新一代模型完整开源出来，是希望与行业共享腾讯在文生图领域的实践经验和研究成果，共建中文文生图开源生态，加速大模型行业发展。

芦清林介绍，基于腾讯此次开源的文生图模型，开发者和企业无需从头训练，即可直接用于推理，并可基于混元文生图打造专属的AI绘画应用及服务，能够节约大量人力及算力。透明公开的算法，也让模型的安全性和可靠性得到保障。同时，基于开放、前沿的混元文生图基础模型，也有利于在以英文为主的文生图开源社区之外，丰富以中文为主的文生图开源生态，形成更多样的原生插件，推动中文文生图技术研发和应用。

编辑部推荐博文
论文投稿新问题！审稿人说插图AI感太重…… 别让 AI 成了你论文的“造假助手”：双模型交叉验证与学术文献的“防幻 ... 迎面碰上新技术革命，教育界应该采取什么态度？第四届可持续出版论坛暨第一届出版科学研讨会报名已开启泡菜乳酸菌或能帮助人体排出微塑料科学与技术的底层更多>>