中文大模型测评基准3月报告出炉—新闻

作者：赵广立来源：中国科学报发布时间：2025/3/19 19:29:54

选择字号：小中大

中文大模型测评基准3月报告出炉

3月18日，中文大模型测评基准SuperCLUE发布3月报告，该报告显示，豆包、混元、通义千问、DeepSeek-V3位列基础模型国内前四位。

中文通用大模型综合性测评基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况；包括但不限于：这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何等。它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。

3月排行榜单。截图自SuperCLUE

SuperCLUE最新排行榜单显示，豆包、混元在基础模型排名中表现优异，位列国内前二，稳居国内大模型第一梯队。在模型象限中，腾讯混元凭借卓越的应用能力排名国内第一，在文本理解与创作、指令遵循以及Agent能力等多个维度刷新最新成绩。在实际应用中，这些能力可以让模型变得更加聪明，更懂用户的问题，从而给出更准确的回复。

另据了解，在海外最新发布的大模型竞技场chatbot arena中，腾讯混元首次上榜，进入全球Top 15，并获官方推荐。据介绍，参与测评的是腾讯混元最新推出的旗舰模型Turbo S，该模型于2月底正式发布，主打快思考，能够更快速输出答案，实现秒回，吐字速度相比前代模型提升一倍。

SuperCLUE榜单链接：

https://mp.weixin.qq.com/s/Nv0YozaCX4cmeiroyq7YEg

编辑部推荐博文
论文投稿新问题！审稿人说插图AI感太重…… 实验复现困难，实验室数字化如何扭转这一危机？基于锌负极的氧化还原增强型混合电容器的电解质工程研究为何常成为论文评审中的薄弱环节？多场耦合烧结技术引领高性能材料制备新纪元紫荆、紫藤和紫薇！更多>>