作者:赵广立 来源:中国科学报 发布时间:2025/8/29 21:49:53
选择字号:
中文多模态视觉语言模型测评基准发布8月榜单

 

8月29日,中文多模态视觉语言模型测评基准(SuperCLUE-VLM)8月榜单正式发布,字节跳动Doubao-Seed-1.6-thinking-250715、百度ERNIE-4.5-Turbo-VL多模态大模型分别以67.13分、66.47分的成绩位列总榜单第三、四位,并列位居国内模型第一(考虑到波动影响,该排行榜将相差1分以内的模型视为并列名次)。

SuperCLUE-VLM多模态视觉语言基准评测8月榜单。图源:SuperCLUE


本次评估覆盖Claude-Opus-4.1、Gemini-2.5-Pro、GPT-5(high)、ERNIE-4.5-Turbo-VL、Doubao-Seed-1.6-thinking、hunyuan-t1-vision、Qwen-V1-Max-Latest等国内外15款多模态模型。基于中文场景特点,SuperCLUE-VLM围绕基础认知、视觉推理和视觉应用三大核心维度进行评测,全面考察模型在真实任务场景下的能力。

测评结果显示,Gemini-2.5-Pro 以总分74.99分领先,OpenAI GPT-5(high) 以总分68.59分位居第二,字节跳动Doubao-Seed-1.6-thinking-250715百度ERNIE-4.5-Turbo-VL-32k-preview 紧随其后,并列国内模型第一,显示了国内头部模型在视觉推理、视觉应用等高阶任务上的进步,凸显了中国在多模态大模型领域的竞争潜力。

据早前公开报道,6月30日百度开源文心4.5系列10款模型,其中ERNIE-4.5-VL视觉语言模具备复杂的图文与视频理解能力,支持超过100种语言交互,其跨模态能力覆盖文档处理、视频管理、学习解题等核心任务场景。百度方面表示,依托“芯片-框架-模型-应用”的全栈自研体系,百度持续推动文心大模型能力进化。同时得益于飞桨文心的联合优化,文心大模型的能力拓展和效率提升。

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
科学家发现将阳光转化为燃料的新方法 3D打印让瘫痪大鼠重新行走
喜马拉雅黑豌豆营养价值获研究认定 捉到幽灵粒子,江门中微子实验正式运行
>>更多
 
一周新闻排行
 
编辑部推荐博文