8月18日,在《麻省理工科技评论》中国(MIT TR China)发布的一项大模型评测报告中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,以 81.5 分(百分制计)的成绩在本次评测中获评为“最聪明”的国产大模型。
据介绍,该评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共 8 个一级大类,126 个二级分类,290 个三级标签,并针对问题的丰富性和多样性做了优化,力图从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力。
在题目类型上,为了兼顾定量、定性的评价与测试,MIT TR China在评测中设置了“单选”、“多选”、“填空”、“简答”4个题型,分别有 145 道、138 道、136 道和 181 道。其中,语言专项评测中包含对话理解、多语种、讽刺、古诗词理解、文本生成、要点总结、情感分析、语义判断等 61 个二级分类,题型则以主观题简答为主。
值得一提的是,大模型评测体系使用盲评方式,以客观评估国产大模型的“聪明”程度。
结果显示,讯飞星火在主客观题型评测中均有良好表现:主观简答题中讯飞星火凭借 83.98% 的得分率位居第一;而在客观题上,讯飞星火以 75.7% 的得分率排名第一。其中,讯飞星火在编程能力、理科综合、逻辑思维、数学专项、语言专项和综合知识这 6 个一级大类中表现十分出色,尤其是在代码生成、数学能力、理科与逻辑等方面优势明显,是本次评测中“最聪明的理科生”。
在刚刚过去的8月15日,讯飞星火认知大模型V2.0如期发布,进一步突破代码能力和多模态能力;技术获得重大突破的同时,搭载讯飞星火V2.0核心能力的应用和产品也越来越丰富。此外,科大讯飞还和华为联合发布星火一体机,宣称要“让每一家企业都有机会构建专属大模型”。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。