12月30日,北京智源人工智能研究院(以下简称“智源研究院”)举办自然语言处理(简称NLP)重大研究方向前沿技术开放日活动,活动中发布了大模型评测的“命题”新方案——智源指数。
清华大学教授、智源研究院自然语言处理(NLP)方向首席科学家孙茂松表示,人工智能大模型时代,评测基准成为大模型发展的风向标。从扁平到全面系统,从简化到多重维度,智源指数CUGE旨在尝试为大模型评测设计一张全面评估综合能力的新考卷。
据介绍,在基准框架上,不同于传统将常用数据集扁平组织的方式,智源指数根据人类语言考试大纲和当前NLP研究现状,以语言能力-任务-数据集的分层框架来选择和组织数据集,涵盖7种重要的语言能力、17个主流NLP任务和19个代表性数据集,全面均衡,避免“偏科选拔”。
在评分策略上,智源指数能更好展现模型不同维度的模型语言智能差异:依托层次性基准框架,提供不同层次的模型性能评分,包括数据集、任务和语言能力等,系统性大大加强。
为了促进智源指数的共建共享,提升智源指数的易用性,本次活动还同时发布了在线评测平台和公开排行榜,支持多种展示模式,包含综合榜、精简榜和单数据集榜,方便用户快速多角度了解模型和数据集特性及最新动态。
清华大学副教授、智源青年科学家刘知远表示,基于单数据集的榜单能力,未来智源指数将定期吸纳最新优秀数据集。同时,我们还将依托智源研究院、智源社区的力量,建立用户面向数据集和评测结果的反馈、讨论机制,构建起中文高质量数据集社区,推动中文自然语言处理的发展。
清华大学教授、中国工程院院士戴琼海对智源指数在创新方向上的尝试给予了充分肯定:“机器中文语言能力评测基准‘智源指数’,对中文信息处理乃至我国人工智能的发展,具有重要的里程碑意义。”
除“智源指数”外,本次活动中还进行了“自然语言处理评测中的问题与对策”“迈向通用连续型知识库”“文本复述生成”等研究成果的阶段性汇报,内容涵盖预训练模型、知识计算、人机对话、文本生成等10余项重点NLP科研问题。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。