当今世界上的主流大模型,主要支持英语、中文等常用自然语言,以及法语、德语、西班牙语、意大利语、葡萄牙语、俄语、日语、韩语等有丰富语料的高资源语言;那些数字化语料稀缺的“低资料”语言往往所获支持甚少,甚至无法直接使用。换言之,尽管大模型的“世界舞台”分外热闹,许多小语种国家却面临着被AI边缘化的风险。
在日前在上海举办的2025世界人工智能大会(WAIC)上,一场会议专门就此展开研讨。作为WAIC技术方向的重要议题,这场“科大讯飞高级别高水平多语言基座大模型国际学术研讨会”(以下简称“研讨会”)上,汇聚了来自亚洲、欧洲近20个国家和地区约30位人工智能领域的产学研各界代表。
科大讯飞高级别多水平多语言基座大模型国际学术研讨会部分与会嘉宾合影。 科大讯飞供图
?
“语言模型不能只服务‘大语种’,每种语言都应拥有体现其文化身份的大模型。”研讨会上,塞尔维亚诺维萨德大学技术科学学院教授弗拉多?德利奇(Vlado Deli?)的观点说出了与会者的心声。他说,为避免在医疗、法律等关键领域出现误译等风险,小语种国家也必须构建符合本国语言特点和文化语境的国家级大模型。
每个人都该拥有“数字巴别鱼”
在英国作家道格拉斯?亚当斯的科幻小说《银河系漫游指南》中,有一种可以理解并自动翻译所有语言的神奇生物——“巴别鱼”。巴别鱼以接收脑电波能量为生,人们只需将它塞入耳中,就能听懂各类外星种族的语言。
现实中当然没有巴别鱼,但大模型技术有进化出“数字巴别鱼”的潜力。
例如,研讨会上,科大讯飞研究院院长刘聪就介绍了星火大模型X1在多语言技术方面的最新升级:它可以支持130+语种,在阿拉伯语、德语、法语、韩语、日语等语种都有出色表现;同时,通过混合语种路由等技术创新,星火语音大模型支持100个语种的语音识别、支持55个语种的语音合成。这意味着,世界上大部分人群都可以直接跟星火“对话”。
“我们希望构建全方位的多语言大模型和它的应用,给世界提供第二种选择。”刘聪说。
“多语言AI就是现实版的‘巴别鱼’。”英国萨里大学“以人为本的人工智能研究中心”联合主任、教授宋一晢认为,人工智能的终极目标是服务人类价值、赋能每一个个体,不能只属于少数人。所以,要将AI从“云端”带到“用户端”。
就此话题,宋一晢谈到了“以人为本的人工智能研究中心”命名的初衷。
“我们3年前成立‘以人为本的人工智能研究中心’,就是希望致力于让AI不再只是‘一项技术’,而是一种可以跟社会、企业结合,可量化、可体验的事物,它将以人为本作出贡献。”他说,像AI这样的技术,会延伸到人类活动中、理解人的不同需求,这同时也意味着,所有人都应该“同样被理解”。
他提到,研讨会上要探讨的议题与“以人为本”的目标相近,尤其是多语言大模型:“人们对它的关注还不够,科大讯飞能做出来,是非常坚实的第一步。”
“小语种”语言大模型的尴尬
此次研讨会上的嘉宾,不少来自“小语种”国家。
“如果语言被技术遗忘,这个群体也会被时代遗忘。”柬埔寨金边皇家大学计算机科学系教授亨?索万纳利特(Heng Sovannarith)的发言既是警示,也是诉求。而要回应这一诉求,就要像以色列人类语言技术协会创始人兼董事阿夫纳?阿尔戈姆(Avner Algom)提到的那样:“语言服务不能只为大语种设计,小语种也应拥有技术平权”。
反映在大模型的训练上,语种的大小(或语言数字资源的多寡)反差很明显。一个典型的例子——在GPT-3 的训练数据中,英语占比超过90%,而斯瓦希里语、藏语等语言的数字化文本量可能不及英语的百万分之一。这种数据鸿沟直接导致低资源语言的模型性能显著落后。斯坦福大学一项研究显示,ChatGPT 等模型在越南语(约9700万使用者)中的表现比英语差30%,在纳瓦特尔语(仅约150万使用者)上的准确率甚至不足50%。
对此,马来西亚拉曼理工大学企业孵化与创业中心副主任余永波(Yu Yong Poh音译)提出:“文化理解力比参数规模更重要。”
与会嘉宾认为,面对“小语种”在大模型时代的挑战,开展国际合作将是重要解决路径。
弗拉多?德利奇表示,希望通过与中国的科大讯飞等机构的合作,将塞尔维亚的语言技术纳入全球AI生态。他说,目前双方已启动合作规划,计划将塞尔维亚语及相关南斯拉夫语言接入讯飞的翻译设备与智能应用系统,并以2027年贝尔格莱德世博会为阶段目标,打造本地化大模型。
阿夫纳?阿尔戈姆也分享了希伯来语AI技术发展经验。他说,希伯来语虽是世界上唯一被成功复兴为现代口语的古老语言,但在自然语言处理领域仍属低资源语言。为此,以色列人类语言技术协会基于开源模型,已训练出“希伯来语+英语”双语大模型,并尝试将其部署于教育、客服、医疗等场景。但这些工作仍需通过财政激励等机制,并联合产业界解决数据获取合法性、训练成本和落地门槛问题。
用“中国智慧”弥合智能鸿沟
在回答“本国如何构建大语言模型”问题时,匈牙利语言学研究中心高级顾问塔马斯?瓦拉迪(Tamás Váradi)谈道,一国构建大语言模型需要考虑很多因素——不只是需要决心和想法,更需要基础设施,尤其数据基础设施“至为关键”。
“有自己独立语言的各个国家有责任提供的,不仅是简单堆积的原始数据,更要提供经过专业标注的数据集。”他说,如此方能使大模型开发者在混合体系中实现对该语言的均衡优化和表征。
“比如匈牙利语——一种不属于印欧语系的小语种,就像一个‘语言孤岛’,因此我们有责任提供高质量的语言数据。”瓦拉迪说。
此外,瓦拉迪认为,通过评估体系促进多语言公平呈现,是各国“另一个能真正作出贡献的领域”。
“我们不能期望全球合作伙伴对其用于数据训练的庞大语言混合体系中的每一种语言都具备相关知识,并能精准理解所有语言的细节特征。”瓦拉迪说,因此,(小语种国家)要致力于持续产出更丰富的评估数据集,以对多语言模型进行评估,并通过开放平台供各方测试这些模型在小语种上的表现。
话说回来,大模型技术如何兼顾“小语种”的议题,在国内早已有之。据中国政府网数据,中国作为一个多民族国家,有130余种语言、十大方言,各方言区内又有数不清的“次方言”和许多种“土语”——这些语言如何“上车”大模型,与小语种国家面对的情况相似。
刘聪告诉《中国科学报》,早在2017年,科大讯飞就启动了一项名为“方言保护计划”的公益项目,致力于用AI技术保护濒危语言。近年来,基于讯飞星火大模型的底座能力,科大讯飞在多语种、多方言能力方面也在持续突破。其中,讯飞多语种技术已为华为、比亚迪、海尔等中国企业的1.2亿台套设备提供语音交互支持,涵盖23种语言,在非洲、东南亚等国家落地。
与此同时,讯飞还通过开放平台将相关的语音识别、合成等能力开放出来,让全球合作者开发多语种的智能产品。刘聪说,目前科大讯飞已开放813项AI能力接口,其中272项AI能力专门面向多语种需求。
“多语言AI是国际交流不可或缺的技术桥梁。”刘聪表示,科大讯飞将以“技术赋能+生态共建”双轮驱动,携手全球伙伴共建开放平台,共享技术成果和应用场景,用“中国智慧”助力不同文化背景的国家弥合智能鸿沟,共同构建更包容、普惠的全球人工智能生态。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。