作者:文乐乐 来源: 中国科学报 发布时间:2025-7-31
选择字号:
非洲语言遭忽视,科学家欲改变AI模型现状

 

本报讯 在人工智能(AI)时代,有2000多种非洲语言被忽视。例如,ChatGPT只能识别10%~20%的豪萨语句子,而后者是9400万尼日利亚人使用的语言。由于缺乏训练数据,这些语言在大语言模型(LLM)中代表性不足。现在,非洲各国的研究人员正在努力改变这一状况。

据《自然》报道,“非洲下一个声音”项目的研究人员录制了长达9000小时的不同非洲语言的音频,并将其转化为数字化的语言数据集。近日,他们发布了首批数据。这些数据是开放获取的,可供开发者将其整合到LLM中,例如那些用于语音转文本或提供自动语言翻译的模型。

“看到它将为这些特定语言的建模带来改进,并为致力于非洲语言的技术社区提供帮助,我感到非常兴奋。”尼日利亚非营利组织“数据科学尼日利亚”的首席技术官Ife Adebara说。

“本地语言在AI模型中的代表性不足,仍是推广最有前景的AI工具的一个关键挑战。”美国盖茨基金会的数字公共基础设施主管Sanjay Jain表示。盖茨基金会为这个项目提供了220万美元的资助。

“非洲下一个声音”项目记录了南非、肯尼亚、尼日利亚这3个国家的18种语言。这些录音随后将由人工转录和翻译。

肯尼亚马塞诺大学的计算语言学家、该项目的肯尼亚负责人Lilian Wanzare介绍,研究人员向来自不同社区的人展示了图片,并要求他们描述看到的内容。她说,重点是生成日常语言数据库。“我们正大力推动本地化数据集建设,捕捉人们在本地环境中的真实情况。”Wanzare解释说。

Jain表示,虽然每个国家的研究人员为其数据集选择了主题领域,但这些项目需要把重点放在关键的发展领域,如卫生、农业和教育等。

南非比勒陀利亚大学的计算机科学家、该项目的南非负责人Vukosi Marivate表示,他的团队正在与一个组织联盟合作,利用这些数据创建AI语言模型。他希望科技企业能够在此基础上进行改进。

只要用户注明出处,该项目的成果便可商用。Jain表示,目前部分数据集已经可以获取,所有18种语言的数据将于今年晚些时候发布。

(文乐乐)

《中国科学报》 (2025-07-31 第1版 要闻)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
双黑洞背后竟藏神秘“第三者” 纳米级“清道夫”专治眼睛里的隐形炸弹
中国散裂中子源二期首栋建筑提前完工 寻找外星生命的希望正迅速破灭
>>更多
 
一周新闻排行
 
编辑部推荐博文