科学网—非洲语言遭忽视，科学家欲改变AI模型现状

作者：文乐乐来源：中国科学报发布时间：2025-7-31

选择字号：小中大

非洲语言遭忽视，科学家欲改变AI模型现状

本报讯 在人工智能（AI）时代，有2000多种非洲语言被忽视。例如，ChatGPT只能识别10%~20%的豪萨语句子，而后者是9400万尼日利亚人使用的语言。由于缺乏训练数据，这些语言在大语言模型（LLM）中代表性不足。现在，非洲各国的研究人员正在努力改变这一状况。

据《自然》报道，“非洲下一个声音”项目的研究人员录制了长达9000小时的不同非洲语言的音频，并将其转化为数字化的语言数据集。近日，他们发布了首批数据。这些数据是开放获取的，可供开发者将其整合到LLM中，例如那些用于语音转文本或提供自动语言翻译的模型。

“看到它将为这些特定语言的建模带来改进，并为致力于非洲语言的技术社区提供帮助，我感到非常兴奋。”尼日利亚非营利组织“数据科学尼日利亚”的首席技术官Ife Adebara说。

“本地语言在AI模型中的代表性不足，仍是推广最有前景的AI工具的一个关键挑战。”美国盖茨基金会的数字公共基础设施主管Sanjay Jain表示。盖茨基金会为这个项目提供了220万美元的资助。

“非洲下一个声音”项目记录了南非、肯尼亚、尼日利亚这3个国家的18种语言。这些录音随后将由人工转录和翻译。

肯尼亚马塞诺大学的计算语言学家、该项目的肯尼亚负责人Lilian Wanzare介绍，研究人员向来自不同社区的人展示了图片，并要求他们描述看到的内容。她说，重点是生成日常语言数据库。“我们正大力推动本地化数据集建设，捕捉人们在本地环境中的真实情况。”Wanzare解释说。

Jain表示，虽然每个国家的研究人员为其数据集选择了主题领域，但这些项目需要把重点放在关键的发展领域，如卫生、农业和教育等。

南非比勒陀利亚大学的计算机科学家、该项目的南非负责人Vukosi Marivate表示，他的团队正在与一个组织联盟合作，利用这些数据创建AI语言模型。他希望科技企业能够在此基础上进行改进。

只要用户注明出处，该项目的成果便可商用。Jain表示，目前部分数据集已经可以获取，所有18种语言的数据将于今年晚些时候发布。

（文乐乐）

《中国科学报》 (2025-07-31 第1版要闻)

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！ Dove最新临床研究，聚焦这些进展中国数学会数理逻辑专业委员会与Mathematics期刊建立合作关系我三个可爱的儿子-三捧星光，暖我半生烟火植物人文：数字时代人与自然关系的新探索更多>>