“尽管我国在大模型领域紧跟国际前沿步伐,但仍面临着一些挑战,其中最显著的问题之一是高质量中文语料资源的短缺。”2024年全国两会上,全国政协委员、知乎创始人兼CEO周源提出,应重视当前国内人工智能(AI)大模型产业发展中遇到的高质量中文语料数据短缺问题。
周源委员。受访者供图 ?
据统计,截至2023年底,我国从事研发10亿参数规模以上的大模型厂商以及高校院所超过200家,目前已有20多个大模型产品获批向公众开放提供服务。但是,周源认为,在一定程度上,高质量中文语料资源短限制了我国人工智能技术的发展和创新应用的推动。
“ChatGPT训练数据中中文资料比重不足千分之一,而英文资料占比超过92.6%。”周源说,尽管国内存量数据资源丰富,却因数据挖掘不足、无法自由在市场上流通等因素导致目前中文优质数据仍然稀缺。
周源认为,受高质量中文语料资源短缺的掣肘,国内许多从事大模型开发的研究机构和企业在进行模型训练时,不得不依赖于外文标注数据集、开源数据集,或者爬取网络数据。因此,他认为,补齐优质中文语料数据短板,对推动我国大模型产业高质量发展至关重要。
“当我们去看大模型新技术迭代的时候,会发现其实中文文本的短缺更明显。”周源将优质中文语料库比喻为“水库”。就大模型产业发展是否能改善中文语料短缺问题,周源表示这是一个“先构建‘水库’,然后再去合理使用”的问题。
他进一步解释道,目前大模型最大的语料库来自于UGC(用户生成内容)生态,即来自每个人的知识、经验、见解的上传。“我觉得构建‘水库’的工作没有得到足够重视,反而都在想怎么去‘打水’的环节,比如模型训练怎么去爬取数据和内容,其间可能还会出现知识产权、隐私安全等问题。”
“没有好的语料、算料,光有算力、模型,这个循环显然是不对的。”周源认为,语料短缺或在未来几年里都将是一个特别明显和严重的问题,需要得到足够的重视。
对此,周源建议从建立数据合规监管机制、加强数据安全和知识产权的保护、加快高质量中文数据集的开发与利用三个层面,补齐优质中文语料数据短板,推动我国大模型产业高质量发展。
具体而言,他建议相关部门针对数据合规建立相应的监管机制,推动完善AIGC的监管立法,保护和规范人工智能领域的数据合规;同时要研究制定相应的管理办法或法规,确保数据持有方的知识产权和利益得到充分保护,鼓励和扶持有丰富高质量数据储备及持续生产能力的企业和社会主体;此外,要加快高质量中文数据集的开发与利用,这涉及数据标注的标准化、数据要素交易模式的探索、公共数据资源的开放共享等,需要社会多方力量的共同参与和积极应对。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。