日本正在打造自己的聊天机器人ChatGPT。日本政府和NEC、富士通、软银等大型科技公司正在投入数亿美元,开发基于相同底层技术的人工智能系统——大型语言模型(LLMs),使用语言为日语。
?
日本的超级计算机Fugaku已经开始消化日语文本,以开发日本版的ChatGPT。图片来源:Kyodo News via Getty
据《自然》消息,专门研究自然语言处理的日本东北大学研究员Keisuke Sakaguchi认为,目前的大型语言模型智能系统在英语方面表现出色,但在日语方面往往表现不佳。
LLMs通常使用来自公开资源的大量数据来学习自然语音和散文的模式。它们被训练根据一段文本中的前一个单词预测下一个单词。ChatGPT之前的模型GPT-3所训练的绝大多数文本都是英语。
在日本,有人担心用其他语言的数据集训练的人工智能系统无法掌握日本语言和文化的复杂性。日语的句子结构与英语完全不同。因此,ChatGPT必须将日语查询翻译成英语,找到答案,然后将响应翻译回日语。
英语只有26个字母,而书面日语由两组48个基本字符和2136个常用汉字组成。大多数汉字都有两种或两种以上的发音,还有大约5万个很少使用的汉字。考虑到日语的复杂性,ChatGPT在使用这种语言时遇到困难并不奇怪。使用日语时,ChatGPT有时会生成大多数人从未见过的极其罕见的字符,以及奇怪的未知单词。
对于一个有用的,甚至商业上可行的LLM,它需要准确地反映文化习俗以及语言。为了衡量LLMs对日本文化的敏感程度,研究人员推出了Rakuda,这是一个衡量LLMs回答有关日本主题的开放式问题能力的排名。通过对论文审稿意见的流动性和文化适应性进行比较,结果发现,日本最好的LLM在Rakuda上排名第四,GPT-4排名第一。GPT-4在87%的情况下与人类审稿人一致。
研究日语模型的东京大学物理学家Passaglia表示,LLMs远远落后于GPT-4,但原则上没有理由说将来的LLM不能达到或超过GPT-4。“这不是技术上无法克服的问题,只是资源的问题。”
创建LLM的一项重大努力是使用日本超级计算机Fugaku,主要训练日语输入。与GPT-4和其他专有模式不同,它将与其他开源LLMs一起向所有用户提供其代码。
然而,Fugaku LLM可能会被一个更大的LLM接替。日本文部科学省正在资助创建一个针对科学需求的日本人工智能项目,该项目将通过从已发表的研究中学习来产生科学假设,加快确定调查目标。该模型可以从1000亿个参数开始,这比GPT-3的一半多一点,并将随着时间的推移而扩大。该LLM的开发成本至少为300亿日元(2.04亿美元),预计将于2031年公开发布。
其他日本公司已经将自己的LLM技术商业化或计划商业化。超级计算机制造商NEC在5月份开始使用基于日语的生成式人工智能,并声称它将创建内部报告所需的时间缩短了50%,将内部软件源代码缩短了80%。
日本电气数据科学实验室高级首席研究员Masafumi yamada表示,该技术可用于广泛的行业,如金融、运输和物流、分销和制造业。他补充说,研究人员可以把它用于编写代码、帮助编写和编辑论文、调查现有发表的论文等任务。
与此同时,日本电信公司软银正在投资约200亿日元,开发基于日语文本的生成式人工智能,并计划明年推出自己的LLM。软银拥有4000万客户,并与OpenAI的投资者微软建立了合作关系。软银表示,它的目标是帮助企业实现业务数字化,提高生产率。。
日本研究人员希望一个精确、有效、日本制造的人工智能聊天机器人可以帮助加速其科学发展,弥合日本与世界其他地区之间的差距。
东京庆应义塾大学医学院医学技术研究员Shotaro Kinoshita表示,如果日文版ChatGPT能够做到准确,有望为那些想学习日语或进行日本研究的人带来更好的结果,从而可能会对国际联合研究产生积极影响。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。