数学考了55，人工智能要“逆袭”？—新闻

作者：张双虎来源：中国科学报发布时间：2021/11/17 14:17:01

选择字号：小中大

算力“千斤”干不过算法“四两”

数学考了55，人工智能要“逆袭”？

现在，人工智能可以参加小学数学考试了，而且考了50多分。

日前，人工智能研究机构OpenAI的研究人员使用新方法，训练出一个会做数学题的系统——GPT-f。它能像真正的学生一样，解决90%的数学应用题。在提供的数据集中进行的小样本测试表明，9至12岁学生测试得分为60%，该系统测试得分55%。

这个仅60亿参数的GPT-f，在解决数学应用题方面，效果直逼参数规模高达1750亿的GPT-3。GPT-f真的要“逆袭”？大模型的算力“千斤”，真的干不过算法“四两”？

不俗的成绩

去年6月，OpenAI推出GPT-3，这个能完成对话、搜索、写作等多项任务的大模型一面世就引起轰动。尤其在文本生成方面，GPT-3的表现几乎可以与人类的作品媲美。

在训练GPT-f时，研究人员创建了高质量、高多样性、中等难度和自然语言的答题形式的数据集（GSM8K）进行反复训练。测试结果发现，这个仅60亿参数的GPT-f准确率翻倍，甚至优于拥有1750亿参数，采用微调方法的GPT-3模型。

“GPT-f能达到这个效果还是有些出乎意料。”清华大学人工智能研究院常务副院长孙茂松对《中国科学报》说，“但它并未提出非常深刻的问题，没那么让人惊喜，也不必做过度的解读。”

孙茂松解释说，让人工智能解决数学应用题还是有难度的。当前的人工智能技术都是基于大数据的一种概率式推断模型，其内部并没有深刻的理解机制。比如，曾轰动一时的GPT-3本身是个语言模型，它看过大量人类创作的作品，包括互联网所有的文章，所以它能在写文章、自然对话、语义搜索甚至自动编程等方面有着不俗的表现。然而，它很难完成需要精细理解的多步骤推理任务，比如解决小学数学应用题。

“做数学应用题首先要正确理解题意，才能把题做出来。”孙茂松说，“虽然实现这一任务对人类来说很简单，但对人工智能目前尚缺乏一个有效的理解机制，尽管类似GPT-f这样的模型可以推导出正确的答案，但难免也会产生严重的逻辑错误。”

让人工智能在复杂逻辑条件下，具备解决问题的能力，模型必须具有判别自身错误的能力，并谨慎地执行之后的过程。为此，OpenAI的研究者提出一个训练“验证器”来判断模型完成的正确性。

OpenAI的GSM8K数据集由8.5K高质量小学数学应用题组成，每个问题需要2到8步解决，涉及加减乘除运算，难度近乎9至12岁小学生的学数学题。在测试阶段，这个验证器会生成多个候选解决方案并选择排名最高的一个。

“我没想到GPT-f能得这么高分，即使它取得30多分我也觉得合理。”孙茂松说，“它能把这个事做得跟小学生及格分数差不太多的确不很容易。”

不公平的对比

时至今日，参数规模达1750亿的GPT-3仍被人们视为“大力出奇迹”的结果。而仅凭新的“验证”方法，只有60亿参数的GPT-f就在数学“考试”中胜出。大模型的算力和数据的“千斤”，真的不如算法“四两”么？

专家认为，用更小的参数规模达到和大模型差不多的效果的确不错，但仅拿数学“考分”来对比并不公平。

“从论文上看，两者方法上并没有本质的不同。”孙茂松说，“GPT-f是针对特定的任务做了调整，针对数学语料做过专门训练，用验证的方法反复‘折腾’数据，让它发挥较大的效益。”

与之相比，GPT-3是自然语言处理方面的模型，就像一个擅长写作的“文科生”，做数学题不是它的强项，它也没有专门针对这个问题的语料库进行训练。

“这（GPT-f）算是一个算法的创新吧。”中科院自动化研究所模式识别国家重点实验室研究员王金桥对《中国科学报》说，“GPT-3相当于一个通用模型，有比较开放的数据集，里面数据杂乱，什么都有。现在GPT-f虽然只用8.5K的数据集和60亿参数，但它的数据质量特别高，而且针对于小学数学题进行训练，相当于一个专有领域的模型。”

虽然用了更小的参数量，但GPT-f在算法和数据两个方面对做了改善。为解决逻辑关系，GPT-f加了一个验证模块，但同时也带来了新的问题。

“现在它仍然缺乏可解释性。”王金桥说，“即使我知道它验证的答案是正确的，但不知道验证的中间步骤对错，不知道它是怎么推理出来的。”

OpenAI在论文中所展现的10个数学实例也表明，使用验证方法比单纯扩大参数表现得更加智能，但缺点是并不稳定。

专家认为，任何一项技术的发展，都要经历从兴起、成熟再到落地的过程。从发展规律来看，大模型现在刚刚兴起，大家正在围绕模型体量及模型体量带来的推动效应开展探索。从目前发展阶段来说，这种拥有巨量数据和更强算力的大模型表现“更突出，贡献还是会更大一些”。

“大模型可能是人工智能发展的一个突破口，但参数量并非通向人工智能的唯一途径。”清华大学教授、智源研究院学术副院长唐杰告诉《中国科学报》，“OpenAI 60亿参数的GPT-f表现出众，也说明算法、算力或数据任何一方面都有可能在未来发展中，在特定条件下取得优势。”

“博士型”人工智能

在人工智能技术解决数学问题方面，我国也有类似的研究，但国内多是用传统的小模型、并针对具体问题进行研究。研究者要先知道问题是什么，其关键的逻辑关系是什么，然后针对这类题设计方法，“分而治之”。

我国相当于一类题型用一种方法解决，而GPT-f的强大之处在于它能用一些中间标签进行验证推理，并根据中间结果总结出一套规律，应用于所有的数学题。

“从GPT-f的表现可以看出，高质量的数据资源非常重要。”王金桥说，“数据能让人工智能‘见多识广’。”

就像人类想取得好成绩需要“刷题”一样，人工智能也需要见识各种的“题型”（数据），然后从中总结规律和学习推理关系。

“对于提升人工智能效果来说，首先是数据规模要大、质量要高。”王金桥说，“其次，还要有大的参数规模，这样能避免训练出一个‘死记硬背’的数学模型；第三，我们要利于计算中心的算力，发展专用和通用两类大模型。”

王金桥解释说，从利于实际应用的角度出发，目前应针对某一专门领域或场景来设计模型，每个模型解决一个或一类任务。

“即使像人类这样,有非常厉害的大脑，并最终拿到博士学位，也只能是某个小领域的专家，不可能在所有领域都行。”王金桥说，“‘学得越好、领域越小’，大模型也是这样，因此要分两个层次发展，一是针对某一行业、某一领域的知识、数据形成专用大模型；二是发展通用普适性的超级大模型。”

人类在掌握某项技能时，有个“1万小时”定律，要成为某领域的专家，至少要学习和练习1万小时。同样，人工智能模型也需要针对某一领域的知识、数据进行专门训练，并结合大的算力取得优异的表现。

王金桥认为，在发展人工智能时，我们应充分利于国产化的算力，如中科院自动化所面向图像、文本和语音三模态的“紫东太初”，智源人工智能研究院的“智源悟道”，鹏城实验室的“盘古”等，并结合算法和数据方面的进步，推动人工智能的发展。

相关论文信息：https://arxiv.org/pdf/2110.14168.pdf

数据集地址：https://github.com/openai/grade-school-math

编辑部推荐博文
封面文章 \| 柴达木盆地钾盐成矿特征与找矿方向金属硫化物光催化剂的高效析氢设计 “信则有，不信则无”，是有科学依据的 ——自我实现预言如何悄悄影响 ... 春天的回响（1）新疆哈密地区三处花岗岩盐风化地貌简介饭量与寿命更多>>