|
学界热议: |
ChatGPT敲开了通用人工智能的大门了吗? |
|
连日来,一路“狂飙”的ChatGPT持续引发着“话题地震”。
作为由OpenAI训练的对话式大规模语言模型,ChatGPT 以对话的方式与人进行交互。重点在于,它的回答之智能、之流畅令人意外。据媒体报道,ChatGPT不仅能在短短几秒内响应人们的问题需求,它还通过了美国部分高校的法律、医学考试,顺利通过了谷歌18万美元岗位年薪的软件工程师入职测试。
不仅如此,ChatGPT还会承认错误,质疑不正确的前提并拒绝不恰当的请求。而当它不知道自己在说什么时,它会承认不知道。
ChatGPT 是否“过于”智能了?或者说,照此进化下去,人们会逐渐实现通用人工智能(AGI)吗?这也是计算机学界最近正热议的话题。
ChatGPT的三大技术突破
试用过ChatGPT的都知道,ChatGPT可以在人机对话中回答连续的问题、生成文本摘要、翻译文档、对信息分类、写代码以及撰写人们要求的几乎任何类型的书面材料,包括商业计划书、活动策划、诗歌、笑话、计算机代码和电影剧本。ChatGPT 会在一两秒时间内生成这些内容,用户无须等待,而且它生成的很多内容看上去都还不错。
“ChatGPT是目前为止最为强大的通用人机对话系统。”2月14日,在接受《中国科学报》采访时,中科院自动化研究所研究员、“紫东太初”大模型研究中心常务副主任王金桥不无赞叹地说:“它也是暨打败人类围棋冠军的AlphaGo之后,人工智能又一重要突破,标志着以大模型为核心的智能计算范式的确立。”
能有如此高的评价,王金桥认为,这背后主要是基于三大技术突破:千亿级参数大模型、多任务统一编码、人类反馈的强化学习。
他解释说,ChatGPT无所不知,得益于大规模预训练语言模型GPT3.5的支持——GPT3.5拥有千亿级参数,在训练时使用了海量人类在互联网上所编辑生成的多种类文本数据集,因此可以对世界已有知识进行编码;ChatGPT一专多能,在于其实现了多任务统一编码——传统人工智能只能处理单一任务(如语音识别和人脸识别),但 ChatGPT不同,通过多任务统一编码,它可以像人一样,一个模型就能做很多事情;ChatGPT对答如流,非常重要的技术点就是引入了人类反馈的强化学习(RLHF)——OpenAI 的开发团队通过RLHF不断对 ChatGPT 模型进行微调,就使得多轮对话更加流畅,能更好地捕获用户意图,让人觉得ChatGPT 的系统语言像人一样。
正是基于这三大技术突破,ChatGPT得以像人一样对于任意输入的问题进行非常流畅性的回答,而且拥有问答、对话、文档概括、文本创作等多种能力。
一条通往AGI的路径?
ChatGPT的闪光,不免让人们对通用人工智能浮想联翩。
“从业10年有余,第一次觉得AGI不再是个‘时髦词’了。”2022年12月,ChatGPT甫一面世,浙江大学计算机学院青年研究员赵俊博就在个人微信朋友圈这样写道,“真没想到RLHF能做到这种程度。”
他解释说,ChatGPT 模型展现出来的能力让他感到震惊:“它的推理能力、归纳能力、在语言作为媒介展现出来的对世界常识的认知、多轮对话能力等,值得肯定。”他认为,从技术上来讲,ChatGPT 已经“不再是单纯的记忆大规模文本了,这一点非常可怕”。
另一位青年计算机科学家,清华大学软件工程博士、北京智源人工智能研究院视觉方向研究员曹越,则在分析了 ChatGPT 背后存在“大规模语言模型+(人类反馈的)强化学习”的“循环”(loop)之后,“深切地感受到好像真的找到了一条通往 AGI的路径了”。
“重读 GPT3 时最让我惊艳的是(ChatGPT的)上下文学习居然激活了简单的逻辑和加减法,而且看起来指令调优(人类反馈的强化学习)和‘思维链’进一步强化了它在这方面的能力。”曹越谈到,当然现在模型在这方面的能力依然比较初级,但他觉得从0到1是最难的:“之前没有模型看到有这方面能力的机会,而现在有了。”
从ChatGPT联想到 AGI,曹越还提出自己另一个角度的思考。
“此前我自己浅薄的理解,AI为什么无法向AGI前进?就源于强化学习的反馈(reward)好像只能从现实世界中给予,由此这个reward几乎无法低成本、大量地被获取。现如今大规模语言模型通过‘预训练+RLHF’好像提供了一条路径,相当于是一个有基础语言理解能力的模型来进一步拟合人在语言生成方面的表现,同时模型还拥有基础的逻辑能力,并且还在不断进化,这也是我为什么觉得好像真的找到了通往AGI的路径的一个原因。”曹越说。
王金桥更是向《中国科学报》直言,ChatGPT的出现,被认为是AI实现通用人工智能的重要标志,“打开了通用人工智能的大门”。
他告诉记者,2012年之前,AI更多是实现了感知智能的突破;2012~2022年这十年里,AI 在认知智能上实现了突破,逐渐有了加工、知识推理、总结等类人的能力;而 ChatGPT 的出现,则被认为是“智慧的涌现”,因为ChatGPT证明了,AI在对世界知识进行编码后可以把知识之间的关系自动关联起来。
“这是语言模型的一个巨大突破,也是强人工智能的影子。”王金桥说。
他认为,ChatGPT的成功,代表着增大模型和数据规模是突破现在AI技术应用瓶颈行之有效的方法,同时也标志着从以专用小模型训练为主的“手工作坊时代”到以通用大模型预训练为主的“工业化时代”的AI研究范式转变,敲开了通用人工智能的大门。
通用人工智能,道阻且长
不过,论及ChatGPT是否指明了前往通用人工智能的路径,学术界显然有不同看法。
有观点指出,ChatGPT的学习能力非常强大,但它再强大也没有摆脱“大数据、小任务”的大样本被动学习模式,也就是说,当人们向ChatGPT输入一个个问题时,这对其而言仅是一个“小任务”,而完成这个任务是凭借巨大的数据训练而生成的。观点认为,它并没有任何的主动思考、反思和判断,只是根据程序规则在飞速计算下完成这种“任务”。
从这个角度,ChatGPT也是在“机械地执行任务”,以至于它时不时闹出一些“一本正经地胡说八道”的笑话。比如在“麻辣螺丝钉怎么做?”等问题下,ChatGPT 就翻了车。
“一本正经胡说八道”反映的是文本生成系统的可控性问题。赵俊博表示,根据目前的信息来看,ChatGPT还没有解决这个问题。
华为公司人工智能高级研究员谢凌曦就持有类似看法,他认为当前的智能体还没有学会复杂逻辑,也就不太可能推理出数据库里没有的知识。因此,他对ChatGPT找到了通往AGI的道路的说法“持保留意见”。
“我更加倾向于认为ChatGPT的行为像是一个信息收集和归纳的AI,在逻辑层面比较薄弱。”谢凌曦说,在逻辑更复杂、甚至需要多轮推理的情况下,当前(即使使用了RLHF)的训练范式,对于数据的利用效率还是太低,以至于AI难以完成稍微复杂的推理任务。
“RLHF 确实打开了新的路线。但我隐约感觉,这种人在回路的方式,上限不会太高。”谢凌曦说,他觉得ChatGPT一些结果总给人一种假象,“感觉是AI学到了一种比较讨巧的方法,能够让这些AI训练师‘简单地满意’”。换句话说,如果人们不太去深究的话,AI的回答才“看起来还不错”。
“当然,ChatGPT已经比之前许多的AI都要好了。我们只是需要再次理解,AGI是多么困难的任务,道阻且长!”谢凌曦说道。
多模态感知的AI,有望更“类人”
从更高的技术角度,谢凌曦作出了进一步分析。
他认为,自然语言处理(NLP)领域的发展,主要是抓住了自然语言的特征空间相对简单的性质。因而,在大数据的加持下,通过互联网收集到的数据覆盖了整个空间足够大的比例(如训练数据和测试数据的整体分布足够接近),能使算法跨越“过拟合会产生危害”这条线。也即,即使模型就是在过拟合训练数据,也完全看不出问题。但这种模式套在其他领域就不一定行得通,比如视觉的特征空间要复杂得多,不仅有无限细粒度可划分的语义概念,还有远超NLP的“领域鸿沟”(domain gap)——至少在短期内,计算机视觉的发展很难复刻诸如ChatGPT的(AI在NLP的)成功方式。
王金桥也承认,虽然ChatGPT是目前为止最为强大的通用人机对话系统,但它也是有局限的。
“ChatGPT还只是一个单纯的语言文本模型,但现实世界中不只有文本,还有声音、图片等多种模态。”王金桥说,因此我们认为,多模态的感知理解是更加重要的一个趋势,也更有望能实现类人的智能融合。
这也是王金桥所在的研究团队将攻关重心放在多模态大模型领域的重要原因。他介绍,2021年,中科院自动化所推出了全球首个千亿参数多模态大模型“紫东太初”,就致力于实现图像、文本、语音三个模态数据之间的“统一表示”与“相互生成”,使AI的理解和生成能力更接近人类。
“我们基于‘紫东太初’开发的虚拟人‘小初’也是一个对话系统,同样拥有问答、对话、文档概括、文本创作等多种能力,但跟ChatGPT不太一样,我们的系统更多是对图像、文本、语音三个模态的融合交互,使之能更好地完成相应任务。”王金桥说,未来他们也计划在此基础上加入人类反馈的强化学习,使它更好地捕获人的意图。
“这也是我们下一步的重要工作。”王金桥说。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。