科学网—AlphaGo自学成才

作者：张章来源：中国科学报发布时间：2017-10-23

选择字号：小中大

AlphaGo自学成才

本报讯 近日，《自然》发表的一篇论文报道，一款新版的AlphaGo计算机程序能够从空白状态起，在不需要任何人类输入的条件下，迅速自学围棋。这款新程序名叫AlphaGo Zero，以100比0的战绩打败了它的前任（在2016年3月的锦标赛中，其前任打败了围棋冠军李世石）。

人工智能的最大挑战是研发一种能从零开始、以超人类的水平学习复杂概念的算法。为了打败人类围棋世界冠军，科学家在训练上一款AlphaGo时，同时用到了监督式学习（基于上百万种人类专业选手的下棋步骤）和基于自我对弈的强化学习。那款AlphaGo的训练过程长达几个月，用到多台机器和48个TPU（神经网络训练所需的专业芯片）。

新研究中，英国DeepMind公司的David Silver、Julian Schrittwieser和同事介绍了AlphaGo Zero，它的学习从零开始，且单纯基于与自己的对弈。人类的输入仅限于棋盘和棋子，没有任何人类数据。AlphaGo Zero仅用到一张神经网络，这张网络经过训练，专门预测程序自身的棋步和棋局的赢家，在每次自我对弈中进步。新程序只使用一台机器和4个TPU。

结果显示，通过几天的训练——包括近500万局自我对弈，AlphaGo Zero便能够超越人类并打败所有之前的AlphaGo版本。随着程序训练的进行，它独立发现了人类用几千年才总结出来的围棋规则，还建立了新的战略，为这个古老的游戏带来新见解。（张章）

《中国科学报》 (2017-10-23 第2版国际)

以下评论只代表网友个人观点，不代表科学网观点。

�� SSI �ļ�ʱ��

相关论文

图片新闻



>>更多

一周新闻排行

一周新闻评论排行

更多>>

编辑部推荐博文
基金申请最后一周！短时间还能做哪些提升？科学网2026年2月十佳博文榜单公布！从人形机器人到具身智能的科技研发和哲学思考 2026 MDPI可持续发展大奖获奖者公布别再乱填关键词了！编辑告诉你怎么选才有检索量无机高性能纤维基电磁屏蔽材料更多>>

论坛推荐
更多>>