文/东方亦落
近日,谷歌人工智能研究团队DeepMind在期刊《Nature》上发表论文,宣布AlphaGo的新版本“AlphaGo Zero”问世。DeepMind团队表示,AlphaGo Zero可通过名为“强化学习”的机器学习技术,在无人类指导的情况下学习。不仅能自学游戏,也可自己通过游戏吸取教训,最终达到优化的效果。
AlphaGo Zero究竟有多大本事?仅仅经过三天时间的训练,AlphaGo Zero就掌握了围棋的规则,并且还在未获得人类帮助的情况下,通过强化学习技术发明了更优的下棋方法。在不断训练的过程中,它在围棋游戏中学习先进的概念,并自动选出有利的顺序和位置。
其产生的效果就是,AlphaGo Zero在三天后以100:0的胜率击败了去年击败韩国棋手李世石的DeepMind软件“AlphaGo Lee”。并且AlphaGo Lee的训练数据为3000万盘,而AlphaGo Zero的训练数据仅有490万盘。
在40天之后,AlphaGo Zero经过了2900万场自玩游戏的训练,击败了曾击败世界冠军柯洁的“AlphaGo Master”。
AlphaGo Zero最引人瞩目之处在于,无需人类指导,可自我调整,以自身为师,而且训练时间更短。AlphaGo Zero之所以能达到这样的效果,是因为应用了强化学习模式。开始的系统就是一个神经网络,对围棋并不了解。将此种神经网络与强有力的搜索算法结合并实现自我对弈,并在此过程中实现神经网络的升级与调整,预测每一步落子与最终的胜利方。
在这种训练中,当AlphaGo Zero走出一步好棋,它就有可能获胜,如果没走好,那么输棋的概率就变大。其核心即为人造网络神经元,它会观察棋子位置,推算接下来的棋步以及全盘获胜的概率。每次对弈之后,AlphaGo Zero的神经网络会自我更新,提升棋艺。
研究团队在论文中提到,开始的时候AlphaGo Zero的棋艺让人不敢恭维,但随着训练,它进化成了一名业余棋手,只不过仍缺乏经验。再通过反复不断的训练,最终进阶成围棋高手,并能够走出富于战略性的棋局。
AlphaGo Zero的进步程度远快于以前谷歌所研发的版本,也可以说,这种技术比此前所有版本的AlphaGo都更为强大。此前的版本多少都包含了小部分人工设计的特征输入,而AlphaGo Zero则完全以棋盘上的黑白子作为参照,不含人工部分。
另外,在此前的版本中,AlphaGo用到了“策略网络”来选择下一步棋的走法,运用“价值网络”预测每一步落子之后的胜负。而在AlphaGo Zero中,仅运用了单一的神经网络,将价值网络与策略网络合二为一,从而使新版本取得更为高效的训练和评估效果。
最后,AlphaGo采用的是快速走子法,从而预测哪一方能够在当下的棋局中赢得比赛。而AlphaGo Zero则不然,它凭借的是高质量的神经网络对当前的局势做出评估。
这些差异,无一不提高了系统的性能,使新版本普适性提升,算法上的变化则使新版本更为强大与高效。究其根源,还是由于AlphaGo Zero不再受到人类知识的限制,才能够以一张白纸的状态直接汲取知识并不断自我强化,最终达到预期效果。AlphaGo Zero掌握围棋知识的速度提升,使用的计算机小,也就意味着其接受训练的数据少。研究团队表示,如果时间更加充裕,AlphaGo Zero还能够有进一步的提升。
实际上,AlphaGo Zero的出现不仅意味着围棋方面的成功,更标志着人类在通过通用算法解决科学难题的研究方面迈上了一个新的台阶。当前的深度学习技术需要大量数据,其获得成本高昂且难度巨大,而AlphaGo Zero应用到的“强化学习”技术则能够解决更大的难题,并且进一步提升人类的生活品质。
尽管此类技术尚在发展的初始时期,但AlphaGo Zero的问世已经成为了通向上述目标的重要步骤。如果类似的技术能够应用在蛋白质折叠、寻找新材料以及减少能耗方面,就极有可能解决人类正在面临的一些严峻挑战,并创造出对社会更有益的价值。
举报/反馈

最极客

8.3万获赞 4万粉丝
关注前沿科技与极客文化的新媒体
关注
0
0
收藏
分享