人工智能围棋大战胜负升级版AlphaGo横空出世碾压旧版

|2017-10-19 18:04:53

　　人工智能围棋大战胜负，新版AlphaGo击败旧版，令世人震惊，人工智能的迅速发展实在是不得不令人惊叹，有些人认为它已经超越了人类知识的极限，居然每一次的强化学习都是积累。

　　专注于推进人工智能（AI）研究的谷歌子公司DeepMind今天发布了一款新版本的AlphaGo程序，它能通过自学玩转多种游戏。

　　这套系统名为“AlphaGo Zero”，它通过一种名为“强化学习”的机器学习技术，可以在与自己游戏中吸取教训。仅三天时间，AlphaGo Zero自行掌握了围棋的下法，还发明了更好的棋步。

　　这期间，除了被告知围棋的基本规则，它未获得人类的帮助。随着AlphaGo Zero被不断训练时，它开始在围棋游戏中学习先进的概念，并挑选出一些有利的位置和序列。

　　通过全新的强化学习（reinforcement learning）方式，AlphaGo Zero 真正做到“无师自通”。整套AI 系统始于一个对围棋一无所知的神经网络，通过一套强大的搜索引擎来与自己对弈。

　　这个原本一片空白的神经网络与自己对弈的局数越多，就越能准确的调整与预测下一步棋的走法，对围棋的掌握程度也越来越高。

　　这套升级过的神经网络通过与搜索算法的再次整合，最终形成了全新的、更强大的AlphaGo Zero，并不停重复这一过程。在每一个迭代版本中，系统的性能都有小的提升，自我对弈的质量也越来越高，因此形成了一个越来越精准的神经网络。

　　旧版AlphaGo接受的训练是，观摩由实力强大的业余或专业棋手对弈的海量棋局。但AlphaGo Zero没有获得这样的帮助。它自我对弈数百万次，并从中学习。一开始，它只是随意把棋子放在棋盘上，但后来它发现了获胜的策略，棋艺就快速提升了。

　　AlphaGo的首席研究员大卫·席尔瓦(David Silver)表示，“由于未引入人类棋手的数据，AlphaGo Zero远比过去的版本强大，我们去除了人类知识的限制，它能够自己创造知识。”

　　AlphaGo Zero通过“强化学习”这一程序来积累技能。当AlphaGo Zero走出一步好棋，它更有可能获胜。若这步棋没走好，它输棋的概率变大了。

　　这一程序的核心是一组连在一起形成人造神经网络的 “神经元”。对于棋局的每个回合，神经网络会观察棋子在棋盘上的位置，并推算接下来的棋步以及这些棋步让全盘获胜的概率。

　　每次对弈后，它会更新神经网络，让棋艺更精进。虽然性能远胜于以前的版本，但AlphaGo Zero是一个更简单的程序，掌握棋法的速度更快，接受训练的数据更少，使用的电脑更小。席尔瓦表示，如果拥有更多的时间，AlphaGo Zero还能够自己学会围棋规则。

来源：今日临沂

人工智能围棋大战胜负 升级版AlphaGo横空出世碾压旧版