人工智能围棋大战胜负 升级版AlphaGo横空出世碾压旧版

|2017-10-19 18:04:53

  人工智能围棋大战胜负,新版AlphaGo击败旧版,令世人震惊,人工智能的迅速发展实在是不得不令人惊叹,有些人认为它已经超越了人类知识的极限,居然每一次的强化学习都是积累。
 


 

  专注于推进人工智能(AI)研究的谷歌子公司DeepMind今天发布了一款新版本的AlphaGo程序,它能通过自学玩转多种游戏。

 

  这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。仅三天时间,AlphaGo Zero自行掌握了围棋的下法,还发明了更好的棋步。

 

  这期间,除了被告知围棋的基本规则,它未获得人类的帮助。随着AlphaGo Zero被不断训练时,它开始在围棋游戏中学习先进的概念,并挑选出一些有利的位置和序列。
 


 

  通过全新的强化学习(reinforcement learning)方式,AlphaGo Zero 真正做到“无师自通”。整套AI 系统始于一个对围棋一无所知的神经网络,通过一套强大的搜索引擎来与自己对弈。

 

  这个原本一片空白的神经网络与自己对弈的局数越多,就越能准确的调整与预测下一步棋的走法,对围棋的掌握程度也越来越高。

 

  这套升级过的神经网络通过与搜索算法的再次整合,最终形成了全新的、更强大的AlphaGo Zero,并不停重复这一过程。在每一个迭代版本中,系统的性能都有小的提升,自我对弈的质量也越来越高,因此形成了一个越来越精准的神经网络。
 


 

  旧版AlphaGo接受的训练是,观摩由实力强大的业余或专业棋手对弈的海量棋局。但AlphaGo Zero没有获得这样的帮助。它自我对弈数百万次,并从中学习。一开始,它只是随意把棋子放在棋盘上,但后来它发现了获胜的策略,棋艺就快速提升了。

 

  AlphaGo的首席研究员大卫·席尔瓦(David Silver)表示,“由于未引入人类棋手的数据,AlphaGo Zero远比过去的版本强大,我们去除了人类知识的限制,它能够自己创造知识。”

 

  AlphaGo Zero通过“强化学习”这一程序来积累技能。当AlphaGo Zero走出一步好棋,它更有可能获胜。若这步棋没走好,它输棋的概率变大了。

 

  这一程序的核心是一组连在一起形成人造神经网络的 “神经元”。对于棋局的每个回合,神经网络会观察棋子在棋盘上的位置,并推算接下来的棋步以及这些棋步让全盘获胜的概率。

 

  每次对弈后,它会更新神经网络,让棋艺更精进。虽然性能远胜于以前的版本,但AlphaGo Zero是一个更简单的程序,掌握棋法的速度更快,接受训练的数据更少,使用的电脑更小。席尔瓦表示,如果拥有更多的时间,AlphaGo Zero还能够自己学会围棋规则。

来源:今日临沂