Google Alpha Go程序如何运作?

AlphaGo将蒙特卡洛树搜索与2个深度神经网络相结合,以实现价值和政策功能。

这项工作源自强化学习社区,有关Mote Carlo方法的一般详细信息,请参见Rich Sutton博士的“强化学习入门”书。 5.蒙特卡洛方法。 实际上,许多在Deepmind从事alphaGo研究的研究人员(例如David Silver)都是来自艾伯塔省pHD的U,曾在萨顿博士的强化学习小组工作过。

RL假设环境是一组Markov决策过程,这些过程由状态,动作,奖励和转移到下一个MDP集的概率组成。 蒙特卡洛树搜索(Monte Carlo Tree Search)的名称意味着在状态空间(在本例中为Go游戏板的潜在配置)中进行迭代采样(蒙特卡洛)搜索,并具有策略功能(将状态映射为要采取的行动)和值功能(将状态映射为要采取的行动)行动转化为预期的回报)。 Deepmind为这两个函数分别使用了2个深度神经网络,因为:

1.深度神经网络具有出色的概括性和逼近性,因此大大减少了搜索空间。 以及在深度神经网络成功训练中的最新进展(无监督预训练,线性单位校正,批次归一化等)。

2.它们在GPU中拥有可笑的可用计算能力。

传统上,由于训练效果不佳以及缺乏具体的收敛性证明,RL中的研究人员不愿使用非线性函数逼近器,例如神经网络。

但是,Deepmind研究人员(例如David Silver和co。)最近的工作。 已经解决了其中的一些问题,并使用深度神经网络使其收敛且可训练。 (例如,Google Deepmind的Q学习Atari游戏,他们使用Deep卷积神经网络作为Q函数逼近器)。 这些方法包括内存重播,目标Q函数复制等方法。

总而言之,该算法并不是新颖新颖的,但是函数逼近的算法以及可用的计算能力远高于我们以前的算法。

那里有一篇文章,发表在《自然》上,对其进行了详细描述。 我不想在这里详细介绍。 如果您希望能够理解,请查看以下关键字作为需要学习的主题(可能需要花费几天的时间)。

了解国际象棋规则

了解围棋规则,并在13×13或19×19板上的免费计算机围棋程序中玩几局游戏 ,以了解简单规则背后的复杂性。

首先了解基本博弈论 。 精确地讲有限博弈论。 不太难,对于一个简单的游戏井字游戏。 了解最小最大算法。

了解国际象棋算法中有关树搜索位置评估的一些知识。

您需要学习神经网络线性响应的功能。

然后进入深度神经网络深度学习算法