也谈柯洁再战人工智能

转载：https://www.toutiao.com/i6566020533400371720/

作者：ZOE

2018年4月27日，柯洁（中国顶级职业围棋手，曾多次获得世界冠军）应邀参加福州举办的第一届“吴清源杯”世界女子围棋赛暨“贝瑞基因杯”2018世界人工智能围棋大赛，再次与围棋AI展开人机大战。

这是柯洁第三次与AI棋手对阵，与前面两次不同的是，这次对决的是我国自己研发的AI棋手“星阵”。在棋局进行到大约两小时的时候，柯洁遗憾落败，AI又赢了。我们不禁要问了，为什么柯洁会屡次败给人工智能呢？

这就要从人工智能的“思维方式”谈起了。鉴于这次对弈的“星阵”使用的技术细节还未曾对外透露，并且“星阵”最重要的参考还是AlphaGo，我们这里就以AlphaGo背后的主要机制来给大家做讲解。

事实上，AlphaGo做决策主要依赖于计算机科学家们给它编写的三个函数。它们分别是：策略网络（policy network）、评价网络（value network）和蒙特卡洛树搜索（Monte Carlo tree search）。

策略网络是个13层的卷积神经网络，它可以根据当前的盘面状态来预判对方的可能落子位置。策略网络为什么就可以预判到对方的落子位置呢？这是因为在正式比赛之前，科学家们会对AlphaGo进行“训练”——输入大量的数以千万计的世界职业棋手的棋谱让AlphaGo进行学习，然后通过自我对弈的方式不断增强预测的正确率。

评价网络也是个13层的卷积神经网络，跟策略网络互相独立，它可以根据给定的盘面状态判断出每种落子的最终胜算概率。这个部分的样本通过两台机器对弈的方式产生，这样有效的保证了评价网络经过学习后能够正确的反映出胜算概率。需要指出的是，评价网络的评价机制不是精确的，而是近似值。

蒙特卡洛树搜索的主要作用则在于可以根据当前棋盘状态、策略网络数据和评价网络数据的组合，计算出最佳的落子位置。蒙特卡洛树搜索算法包含四个步骤：

选取：根据目前状态，选取出对方最可能的几种落子位置；

展开：根据选取的对方落子位置，展开至我们最终胜算概率最大的几种落子位置；

评估：评估最佳落子位置。最终选取的落子位置不仅取决于评价网络评估的胜算概率，同时还来自于更深度的蒙特卡洛树搜索；

倒传导：在决定好了我们的最佳落子位置后，再根据这个位置，通过策略网络来评估对手可能的下一步落子位置，通过评价网络来评估落子胜算概率，选取出下一次的最佳落子位置。

由此可见，AlphaGo本质上其实就是通过大量的样本输入和以上这三个函数找到了对弈中的最佳落子位置。隐藏在这个AI超人背后的其实是专门针对于围棋领域的强大的计算机算法。

这个算法汇聚了几千万种棋局的经验，加上计算机做决策完全理性（不会受情绪影响也不会感受到任何压力），不会受任何外界因素干扰，战赢柯洁——一个只有两万多盘棋局经验的年轻人，也算是在情理之中。

而这次人机大战的积极意义则在于它证明了我国人工智能研发进入到了世界先进水平。期望有一天，“星阵”可以有机会跟AlphaGo一较高下。