为了古老的中国围棋,谷歌和Facebook正展开算法竞赛

围棋是一种经典的人工智能命题,对于越来越重视人工智能的谷歌和Facebook来说,拿下围棋,无疑是更加接近终极答案。

RÉMI COULOM花费十年时间打造了一个比其他机器更聪明下围棋的软件。他把这个产品叫做Crazy Stone。在去年早些时候的东京围棋擂台赛上,这个软件向世界顶尖的围棋选手依田纪基发起了挑战,Crazy Stone表现的还不错。在Crazy Stone赖以成名的电圣比赛中, Crazy Stone打败了人类选手,不过这场胜利也有一些限定规则。

过去二十多年里,机器在诸多智力游戏领域都超过了人类,现在我们几乎可以假设机器能够在所有领域战胜人类。但围棋一直是个例外。是的,这次Crazy Stone打败了依田纪基。不过,依田纪基让了四子。Crazy Stone 也仅仅是以 2.5 目取胜。这也是保证比赛公正的唯一办法。

90年代中期,一个名叫Chinook的程序打败了全世界顶尖的跳棋高手们。几年后,IBM的深蓝给当时国际象棋大师卡斯帕洛夫制造了很多麻烦,并最终战胜了人类。进入21世纪,IBM又制造了Watson,这台超级计算机在Jeopardy!比赛中击败所有人类选手。如今,机器在黑白棋、拼字游戏、西洋双陆棋以及扑克等领域拥有不可撼动的领先地位。而在此次Crazy Stone打败依田纪基之后,Coulom预测,如果机器不先手,机器在围棋领域要真正战胜人类还需要十年。

如今,这个预测看起来要提前了。很多人类的围棋大师在比赛时更多地依靠直觉做出判断,这与机器的判断方式截然不同,要让机器复制围棋大师的「直觉」非常困难。但深度学习成为机器接近围棋大师直觉的新武器。深度学习早已体现在谷歌、Facebook公司的诸多产品上,诸如在图像识别和空间图像抓取方面都有不俗表现,这些同样也可以运用到围棋上。

谷歌和Facebook正在开展一场破解围棋的算法竞赛。

正如Facebook 人工智能研究员 Yuandong Tian所言,围棋是一种经典的人工智能命题——它因为极其困难而充满吸引力。该公司认为解决围棋这个难题不仅将改进目前用于社交网络的人工智能技术,还将进一步证明人工智能的价值。另一位研究员Rob Fergue认为,「这就是高级人工智能的目标。」但他也承认,Facebook此举至少在小范围内是在与谷歌进行竞争。谷歌的围棋研究令人印象深刻。

开发一个可以下围棋的「大脑」

如今,谷歌和Facebook使用深度学习来识别网络图片中的人脸;计算机能够识别出我们的语音命令;可以将一种语言翻译成另一种;有时甚至能够理解人类的自然语言。

这些技术都依赖于深度神经网络。如果你将足够多的关于树木的照片输入进去,它们就能学会识别出一棵树。如果输入足够多的对话,它们就能学会如何进行一段得体的对话。如果输入足够多的围棋走法,它们就能学会下围棋。

「围棋是由棋盘上的各种模式来驱动,深度神经网络非常擅长从棋盘的各种模式中进行归纳总结,因此非常合适下围棋。」爱丁堡大学教授 Amos Storkey表示。他正在使用深度神经网络来处理围棋问题,就像谷歌和Facebook所做的那样。

他们相信这些神经网络最终能够缩小机器和人类之间的差距。在下围棋时,即使是最高段的棋手也无法检查出每一步走法所带来的所有结果。他们往往是基于盘面来进行决策。借助于深度学习,研究者就可以对这种方法进行复制。将成功走法的图片输入到神经网络中,从而帮助机器掌握每一次成功走法的模样。「这种方法并不是希望找出最优走法,而是学习人类的下棋风格,然后对人类棋手进行有效的复制。」Storkey说到。

比深度学习更加深度

开发一台能够下赢围棋的机器不仅仅是计算能力的问题。这就是Coulom的程序无法胜任的原因。Crazy Stone依赖于蒙特卡洛树搜索,这是一套能够从本质上对每一步走法的所有结果都进行分析的系统。所以,有些机器能够非常精通西洋棋、国际象棋和其他棋类。它们比人类棋手看的更远,所以能够轻松的击败他们。但围棋不是这样,下围棋有太多的可能性需要考虑。在国际象棋的任何一个回合,平均可能的走法有35种。但围棋的走法却能达到250种。并且在这250种可能的走法之后,还对应着另外250种可能,以此类推。因此,用蒙特卡洛数搜索去计算每一步走法所带来的所有结果是不可能的。

但深度学习能解决这个问题,因为它具有一定的「直觉」,而非使用蛮力搜索(brute force)。上个月,Facebook在一篇发表于Arxiv的论文中提到了一种将蒙特卡洛数搜索与深度学习相结合的方法,这套系统在与人类棋手的比赛中丝毫不落下风,公司表示,它甚至能够表现出人类般的下棋风格。毕竟,这套系统是从人类棋手的棋路中进行学习的。Coulom称这项结果「非常惊人」。

Coulom说,这种混合方法将能最终破解这个问题。他说:「人们正在试着把两种方法结合起来,好让它们比单用一种方法的效果好。」他指出,Crazy Stone已经将一种机器学习与蒙特卡洛树搜索相结合。只是他的方法不如Facebook采用的神经网络那么复杂。

Facebook的论文展示了深度学习的力量,它还提醒人们,重大的人工智能任务最终会采用不止一种技术来解决。它们会在许多技术的结合下解决。深度学习能很好地完成许多事情。但是,它总是需要其他人工智能技术的帮助。

试错

Facebook公布了它在围棋上的研究后,谷歌很快做出了回应。谷歌顶级人工智能研究者、DeepMind创始人Demis Hassabis说,几个月后他们就将公布一个与围棋有关的「大惊喜」。谷歌拒绝透露更多信息,我们也不清楚这家公司已经取得了什么成果。Coulom说,谷歌不太可能这么快就做出一个可以击败顶级围棋选手的产品,但是他相信谷歌将在这方面取得重要进步。

十有八九,这将依赖于多种技术的结合。我们猜测其中一个技术是所谓的「强化学习」(reinforcement learning)。深度学习擅长于感知(识别物体的外观、声音和行动),而强化学习算法能够教机器根据这些感知来行动。

Hassabis是谷歌子公司DeepMind的CEO。这家公司位于英国剑桥,十分擅长于将深度学习与强化学习算法结合起来使用。今年早些时候,他的团队发表了一篇论文,阐述如何使用这两种技术来玩一个古老的Atari太空躲避类游戏——有时甚至能赢过专业的游戏测试师。该系统在深度神经网络的帮助下理解了游戏的状态(游戏界面在不同时刻的样子),接着,强化学习算法用试错法帮助该系统理解如何对这些状态做出回应。从根本上说就是,计算机尝试某个行动,如果这个行动带来了奖赏(游戏中的点数),它就认为这个行动是好的。尝试足够多次之后,系统开始理解游戏的最佳玩法。对围棋,也可以采用同样的方法。

这种方法与标准的树形搜索不同。树形搜索也可以用来学习某个行动是好是坏,研究者会在真实比赛开始之前对它进行训练。而在深度学习中,它会利用某些「知识」来玩游戏,而不是靠蛮力来解决问题。

如果他们要解决围棋问题,那么,这些技术,机器统统都需要。强化学习可以汲取深度学习的营养。二者还可以与蒙特卡洛树搜索相配合。破解围棋是一个相当困难的问题,但现代人工智能正在接近答案。等到Hassabis公布这个「大惊喜」之时,我们就会知道,他们到底有多么接近答案了。

机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.almosthuman.cn查看更多精彩内容。