拥有洞察力!AlphaZero的新进展
当前位置:首页 > 新闻和动态 > 正文

拥有洞察力!AlphaZero的新进展

时间:2019-01-10 10:09:49 来源:网上收集 作者:admin

  2017年12月5日,谷歌母公司Alphabet旗下人工智能公司DeepMind的研究团队发布的AlphaZero震惊了国际象棋世界。AlphaZero是一种机器学习算法,其不仅会下国际象棋,还掌握了日本将军棋(shogi)和围棋的玩法。起初算法对游戏的基本规则一无所知。但AlphaZero与自己进行了数百万次的对抗学习,并从错误中吸取教训。几个小时内,这个算法就成为了世界上最好的棋类玩家。

  在过去的二十年里,用机器算法下国际象棋已经取得了很大进步。1997年,IBM公司的国际象棋程序“深蓝”(Deep Blue)在一场六局的比赛中击败了当时的人类世界冠军卡斯帕罗夫(Garry Kasparov)。现在看来,这一成就并不神秘。深蓝每秒可以计算2亿个位置。它从不疲倦,从不在计算中出错,也从不会忘记片刻之前的想法。

  无论结果是好是坏,“深蓝”都像一台真正的机器,粗暴而物质化。它的计算能力远超过卡斯帕罗夫,但却无法真正从思维上超越他。在第一局的比赛中,深蓝贪婪地接受了卡斯帕罗夫用车换一名主教的牺牲,却在16步之后输了比赛。现在,诸如Stockfish和Komodo等当前世界上最强的国际象棋程序仍然在以这种方式下棋。它们喜欢吃掉对手的棋子;它们防守像钢铁一样强悍。但是,尽管这些国际象棋程序要比任何人类棋手强大得多,但并没有真正理解棋局本身的意义。

  经过几十年的发展,人类大师关于棋类游戏的经验都被作为复杂的评估工具编进程序中,表明在下棋中该寻求什么样的有利位置以及避免陷入什么样的不利境地:比如王的安全性,棋子的活动,兵形,中心控制,以及如何平衡利弊。但今天很多国际象棋程序却天生无视这些原则,给人留下的印象是野蛮粗暴的:速度快得惊人,但却完全缺乏洞察力。

  所有这些都随着机器学习的兴起而改变。AlphaZero通过与自己对弈并根据经验更新神经网络,从而发现了国际象棋的原理,并迅速成为史上最好的棋手。它不仅能够轻而易举地击败所有最强大的人类棋手,还能击败当时的计算机国际象棋世界冠军Stockfish。在与Stockfish进行的100场比赛中,AlphaZero取得28胜72平的好成绩。它没有输掉一场比赛。

  最令人不安的是,AlphaZero似乎表达出一种天然的洞察力。它具备浪漫而富有攻击性的风格,以一种直观而优美的方式发挥着电脑所没有的作用。它会玩花招,冒险。在其中几局中,它使Stockfish瘫痪并玩弄它。当AlphaZero在第10局进行进攻时,它把自己的皇后佯退到棋盘的角落里,远离Stockfish的国王。通常来说,这并不是攻击皇后应该被放置的地方。

  然而,这种奇怪的撤退行为充满了恶意:不管Stockfish如何应对,它都注定要失败。经过数十亿次残酷的计算后,AlphaZero几乎是在等待Stockfish意识到,自己的处境是多么无望,就像一头被击败的公牛面对斗牛士一样平静落败。大师们从未见过这样的机器。AlphaZero拥有精湛的技艺,同时也拥有机器的力量。这是人类第一次瞥见一种令人敬畏的新型智能。

  很明显,AlphaZero获胜靠的是更聪明的思维,而不是更快的思维;它每秒只计算6万个位置,而Stockfish会计算6千万个。它更明智,知道该思考什么,该忽略什么。卡斯帕罗夫在《科学》杂志文章附带的一篇评论中写道,AlphaZero通过自主发现国际象棋的原理,开发出一种“反映游戏真相”的玩法,而不是“程序员式的优先级和偏见”。

  然而令人沮丧的是,机器学习算法还无法清晰表达它们的想法。我们不知道它们如何得出结论,所以也就无从确定能否信任机器。AlphaZero似乎已经发现了一些有关国际象棋的重要原则,但它无法与我们分享这种洞察力。作为人类,我们想要的不仅仅是答案。我们想要的是洞察力。从现在起,这将成为我们与电脑互动紧张的源渊。

  事实上,这一情况在数学领域中早有耳闻。四色映射定理就是这样一个长期存在的数学问题。该定理指出在一定的合理约束条件下,有关相邻国家的任何地图都可以只使用四种颜色进行着色,这样相邻两个国家的颜色就不会相同。

  虽然人们最终在计算机帮助下于1977年证明了四色映射定理,但是没有人能够检验论证中的所有步骤。从那以后,这个定理的证明得到了验证和简化,但仍有一些部分需要进行蛮力计算。这种发展使许多数学家感到恼火。他们不需要确认四色定理是正确的,但他们想知道为什么这是真的,但是证明没有帮助。

  但是设想有一天,也许就在不久的将来,AlphaZero已经发展成为一种更通用的解决问题算法,其将拥有至高无上的洞察力:它能够拿出漂亮的证据,就像AlphaZero与Stockfish对弈时一样优雅。每一个证明都会揭示为什么定理是正确的。

  对于人类数学家和科学家来说,这一天将标志着一个新时代的到来。机器的速度越来越快,相比之下人类神经元却以毫秒级的速度缓慢运转,我们再也跟不上机器的理解速度,人类洞察力的黎明可能很快就会变成黄昏。

  或许未来,我们不再明白为什么计算机的结论总是正确的,但我们可以通过实验和观察来检验它的计算和预测。科学将把我们的角色降低到旁观者的角色,在惊奇和困惑中目瞪口呆。