AlphaGo 和 李世乭 的两步棋,重新定义了未来 (2016)

SEOUL, SOUTH KOREA --- 在第二局比赛中,这个 Google 机器走出了一步人类永远不会走出的棋。而且它很精彩。当全世界都在关注时,这一步完美地展示了现代人工智能的强大且颇为神秘的才能。

但在第四局比赛中,人类走出了一步机器永远不会预料到的棋。而且它也很精彩。的确,它与 Google 机器的那一步一样精彩——不分伯仲。它表明,尽管机器现在能够展现天才的瞬间,但人类并没有失去创造自身卓越瞬间的能力。而且似乎在未来的岁月里,当我们人类与这些机器合作时,我们的才华只会与我们的创造物一同成长。

尽管机器现在能够展现天才的瞬间,但人类并没有失去创造自身卓越瞬间的能力。

本周,世界顶尖的围棋选手之一 李世乭 和 由伦敦 AI 实验室 DeepMind(现为 Google 旗下)的研究团队设计的人工智能系统 AlphaGo 之间 历史性的比赛结束了。该机器以四胜一负的战绩赢得了五局三胜制的系列赛,取得了胜利。这标志着机器首次在这一古老而极其复杂的游戏中击败了最优秀的棋手——直到最近,专家们还预计这种情况在未来十年内不会发生。

这场胜利之所以引人注目,是因为 AlphaGo 核心的技术代表着未来。它们已经在改变 Google、Facebook、Microsoft 和 Twitter,并且准备好彻底改造从机器人技术到科学研究的方方面面。这对某些人来说是可怕的。人们担心人工智能机器会抢走我们的工作,甚至摆脱我们的控制——在某种程度上,这些担忧是健康的。我们不会措手不及。

但是,还有另一种思考这一切的方式——一种超越人与机器对抗的固有观念的方式,并受到那两步辉煌棋步的启发。

第 37 步

在比赛的第二局中,AlphaGo 在 19x19 棋盘的右侧走出第 37 步,令包括 李世乭 在内的世界顶级围棋选手都感到困惑。“那一步很奇怪,”一位解说员说道,他本人也是九段棋手,这是最高的等级。“我以为这是一个错误,”另一位解说员说道。李世乭 在离开比赛室后,花了将近十五分钟才制定出应对之策。樊麾——三次欧洲围棋冠军,曾在 10 月份的闭门比赛中与 AlphaGo 对战,以零比五输掉了比赛——难以置信地做出了反应。但是,凭借他与 AlphaGo 交手的经验——自 10 月份以来的五个月里,他曾多次与该机器对战——樊麾 看到了这一相当不寻常的棋步之美

围棋大师 李世乭 战胜 Google 人工智能获得安慰性胜利Arrow 观看 Google 人工智能下围棋的悲伤与美丽Arrow Google 人工智能在与围棋大师的比赛中赢得关键的第二局Arrow

的确,这一步改变了比赛的进程。AlphaGo 最终赢得了第二局,在赛后的新闻发布会上,李世乭 感到震惊。“昨天,我很惊讶,”他通过翻译说道,指的是他在第一局中的失利。“但今天我无话可说。如果你看看比赛的方式,我承认,这是我方非常明显的失利。从比赛一开始,我就没有一刻觉得自己是领先的。”

这是一个令人心碎的时刻。但与此同时,我们这些在首尔四季酒店内观看比赛的人们都能感受到这一步棋的美丽,尤其是在与极具感染力的哲学家 樊麾 交谈之后。“太美了,”他不停地说。“太美了。”然后,第二天早上,AlphaGo 项目的首席研究员 David Silver 告诉我 机器 是如何看待这一步的。那也很精彩。

万分之一

最初,Silver 和他的团队使用深度神经网络——一种模仿人脑神经元网络的硬件和软件网络——教 AlphaGo 下围棋。这项技术已经支撑着 Google、Facebook 和 Twitter 等公司内部的在线服务,帮助识别照片中的面孔、识别智能手机中说出的命令、驱动搜索引擎等等。如果你向神经网络输入足够多的龙虾照片,它就可以学会识别龙虾。如果你向它输入足够多的人类对话,它就可以学会进行一次差不多的对话。如果你向它输入 3000 万步来自专业棋手的棋步,它就可以学会下围棋。

但是,该团队更进一步。他们使用一种名为强化学习的第二种 AI 技术,设置了无数场比赛,让(略有)不同的 AlphaGo 版本相互对战。当 AlphaGo 与自己对战时,该系统会跟踪哪些棋步在棋盘上带来了最大的领地。“AlphaGo 通过在神经网络之间进行数百万场比赛,彼此对抗,并逐步改进,学会了为自己发现新的策略,” Silver 在 Google 今年年初推出 AlphaGo 时说道。

然后,该团队又采取了另一步骤。他们从这些机器对机器的比赛中收集棋步,并将它们输入到第二个神经网络中。这个神经网络训练系统检查每个棋步的潜在结果,展望游戏的未来。

因此,AlphaGo 从人类的棋步中学习,然后从它与自己对战时所走的棋步中学习。它了解人类是如何下棋的,但它也可以超越人类的下棋方式,达到一个完全不同的游戏水平。这就是第 37 步发生的事情。正如 Silver 告诉我的那样,AlphaGo 计算出人类会走出这一步的几率是 万分之一。但是,当它利用通过多次与自己对战所积累的所有知识——并展望游戏的未来时——它决定无论如何都要走出这一步。而且这一步是天才之举。

第 78 步

李世乭 随后输掉了第三局,AlphaGo 赢得了五局三胜制系列赛中的百万美元奖金。四季酒店内的气氛再次跌入低谷。“我今天不知道该说些什么,但我认为我首先要表达我的歉意,” 李世乭 说。“我本应该在比赛方面展示更好的结果、更好的结果、更好的比赛。”

它了解人类是如何下棋的,但它也可以超越人类的下棋方式,达到一个完全不同的游戏水平。

在第四局比赛中,他决心为自己和全球数千万观看比赛的人们挽回一些尊严。但是,在比赛进行到一半时,这位韩国棋手的前景并不乐观。“李世乭 需要做一些特别的事情,”一位解说员说道。“否则,这就不够了。”但是在考虑了他的下一步棋 30 分钟之后,他做出了特别的事情。那是第 78 步,棋盘中间的一个“楔形”棋步,它立即扭转了比赛的局面。

正如我们在赛后发现的那样,AlphaGo 在接下来的棋步中走出了灾难性的一步,仅仅几分钟后,在分析了棋盘位置后,该机器确定其获胜的机会突然跌落谷底。解说员兼九段棋手 Michael Redmond 称 李世乭 的这一步棋非常精彩:“它让我感到惊讶。我相信它会让大多数对手感到惊讶。我认为它让 AlphaGo 感到惊讶。”

在围棋棋手中,这一步棋被称为“神之一手”。这确实是高度赞扬。但是,更高的赞扬来自 AlphaGo。

万分之一——再次

第二天早上,当他沿着世宗大路的主要大道走下街,这条街就在四季酒店的街下,我与 Demis Hassabis 讨论了这一举动,Demis Hassabis 负责 DeepMind 实验室,并且在七天比赛中是 AlphaGo 的主要负责人。当我们走路时,路人像对待名人一样对待他——而且他的确是,在无数报纸和如此多的电视新闻节目中露面之后。在韩国,有超过 800 万人下围棋,李世乭 是一个民族人物。

Hassabis 告诉我,AlphaGo 对 李世乭 的第 78 步没有准备,因为它认为人类永远不会下那一步棋。凭借几个月的训练,它确定这种情况发生的几率为万分之一。换句话说:与人类会在第二局中走出 AlphaGo 的第 37 步的概率完全相同

这两步棋的对称性比其他任何东西都更精彩。万分之一万分之一。这就是我们应该从这令人震惊的七天中获得的。Hassabis 和 Silver 以及他们的研究人员同伴已经建造了一台能够实现超人类事物的机器。但与此同时,它是有缺陷的。它不能做我们人类能做的一切。事实上,它甚至无法接近。它不能进行对话。它不能玩猜谜游戏。它不能通过八年级的科学考试。它不能解释上帝之手。

但是,想想当你把这两件事放在一起会发生什么。人类和机器。樊麾 会告诉你,在与 AlphaGo 进行了五个月的比赛之后,他看到了完全不同的比赛。他的世界排名一路飙升。显然,李世乭 也有同样的感觉。Hassabis 说他和这位韩国棋手在第四局比赛后见面,李世乭 呼应了 樊麾 的话。这位韩国人告诉 Hassabis,仅仅与 AlphaGo 的几场比赛就打开了他的眼界。

这不是人与机器的对抗。这是人类 机器。第 37 步超出了我们所有人的想象。但随后是第 78 步。我们不得不问:如果 李世乭 没有与 AlphaGo 进行前三场比赛,他会找到上帝之手吗?击败他的机器也帮助他找到了方向。