02.游戏AI从简单世界开始夺权

棋牌游戏作为人类最早的游戏类型,也是我们最早会接触到的,规则简单易学的桌游。游戏AI的出现,也是从这种最简单的游戏开始,然后攻城略地。这期间不乏趣事,土耳其行棋傀儡就是其中之一。
土耳其行棋傀儡
土耳其行棋傀儡是18世纪出现的一个自动下棋装置,它是奥地利的沃尔夫冈·冯·肯佩伦在1770年为取悦玛丽娅·特蕾西娅女大公而建造并展出的,声称可以击败人类棋手。
它从1770年被造出来,到1854年毁于大火的84年间,被带到欧洲和美洲进行展览和与人对弈,击败了很多的挑战者,包括了凯瑟琳大帝,本杰明富兰克林和拿破仑。
当时作为数学家的计算机先驱,查尔斯·巴贝奇也两度输给它,而埃德加·爱伦·坡则写文章质疑这台机器。他认为这个机器是一场彻头彻尾的骗局,如果真的是机器,应该总能赢才对。
直到1857年,《国际象棋月刊》刊登了一篇文章,正式揭露土耳其行棋傀儡是由人类棋手藏到里面操作机械手这一骗局。
 
下图为原理图
其实,它在和拿破仑对弈的时候,就表现出了破绽。当时拿破仑拿一系列不合规的行动对它进行测试,然而它却以飞快的速度把桌子上的棋子一扫而空,这让拿破仑起了怀疑之心。 这场骗局最聪明的地方其实是在于,那位真人棋手是怎么巧妙的隐藏自己而不被人们检查装置时发现。
在当时的很长一段时间内,为了达到制造能够打败人类的机器这个目标,主要是追求的重点放在计算上。 如果优秀的棋手能够预判7步,那机器能够预判8步就算赢,后面的事实证明,这种预判更远的优势其实并不是人类赢棋的真正秘诀。
卡斯帕罗夫与深蓝的对决
卡斯帕罗夫是有史以来最伟大的国际象棋大师之一,他与IBM制造的超级电脑深蓝一共进行过两次对决。
在1996年首次对决中,卡斯帕罗夫以4:2的战绩击败深蓝。在1997年,他输给了卷土重来的“深蓝”。
在对决结束后的采访中,卡斯帕罗夫认为电脑更善于计算,而人类则善于类比思维和视觉思维。
他认为:我们棋手有评估棋路的不同方法。举例来说,在国际象棋中,如果你试图简化它,有些特定的位置是我必定要选择占据的。我的决定大约只有1%是基于计算而来,甚至更少。而99%的棋路则是基于我对棋谱的理解以及经验加成。电脑做出决定的过程完全相反,它99%的棋路是通过计算而来,只有1%左右是自己的理解,虽然这种理解正不断增强。
其实根据心理学家蔡斯和西蒙的研究,国际象棋高手,有一部分特长是能够将当时的情况与他们之前遇到的情况进行比较。这种将两种经验进行比较的能力,可以做出更好的决策。
这种鉴过去经验的能力对于卡斯帕罗夫能够第一次战胜深蓝是非常重要的。这是因为人类可以动态切换风格,而深蓝则一直在使用相同的硬编码来决策。如果深蓝在判断哪一步最佳的标准上出了错,就算后面深蓝能算出几亿个位置,也是无济于事的。
图为1996年时代杂志封面:Can machines think?
突破”简单”的围棋
围棋在理念层面上是一个非常简单的游戏,游戏中唯一的武器就是在何处落子。
围棋的位置状态空间,有3个状态: 黑子,白子和没有子。因为有19X19的网格,所以是3的361次方。2016年,研究者移除了不合规的状态,算出来状态数量大约为10的170次方。
从上面的数字可以判断,围棋的状态数量是非常巨人的,如果还考虑游戏内部互联的问题,往前预判一步,预判的难度会成指数级增长。
所以就人类预判的多少步来讲,现在计算机和人就变得一样。虽然计算机计算速度比人类快,但是能考虑的信息量其实也是有限的,这就导致人类和计算机都变成了速记员。
AlphaGo的成功其实很不一样,一方面依靠了计算机在运算速度方面这20年的进步,另一方面它抛弃蛮力,利用自己对过去的知识学习,来确定当前比赛的每一步的价值。
 
那到底学习了哪些过去的知识呢?AlphaGo团队用了3000万场真实存在的大师棋局来训练策略算法,这让它有了大师面对各种各样情形的经验。但是AlphaGo的真正目标是超越人类,团队就设计了在当前棋局中反复无数次的自己跟自己博弈,来改进自己的价值网络。
所以深蓝和AlphaGo的区别,就是我告诉了深蓝一步秒棋,深蓝就照着走了。而AlphaGo则是告诉自己,在特定的环境下,一步秒棋会是怎么样的,在这个前提下,自己找到当前能够执行的最优解。
我们应该向AI学习?
2006年的世界象棋竞标赛中,一个选手的经理指责另外一个选手去洗手间过度频繁,有可能是在洗手间向另外一个国际象棋程序寻求帮助。然后他还展示了那个选手的下棋方式和一款热门的国际象棋软件的下棋方式有80%的相似度。
作为比赛选手,向AI学习并用来作弊,是否道德暂且不论。我们现在讨论的是,后面的真实人类比赛应该怎么举办。
我们要禁止选手上洗手间么?我们会允许选手戴眼镜么?后面比赛的时候,我们是不是也要检查选手是否有设备植入身体呢?
 
 
现在电子竞技这么发达,一个游戏比赛的观众很容易就破几亿,而Dota2的比赛奖金也已经过亿了。这些比赛如果被AI突破,那些观众如何知道他们看到的是真人操作还是AI操控的游戏呢?
我们可以预想,那时的比赛规则可能会比现在的F1方程式规则更严,而AI作为更强的兴奋剂,会时刻被那些想赢的人惦记,不管它是用来训练选手还是做数据挖掘,或者决策。
最后,我们是否想过,在未来,当机器变得比现在的人脑更复杂的时候,机器是否会控制一切呢?在生命进化的历程中,人类,大自然,机器这三个选手,人类是否还会依然坚定选择大自然呢?那大自然会站在人类还是机器那边么? 作为人类的你,会支持谁呢?
往期推荐
01.AI将改变未来的游戏