Alphago 触到的那层膜

林准 --- 2017-11-21
周末时看了三局 Alphago zero 与 Alphago Master 的对战,颇有感触。自去年Alphago 战胜韩国棋手李世石后,在围棋领域AI终于战胜了人脑,而Alphago Master 又比战胜李世石的Alphago 强了三颗子。1996年电脑Deep Blue 战胜国际象棋大师之后,人类的目光就集中到了电脑何时在围棋上战胜人脑。 十年后许都程序员的预测是电脑要在围棋上战胜人脑大概还要发展一百年,可仅仅又过了十年,这个预测就被打破了。 这里说一下三者的不同。Deep Blue 是以运算速度战胜人脑的。它是一种程序树的模式,将国际象棋的所有可能性铺开,然后选择通向胜利的那棵分支。它的程序一完成,就已经战胜人脑了,无须学习过程。这种模式虽然有人也称之为人工智能(AI), 我却不以为然,这依旧是一部计算的机器罢了。 Alphago Master 与 Deep Blue 有着一个巨大的区别。基于Deep Blue的程序树展开模式,围棋的规则极其简单,变化却极其复杂,程序树展开模式需要的内存容量比国际象棋高出许多数量级,在这个基础上才有电脑在围棋上要战胜人脑还需一百年的预测。而Alphago Master运用的不是程序树模式,却是硬生生阅读了几十万的人类棋谱来“学习”人是怎样下棋的,这是模糊型,模块型的记忆方式,起初的棋力也不高,却在不断的学习中完善自己。对战李世石时还输给李世石一盘,可败了之后却更强了。到了Alphago Master这一代据说与人类高手交锋已经80连胜了。没想到却来了更强的一代Alphago zero. Alphago zero 顾名思义就是从零开始。 Alphago zero 不学习人类的棋谱,人类只输入了围棋的基本规则。Alphago zero 是在自己对战自己的过程中完善自己的。它从零开始,在40小时后达到人类最高手水平,70小时后战胜人类的(AI)学生Alphago Master。水平比Alphago Master 高出两个子,比人类最高手高出五个子。 我观看的三局棋,说实话一开局觉得还是Alphago Master 下得好,局面开阔,构思宏伟,很符合人类围棋审美观。而Alphago zero却每每出现我的围棋构图中的愚型或损型。可是不知为什么到了后半盘所有的子配合在一起就成了一种型——“胜型”。无论Alphago Master的构想多雄伟,多漂亮,到后半盘瞬间崩溃。这让我想起学棋时的感觉,当你拍着大腿说:“啊呀,我这里走臭了。要是那么走就好了。” 或是说:“你那手太妙了,我得学学。”的时候,其实对手并不比你高太多。但当你觉的不知道自己错在哪里,也不知道对手妙在何处就是下不过对手时,你会茫然地意识到原来对手比你高得太多。看Alphago zero 的棋就给我这种茫然。 在Alphago zero自我完善的过程中,人们发现在运行40小时的时候人类的大多数定式Alphago zero已经开发出来并高频运用,也就时这时它的棋力开始超越人类,当运行到70小时时,有很多人类定式运用频率急剧减少,也就是说这样的定式对Alphago zero来讲在淘汰过程中。反之一些我们认为不太有利的定式使用率大大上升。看了几个定式我突然意识到,最近在网上和别人下棋常会遇到这样的定式,我以为是对手棋力不够下出了愚型,而且也轻易的赢了下来。现在才知道原来是从Alphago zero这里学来的,只是缺乏Alphago zero的深远算路愚型还是愚型,没有变为“胜型”。 Alphago zero 用40个小时走完了人类围棋的千年历程,再用30小时超越了人类五颗子。在它面前人类的确有些茫然和失落。可在Alphago Master 和 Alphago zero 之间我看到了一层膜。一层也许一点就透,也许是AI无法逾越的膜。那就是如果没有人类输入围棋的基本规则,AI可不可以通过阅读几十万的棋谱来自动总结出围棋的基本规则,从而使Alphago master 自动进化到Alphago zero。就像人类总结上帝赋予宇宙的规则一样发现 F=MA 和 E=MC2。