- 天才与算法:人脑与AI的数学思维
- (英)马库斯·杜·索托伊
- 4841字
- 2023-06-21 18:14:28
非凡的游戏男孩
2016年初,某公司发布了一款围棋程序,并宣称该程序能与世界上顶级的人类棋手较量。鉴于过去的挑战都以失败告终,围棋爱好者们对此事均持怀疑态度。因此,该公司提出组织一场人机围棋对抗赛来证明自己所言非虚。此次比赛是公开赛,且奖金丰厚,采用五番棋赛制,人类如果获胜,将得到100万美元的奖金。来自韩国的世界冠军李世石(Lee Sedol)接受了挑战。这个计算机程序就是AlphaGo。
AlphaGo是戴密斯·哈萨比斯(Demis Hassabis)智慧的结晶。哈萨比斯1976年生于伦敦,父亲是希族塞人,母亲是新加坡人。用哈萨比斯的话说,他的父母都是教师,也都是波西米亚式的技术恐惧症患者。他的弟弟和妹妹都走上了创作之路,一个成为作家,另一个成为作曲家。所以,哈萨比斯搞不清楚他的科学“极客”潜质遗传于何处。早在童年时期,哈萨比斯就显露出自己的天赋,尤其在游戏方面。11岁时,他的国际象棋排名就已经位列同龄段世界第二了。
在列支敦士登参加一场国际巡回赛时,哈萨比斯的脑海中突然闪现出这样一个念头:“在偌大的比赛大厅里,几百名来自世界各国的顶尖棋手正对着这个伟大而逻辑复杂的游戏积极思索。他们究竟在干什么?”哈萨比斯有一种顿悟的感觉,他意识到了这样的游戏完全是劳而无功的。后来,在英国广播公司(BBC)的采访中,他承认当时在想:“我们是不是在浪费大脑,因为这个级别的比赛选手都是顶尖的,为什么不用我们的脑力去做点更有意义的事情呢?比如解决癌症问题,或是找到其他疾病的治愈方法,那样不是更好吗?”
在与他的对手——成年的荷兰世界冠军激战10个小时后,哈萨比斯以微弱的劣势输掉了比赛。赛后他宣布自己将不再参加国际象棋比赛,这让他的父母非常震惊,因为所有人都以为这将是他的未来。但下棋的那些年他也收获颇丰,比如他用击败美国对手亚历克斯·张(Alex Chang)赢得的200英镑奖金,购买了人生中的第一台电脑ZX Spectrum。正是这台电脑促使他产生了要让机器学会思考的想法。
哈萨比斯很快又升级了他的装备——一台由康懋达(Commodore)公司发布的、著名的Amiga计算机。闲暇之时他在这台电脑上编程,开发喜欢的游戏。对当时的他而言,开发国际象棋程序还太过复杂。因此,他开发了一款游戏——奥赛罗(Othello),并取得了成功。奥赛罗是一个黑白棋游戏,当某种颜色的棋子困于相反颜色的棋子之间,其颜色就会反转。这个下里巴人的游戏没办法登上大雅之堂,因此也就没有专业的高手关注和挑战,哈萨比斯只好找他的弟弟来测试程序。结果是程序百战百胜。
该程序采用经典的“如果……那么……”选择结构设计,需要编写代码以应对对手的每一个动作,比如对手走了“那一步”,就用“这一步”回击。所有的创造力均来自哈萨比斯本人对于赢得比赛的预判能力。犹如魔法师的徒弟掐诀念咒一般,只要代码编写正确,计算机程序就可以毫无悬念地取得胜利。
看过杰夫·高布伦(Jeff Goldblum)主演的电影《生命的故事》(又名《双螺旋竞赛》)后,哈萨比斯对剑桥大学非常向往:“这真的是在剑桥发生的事吗?就在附近的小酒吧里提出DNA双螺旋学说,这简直太酷了!”所以,在16岁那年,他就向剑桥大学提出申请,想成为一名攻读计算机科学专业的学生,而跟他同龄的其他人此时还在辛苦地学习高中课程。
虽然剑桥大学破格录取了他,但由于年龄太小,学校要求他晚一年入学。为了打发时间,哈萨比斯参加了英国游戏杂志Amiga Power举办的游戏设计大赛并获得了二等奖,也因此得到了去游戏开发公司工作的机会。在那里他开发了一款新游戏“主题公园”,玩家可以打造并经营自己的主题公园。这款游戏获得了巨大的成功,不仅销售量达到了数百万套,还获得了“金摇杆奖”。哈萨比斯也因此赚到了足够多的钱以供自己上大学使用,之后他便动身前往剑桥。
在剑桥学习的时光里,哈萨比斯领略了人工智能领域伟大的科学家艾伦·图灵的风采,知晓了他著名的图灵智能测试;了解了亚瑟·塞缪尔(Arthur Samuel)和他的跳棋程序;提出“人工智能”这个概念的约翰·麦卡锡(John McCarthy)以及弗兰克·罗森布拉特(Frank Rosenblatt)和他的第一个神经网络试验。哈萨比斯渴望站立于巨人的肩膀之上,在人工智能领域有所建树。可是在课堂上教授却反复强调:“围棋极具创造性和直觉性,计算机永远下不好围棋。”这对年轻的哈萨比斯来说就像斗牛比赛中那块猩红的斗篷,激起了他的斗志。所以,当他从剑桥毕业时,他决心通过自己的努力来证明教授的言论是错误的。
他的想法是,与其编写一个会下围棋的程序,不如编写一个通用性的“元程序”,它可以用于编写出会下围棋的程序。这或许有点不可思议,但重点是“元程序”在实现以后将具有模式学习能力,随着经历的棋局越来越多,该程序会在下棋过程中自我学习,不断地从错误走法中总结经验并加以改进。
哈萨比斯了解到人工智能研究员唐纳德·米基(Donald Michie)在20世纪60年代就实现了类似的想法。米基编写了一个名为“MENACE”的算法,该算法可以零基础学习玩井字棋游戏的最佳策略(MENACE代表导出〇和×策略的引擎)。为了验证该算法,米基用304个火柴盒代表〇和×所有可能的布局;每个火柴盒里都装满了不同颜色的球,代表可能发生的动作。球被移走或加到盒子里,用以处分失误或肯定胜利。随着积累的游戏经验越来越多,重新分配球的过程最终产生了几乎完美的游戏策略。哈萨比斯打算借鉴这种从错误中改进策略的思路来训练下围棋的算法。
哈萨比斯为算法的实现精心设计了一个巧妙的模型。新生儿的大脑并没有预先设定应对生存挑战的方法,但他们会通过不断学习来强化自我,根据环境的变化做出适当的调整。
哈萨比斯打算研究人类的大脑是怎样学会解决问题的方法的,因为他觉得了解大脑的工作原理有助于实现自己创建一个会下围棋的计算机程序的梦想。因此,他去伦敦大学学院(UCL)攻读了神经科学博士学位。在试验工作闲暇之余,哈萨比斯与神经学家谢恩·莱格(Shane Legg)交流过创办一家实现自己想法的公司。尽管当时人工智能的学术地位很低(甚至在十年前,他们都不曾向教授们表露过想要投身于人工智能事业的想法),但他们仍然觉得自己正在从事一项伟大的事业。2010年9月,这两位科学家与穆斯塔法·苏莱曼(Mustafa Suleyman,哈萨比斯从小一起长大的好友)三人创建了公司,即DeepMind。
在DeepMind成立之初,筹集所需的资金异常困难,因为大多数投资人都认为投资一个研究“人工智能玩游戏”的项目太不靠谱。只有埃隆·马斯克(Elon Musk)、彼得·蒂尔(Peter Thiel)等极少数的投资人看好这家公司的前景并注入了资金。蒂尔从未给硅谷以外的公司投资过,他试图说服哈萨比斯把公司搬到美国西海岸,以便更好地发展。但哈萨比斯是土生土长的伦敦人,他坚信家乡还有很多能够壮大自己事业的人才未被发掘。哈萨比斯还记得他与蒂尔的律师的一次针锋相对的谈话——蒂尔的律师讥讽地问道:“伦敦有关于知识产权保护的法律吗?”他则回斥道:“我想他们以为我们也来自廷巴克图!”这场谈论背后的意义在于,虽然DeepMind创始人不得不把大量原始股份给投资人,但总算是有研究人工智能的资金了。
一开始就创造出一台能够下围棋的机器,这种一蹴而就的想法当然是痴人说梦。所以,他们在开始阶段选择了一个相对简单的目标:20世纪80年代的雅达利(Atari)游戏。在20世纪70年代末到80年代初,雅达利非常流行,很多学生因沉迷这款游戏机而荒废学业。我的朋友就有一台雅达利2600游戏机,他把大量的时间花费在玩Pong、Space Invaders和Asteroids等游戏上。这款游戏机是第一批能够通过软盘加载多款游戏的游戏机,可以直接加载后续开发出来的不同类型的新游戏。再早以前的游戏机只能玩那几款“写死”在硬件上的游戏。
我最喜欢的一款雅达利游戏叫作Breakout(打砖块):屏幕上方是彩色砖块砌成的砖墙,通过操纵杆的左右移动来控制底部的球拍,小球经球拍反弹后撞向砖墙,被撞到的砖块会消失。撞到砖墙底部的黄色砖块得1分,撞到砖墙顶部的红色砖块得7分。为提升游戏的复杂度使玩家获得更刺激的游戏体验,随着被清理的砖块的数量增多,球拍的尺寸会逐渐缩小,小球的速度也会逐渐加快。
某天下午发生了一件令人非常开心的事情:我们发现了一个破解游戏的巧妙方法。如果能在砖墙的一侧敲出一条通道,一旦小球经该通道到达砖墙顶部区域,它就会沿着通道两侧的墙壁一路反弹,依次清理剩余的砖块。玩家坐等小球自己“工作”完毕从墙上掉落下来后,再用球拍把球反弹出去即可。重复这一动作就可轻松得到高分。这个策略简直太棒了!
哈萨比斯团队的成员在年轻时也花费了不少时间玩电脑游戏。他们的父母要是知道他们为那些游戏投入的时间和精力变得有价值一定会非常高兴。事实证明,打砖块游戏是一个完美的测试用例,可以检验DeepMind团队是否具备开发能够学会玩游戏的程序的能力。对他们而言,只针对一款游戏编写程序有些太简单了,所以哈萨比斯团队又设定了一个更大的目标。
他们想编写一个根据当前屏幕像素状态和得分这两个输入参数之间的关系,寻求最佳得分策略的程序。该程序不会预先设定游戏规则,而是通过随机选择不同的“动作”(比如在打砖块游戏中移动球拍或是在Space Invaders游戏中发射激光炮射击外星人)不断试验,对相应的得分情况进行评估,分析其结果是有效提升还是止步不前。
该程序的实现基于20世纪90年代提出的强化学习(reinforcement learning)思想,目的在于根据分数的反馈或奖励函数来调整执行动作的概率。比如在打砖块游戏中,决定底部球拍左移或右移的初始概率是50:50。如果某次随机移动后,球拍击中小球并且得分,那么程序将根据这些信息重新校准球拍左右移动的概率,以增加球拍击中小球的机会。新的算法将强化学习与神经网络相结合,后者将评估像素的状态以确定哪些特征与加分有直接关系。
刚开始时,程序尝试随机移动,但收效甚微,几乎没有得分。当某次移动后成功得分,程序就会记录这次移动并在后续游戏过程中不断强化该移动的使用频率。一段时间后,随机动作会逐渐消失,代替它们的是一组更为有效的移动。程序在不断试验的过程中,可以真正学会通过特定的移动来提高它在游戏中的得分。
DeepMind团队提交的论文所附带的程序学习玩打砖块游戏的视频很值得一看。刚开始,程序会随机地左右移动球拍,并“观察”会发生什么。当小球被球拍反弹向上并撞击砖块得分时,程序开始重写。它发现让小球的像素与球拍的像素相连接(小球撞击球拍)似乎是一件好事(获得加分)。经过400局游戏的“学习”,程序已经可以精准地移动球拍,并不断地来回击球得分了。
当该程序玩过600局后,它所展现出来的水平令人惊讶!它找到了我们之前破解游戏的那个巧妙办法。这引发了我的感慨:虽然不记得我和小伙伴们玩了多少局才找到这个“窍门”,但从耗费的时间来看,显然我们用的更多。这表明现在计算机程序不仅做到了,而且还做得更快、更好。程序操纵球拍在砖墙的一侧建立通道,使得小球能够抵达砖墙的最上方,在砖墙顶部和屏幕顶部之间的空隙里来回碰撞得分。分数快速增加的同时,程序却无须太多干预。记得当年我们发现这个技巧后兴奋地击掌相庆,可程序轻易就做到了。
时间一晃,到了2014年,也就在DeepMind成立4年后,该项目在已经涉足的49款雅达利游戏的29款中获得了优于人类玩家的表现。该团队在2015年初向《自然》杂志提交的论文中详细介绍了他们的研究成果。众所周知,在《自然》杂志上发表论文是科学家在科研事业上的重要里程碑,可DeepMind团队的论文不仅获得了极高的赞誉,还登上了杂志的封面。《华尔街日报》评论道:“这是人工智能发展史上的重要时刻。”
在这里我必须重申,这是计算机编码的一项伟大进步!以像素状态和不断变化的分数作为原始数据,从随机移动球拍到发现在砖墙两侧建立通道以获取更多得分,程序实现了自我进化。但雅达利游戏的复杂性不可与古老的中国围棋同日而语,所以,哈萨比斯及他的团队决定研发一款可以挑战围棋的更厉害的程序。
此时,考虑到未来的发展,哈萨比斯决定将公司卖给谷歌。他在接受《连线》(Wired)杂志采访时解释说:“本来我们并不想这么做,但在过去3年里,为了筹措资金,我只有10%的时间用于研究。所以,我意识到,我的人生可能没有足够的时间,既能把公司发展成谷歌那样的规模,又可以在人工智能领域有所建树。这样的选择对我来说并不难。”这笔买卖对于谷歌的财力来说可谓轻而易举,同时,也给DeepMind团队研发会下围棋的程序带来了巨大支持和帮助。