- 深度学习
- (美)特伦斯·谢诺夫斯基
- 14478字
- 2021-03-27 22:03:42
01
机器学习的崛起
不久之前,人们还常说,计算机视觉的辨别能力尚不如一岁大的孩子。如今看来,这句话要改写了。计算机不仅能和大多数成年人一样识别图片中的物体,在马路上驾驶汽车的安全性还高过16岁的青少年。更神奇的是,如今的计算机不再是被动按照指令识别和驾驶,而是像自然界的生命由数百万年前开始进化那样,自主地从经验中学习。是数据的井喷促成了这一技术进步。如果说数据是新时代的石油,那么学习算法就是从中提取信息的炼油厂;信息积累成知识;知识深化成理解;理解演变为智慧。欢迎来到深度学习的新世界。
深度学习是机器学习的一个分支,它根植于数学、计算机科学和神经科学。深度网络从数据中学习,就像婴儿了解周围世界那样,从睁开眼睛开始,慢慢获得驾驭新环境所需的技能。深度学习的起源可以追溯到20世纪50年代人工智能的诞生。关于如何构建人工智能,当时存在两种不同的观点:一种观点主张基于逻辑和计算机程序,曾主宰人工智能的研究和应用数十年;另一种观点则主张直接从数据中学习,经历了更长时间的摸索才逐渐成熟。
20世纪,计算机技术还不够成熟,而且按照现在的标准,数据存储成本十分高昂,用逻辑程序来解决问题更加高效。熟练的程序员需要为每个不同的问题编写不同的程序,问题越大,相应的程序也就越复杂。如今,计算机能力日趋强大,数据资源也变得庞大且丰富,使用学习算法解决问题比以前更快、更准确,也更高效。此外,同样的学习算法还能用来解决许多不同的难题,这远比为每个问题编写不同的程序更加节省人力。
汽车新生态:无人驾驶将全面走入人们生活
在2005年美国国防部高级研究计划局(以下简称DARPA)举办的自动驾驶挑战赛中,一辆由斯坦福大学塞巴斯蒂安·特隆(Sebastian Thrun)实验室开发的自动驾驶汽车Stanley最终赢得了200万美元现金大奖(见图1–1)。团队利用了机器学习技术教它如何自主地在加利福尼亚州的沙漠中穿行。132英里的赛道中有若干狭窄的隧道和急转弯,还包括啤酒瓶道(Beer Bottle Pass),这是一段蜿蜒曲折的山路,两侧分别是碎石遍布的陡坡和断壁(见图1–2)。特隆并没有遵循传统的AI方法,即通过编写计算机程序来应付各种偶发事件,而是在沙漠中驾驶Stanley,让汽车根据视觉和距离传感器的感应输入,学习如何像人一样驾驶。
图1-1 塞巴斯蒂安·特隆及其团队的自动驾驶汽车Stanley在2005年赢得了DARPA举办的自动驾驶挑战赛。这项突破引发了交通界的技术革命。图片来源:塞巴斯蒂安·特隆。
图1-2 啤酒瓶道。这段极具挑战性的地形位于2005年DARPA自动驾驶挑战赛的末段。该赛事要求汽车在无人辅助的情况下驶过132英里的沙漠荒路。图中远处的一辆卡车正要爬坡。图片来源:DARPA。
特隆后来参与创立了高科技项目重点实验室Google X,并开始了进一步研究自动驾驶汽车技术的计划。谷歌的自动驾驶汽车自此开始,在旧金山湾区累积了350万英里的车程。优步(Uber)已经在匹兹堡投放了一批自动驾驶汽车。苹果也步入自动驾驶领域,以扩大其操作系统控制的产品范围,并希望能够再现它在手机市场上的辉煌。汽车制造商们亲眼看见一个100年来从未改变的行业在他们眼前发生了转型,也开始奋起直追。通用汽车公司以10亿美元的价格并购了开发无人驾驶技术的硅谷创业公司Cruise Automation,并在2017年投入了额外的6亿美元用于研发。2017年,英特尔以153亿美元的价格收购了Mobileye,它是一家专门为自动驾驶汽车研发传感器和计算机视觉的公司。在价值数万亿美元的交通运输领域,参与的各方都下了极高的赌注。
自动驾驶汽车不久将扰乱数百万卡车司机和出租车司机的生计。最终,如果一辆自动驾驶汽车能够在一分钟内出现,将你安全带到目的地且无须停车,在城市拥有汽车就显得不那么必要了。今天,汽车行驶时间平均仅占4%,这意味着它其余96%的时间都需要停放在某个地方。由于自动驾驶汽车可以在城市外围维修和停放,城市中被大量停车场占用的空间得以被重新高效利用。城市规划者已经开始考虑让停车场变成公园了。街边的停车道可以成为真正的自行车道。其他汽车相关行业也将受到影响,包括汽车保险业和修理厂。超速和停车罚单将不复存在。由醉驾和疲劳驾驶导致的交通事故死亡人数也会相应减少。通勤浪费的时间也将被节省下来做其他事情。根据2014年的美国人口普查数据,1.39亿上班族人均单日通勤时间达到了52分钟,全年总计296亿小时。这惊人的340万年的时间本可以在人生中得到更好的利用。自动驾驶汽车会使公路通行能力翻两番。而且,一旦大规模投入使用,没有方向盘、可以自己开回家的自动驾驶汽车还会让大规模汽车盗窃行为销声匿迹。虽然目前自动驾驶汽车仍面临很多监管和法律层面的障碍,但这一技术一旦开始普及,我们就将迎来一个崭新的世界。可以预见的是,卡车大概会在10年内率先实现自动驾驶,出租车要花上15年,而15到25年后,客运无人车将全面走入人们的生活。
汽车在人类社会中的标志性地位将以我们无法想象的方式发生变化,一种新的汽车生态也将应运而生。正如100多年前汽车的出现创造了许多新的行业和就业机会,围绕着自动驾驶汽车的发展,也出现了一个快速增长的生态系统。从谷歌独立出来的自动驾驶公司Waymo,8年来已经投入了10亿美元,并在加州中部山谷搭建了一个秘密测试场所。该场所位于一个占地91英亩的仿造小镇,其中还设计了骑自行车的“演员”和假的汽车事故。其目的是扩大训练数据集以包含特殊和不常见的情况(也叫边缘情况)。公路上罕见的驾驶事件经常会导致事故。自动驾驶汽车的不同之处就在于,当一辆汽车遇到罕见事件时,相应的学习体验会被传递给所有其他自动驾驶汽车,这是一种集体智能。其他自动驾驶汽车公司也在建造许多类似的测试设施。这些举措创造了以前并不存在的新工作机会,以及用于汽车导航的传感器和激光器的新供应链。
自动驾驶汽车仅是信息技术推动经济发生重大转变的一个最明显的体现。网络上的信息流就像城市管道里的水流。信息在谷歌、亚马逊、微软和其他IT公司的大型数据中心聚集。这些数据中心需要耗费大量电力,因此通常建在水电站附近,并利用河水来冷却信息流所产生的大量热量。2013年,美国的数据中心消耗了1000万兆瓦的电量,相当于34个大型电厂产生的电力。但是目前对经济影响更大的是如何使用这些信息。从原始数据中提取出的信息被转化为关于人和事的知识:我们做什么,我们想要什么,我们是谁。计算机驱动的设备也在越来越多地利用这些知识与我们进行口头上的交流。与大脑之外、书本之中的被动知识不同,储存在云中的知识是一种外部智能,并且正在成为人们生活中积极、活跃的一部分。
自然语言翻译:从语言到句子的飞跃
如今,谷歌在超过100种服务中使用了深度学习,包括街景视图(Street View)、收件箱智能回复(Inbox Smart Reply)和语音搜索。几年前,谷歌的工程师意识到他们需要将这些计算密集型应用扩展到云端。他们开始着手设计一种用于深度学习的专用芯片,并巧妙地设计了可以插入数据中心机架中的硬盘插槽的电路板。谷歌的张量处理单元(TPU)现在已配置在遍布全球的服务器上,让深度学习应用程序的性能得到了大幅改进。
深度学习快速改变格局的一个例子是它对语言翻译的影响。语言翻译是人工智能的一只圣杯,因为它依赖于理解句子的能力。谷歌最近推出了基于深度学习的最新版谷歌翻译(Google Translate),代表了自然语言翻译质量的重大飞跃。几乎一夜之间,语言翻译就从零散杂乱的拼凑短语,升级到了语意完整的句子(见图1–3)。之前的计算机方法搜索的是可以被一并翻译的词汇组合,但深度学习会在整个句子中寻找词汇之间的依赖关系。
图1-3 手机上的谷歌翻译应用可以将日语文字和菜单即时译成英文。这一功能对于在日本如何按照指示牌乘车尤为重要。
得知谷歌翻译获得了巨大进步的消息后,2016年11月18日,东京大学的暦本纯一(Jun Rekimoto)测试了这个新系统。他把欧内斯特·海明威的小说《乞力马扎罗的雪》开头的一段话翻译成了日文,然后再把这段日文翻译成英文,结果如下(猜猜哪个是海明威的原作):
1. Kilimanjaro is a snow-covered mountain 19,710 feet high,and is said to be the highest mountain in Africa. Its western summit is called the Masai “Ngaje Ngai,” the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.
2. Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called “Ngaje Ngai” in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.
海明威的原作是第一段。
下一步工作是训练更大规模的深度学习网络,针对段落来提高句子间的连贯性。文字背后都有悠久的文化历史。俄裔作家和英文小说家,《洛丽塔》一书的作者弗拉基米尔·纳博科夫(Vladimir Nabokov)曾经得出结论,在不同语言之间翻译诗歌是不可能的。他将亚历山大·普希金(Aleksandr Pushkin)的诗体小说《叶甫盖尼·奥涅金》(Eugene Onegin)直译成了英文,并对这些诗文的文化背景做了解释性脚注,以此论证他的观点。或许谷歌翻译终有一天能够通过整合莎士比亚的所有诗歌来翻译他的作品。
语音识别:实时跨文化交流不再遥远
人工智能的另一只圣杯是语音识别。不久之前,计算机的独立语音识别应用领域还很有限,如机票预订。而如今,限制已不复存在。2012年,一名来自多伦多大学的实习生在微软研究院(Microsoft Research)的一个夏季研究项目中,让微软的语音识别系统性能得到了显著的提升(图1–4)。2016年,微软的一个团队宣布,他们开发的一个拥有120层的深度学习网络已经在多人语音识别基准测试中达到了与人类相当的水平。
图1-4 微软首席研究官里克·拉希德(Rick Rashid)在2012年10月25日于中国天津举行的一场活动中,使用深度学习进行了自动语音识别的现场演示。在2000名中国观众面前,拉希德说的英文被自动化系统识别,先在他的屏幕图像下方显示出英文字幕,随后被翻译成了中文。此次高难度展示被全球媒体争相报道。图片来源:微软研究院。
这一突破性成果将在之后的几年逐渐影响我们的社会,计算机键盘会被自然语言接口取代。随着数字助手,如亚马逊的Alexa、苹果的Siri以及微软的Cortana先后进入千家万户,这种取代已经在发生了。就如随着个人电脑的普及,打字机退出了历史舞台,有一天电脑键盘也将成为博物馆的展品。
当语音识别和语言翻译结合到一起时,实时的跨文化交流将有可能实现。《星际迷航》中那种万能翻译机将触手可及。为什么计算机语音识别和语言翻译达到人类的水平要花这么久的时间?难道计算机的各种认知能力同时进入瓶颈期仅仅是巧合吗?其实所有这些突破都源于大数据的出现。
AI医疗:医学诊断将更加准确
深入皮肤
随着机器学习的成熟并被应用于可获取大数据的许多其他问题,服务行业和其相关职业也将发生转变。基于数百万患者病情记录的医学诊断将变得更加准确。最近的一项研究将深度学习运用到了囊括超过2000种不同疾病的13万张皮肤病学图像中,这个医学数据库是以前的10倍大(图1–5)。该研究的网络被训练用于诊断“测试集”(testset,它从未见过的新图像集)中的各种疾病。它在新图像上的诊断表现与21位皮肤科专家的结论基本一致,甚至在某些情况下还要更准确。在不久的将来,任何一个拥有智能手机的人都可以拍下疑似皮肤病变的照片,并立即进行诊断——而现在要完成同样的过程,我们需要先去看医生,耐心等待病变被专家筛查出来,然后再支付一大笔账单。这一进步将大大扩大皮肤病护理的范围,提升护理质量。如果个体可以很快得到专家诊断,他们会在皮肤病的早期阶段,也就是更容易治疗的时候就开始就医。借助深度学习,所有的医生都将更准确地诊断罕见的皮肤病。
图1-5 艺术家绘制的高准确度诊断皮肤病变的深度学习网络图,2017年2月2日《自然》杂志封面。
深入癌症
如果专家在转移性乳腺癌的淋巴结活检切片图像上判断错误,就有可能导致致命的后果。这是一种深度学习擅长的模式识别问题。实际上,一个经过大量结论清晰的切片数据训练出来的深度学习网络能达到0.925的准确度,还不错,但还不及人类专家在同一测试集上达到的0.966。然而,把深度学习与人类专家的预测结合起来,准确度达到了0.995,几近完美。由于深度学习网络和人类专家查看相同的数据的方式不同,二者相结合的效果比单独预测要好。这样一来,更多的生命得以被挽救。这表明在未来,人类与机器将是合作而非竞争的关系。
深入睡眠
如果你有严重的睡眠问题(70%的人一生中都会遇到这个问题),你要等待几个月才能见到你的医生(除非问题十分紧急),然后你会被转到一个睡眠诊所。在那里,你需要在身上接几十个能在你入睡时记录你的脑电图(EEG)和肌肉活动的电极,接受彻夜观察。每个晚上,你会先进入慢波睡眠,然后定期进入快速眼动(REM)睡眠,在此期间,你会做梦,但是失眠、睡眠呼吸暂停综合征、不宁腿综合征以及许多其他睡眠障碍会干扰这种睡眠模式。如果你在家里就很难入睡,那么在一张陌生的床上,全身接满了让人不安的医疗设备进入睡眠状态,绝对算得上真正的挑战。睡眠专家会查看你的脑电图记录,以30秒为单位标记睡眠阶段,一段8小时的睡眠要花几个小时才能标记完。而最终你会得到一份有关睡眠模式异常情况的报告,以及一份2000美元的账单。
依据1968年由安东尼·雷希特施芬(Anthony Rechtshaffen)和艾伦·卡莱斯(Alan Kales)设计的系统,睡眠专家将接受寻找表征不同睡眠阶段特征迹象的培训。但是由于这些特征常常不明确,也不一致,只有75%的情况下专家们能在数据解读上达成一致。相比之下,我实验室之前的一名研究生菲利普·洛(Philip Low)使用无监督机器学习,花了不到一分钟的计算机运算时间,以3秒的时间分辨率自动检测睡眠阶段,和87%的人类专家达成了一致的结论。此外,这种方式只需要在头部的单个位置做记录,用不到那些触点和接线,也节省了大量佩戴和摘除的时间。2007年,我们创立了一家公司Neurovigil,想将这项技术引入睡眠诊所,但诊所对此没有表现出多大兴趣,因为靠人力标注能产生更多的现金流。实际上,依据保险号向患者开具账单,会让诊所没有动机采用更廉价的程序。Neurovigil在大型制药公司发现了另一个市场,这些公司在开展临床试验,需要测试他们的药物对睡眠模式的影响。这项技术目前正在进入长期护理设施市场,帮助解决在老年人中更普遍的进行性睡眠问题。
睡眠诊所模式是存在缺陷的,因为在这样的限制条件下不能可靠地诊断出健康问题:每个人的生理基数都不同,而偏离这个基数的信息最重要。Neurovigil已经有了一个小型设备iBrain,它可以在家里记录你的脑电图信息,将数据传到网上并分析数据的长期趋势和异常情况。这可以帮助医生及早发现健康问题,在恶化前及时干预并阻止慢性疾病的发展。其他很多疾病的治疗也将受益于持续监测,如1型糖尿病,血糖水平可以被监测并通过胰岛素进行调节。使用能够连续记录数据的廉价传感器正在对其他慢性疾病的诊断和治疗产生重大影响。
从Neurovigil的发展过程中可以看出:第一,即便拥有更好更廉价的技术,也不代表能轻易地将其转化为有市场价值,甚至更优质的新产品或服务;第二,当现有产品在市场中的地位根深蒂固,就会进一步开发出深入应用的二级市场,可以让新技术产生更直接的影响,并争取时间来改进,提升竞争力。太阳能和许多其他新兴产业的技术就是这样进入市场的。从长远来看,已被证实具有优势的睡眠监测和新技术将会覆盖到家中的患者,并最终融入医疗实践。
金融科技:利用数据和算法获取最佳回报
纽约证券交易所超过75%的交易都是自动完成的(图1–6),高频交易能在几分之一秒内进出仓位。(如果你不用为每笔交易支付费用,那么即使是很小的优势也能带来巨额利润。)更长时间范围内的算法交易会考虑到基于大数据的长期趋势。深度学习在赚钱和提高利润方面做得越来越好。预测金融市场,问题在于数据嘈杂,条件不稳定—— 一场选举或国际冲突可能会导致投资者心态在一夜之间发生变化。这意味着用来预测今天股票价值的算法可能到明天就不准了。在实践中,被用来赚钱的算法有数百种,表现突出的则被不断整合以实现最优回报。
图1-6 延迟vs头寸持有时间。在线机器学习正在推动算法交易,它比传统的长期投资策略更快速,比股票市场中的高频交易更加慎重。许多不同类型的机器学习算法被组合运用以获得最佳回报。
早在20世纪80年代,我还在为摩根士丹利的股票交易神经网络模型提供咨询时,遇到了专门设计并行计算机的计算机科学家大卫·肖(David Shaw)。哥伦比亚大学学术休假期间,肖曾在自动化交易早期担任量化分析师,随后他在华尔街创立了自己的投资管理公司德劭集团(The D. E. Shaw Group),现在他已经是亿万富翁了。德劭集团非常成功,但仍然逊于另一家对冲基金文艺复兴科技公司(Renaissance Technologies)。这家基金是由杰出的数学家、纽约州立大学石溪分校数学系前主任詹姆斯·西蒙斯(James Simons)创立的。仅2016年,西蒙斯就挣了16亿美元,这还算不上他最好的一年。文艺复兴科技被称为“世界上最好的物理和数学系,”“它不会雇用带有哪怕一点点华尔街正统味道的人”。
不再参与德劭的日常运营后,大卫·肖现在专注于德劭研究所(D. E. Shaw Research)的业务,该研究所搭建了一台名为“Anton”的专用并行计算机,比全球其他计算机执行蛋白质折叠的速度都快得多。西蒙斯退休后不再掌管文艺复兴科技,而是建立了资助自闭症及其他物理和生物科学项目研究的基金会。通过加州大学伯克利分校的西蒙斯计算理论研究所(the Simons Institute for the Theory of Computing at UC Berkeley)、麻省理工学院的西蒙斯社会大脑中心(the Simons Center for the Social Brain at MIT)和纽约熨斗研究院(the Flatiron Institute),西蒙斯的慈善事业对推进数据分析、建模和仿真的计算方法产生了重大影响。
更广泛的金融服务正在金融科技(fintech)的大背景下发生大规模转型。诸如区块链这样的信息技术—— 一种安全的互联网记账方式,取代了金融交易的中间商——正在接受小规模的测试,但它很快就会扰乱价值数万亿美元的金融市场。机器学习正在被用于改进贷款信用评估,准确地提供业务和财务信息,在社交媒体上获取预测市场趋势的信号,并为金融交易提供生物识别安全服务。谁拥有最多的数据,谁就是赢家,而世界上充斥着财务数据。
深度法律:效率的提高与费用的降低
深度学习刚刚开始影响法律界。律师事务所每小时收费数百美元的法务助理的大部分日常工作都将实现自动化,特别是在高档写字楼办公的规模化事务所里。具体点说,技术辅助审核或调查将被人工智能接管,它可以浏览数千份文件以获取合法证据,且丝毫不会感到厌倦。自动化深度学习系统也将帮助律师事务所遵守日益复杂的政府规定。这些系统将为现在无法负担律师费用的普通人提供法律建议。法律工作不仅收费会更便宜,也会更高效,这一点通常比费用更重要。法律世界正在走向“深度法律”。
德州扑克:当机器智能学会了虚张声势
一对一无限注德州扑克是最受欢迎的扑克玩法之一,常见于赌场,无限注投注方式则通常出现在世界扑克系列赛(World Series of Poker)的主赛事中。扑克很有挑战性,因为与国际象棋玩家可以获得相同的信息不同,扑克玩家的信息不完整,而且在最高级别的比赛中,诈唬、欺骗的技巧和拿到的牌一样重要。
数学家约翰·冯·诺依曼(John von Neumann)创立了数学博弈理论,也是数字计算机之父,他就对扑克特别着迷。他说过:“现实生活包括虚张声势,一点欺骗手段,以及自问另一个人会怎么评判我做事的意图。这就是我理论中博弈的内涵。”扑克是一种博弈,反映了经过进化精炼过的人类智能的一部分。一个名为“DeepStack”的深度学习网络和33名职业扑克选手进行了44852场比赛。令扑克专家震惊的是,它以相当大的优势,一个标准差,击败了最出色的扑克玩家,同时以四个标准差在整体上击败了全部33名玩家——多么巨大的差距(见图1–7)。如果这一成就能复制到其他基于不完全信息、需要人来做判断的重要领域,比如政治学和国际关系,其影响可能是极其深远的。
图1-7 一对一无限注德州扑克。强势手牌。DeepStack已经掌握了如何在高筹码扑克中虚张声势,以大比分优势击败职业扑克玩家。
AlphaGo奇迹:神经科学与人工智能的协同
2016年3月,韩国围棋界18次世界冠军获得者李世石(Lee Sedol)与DeepMind公司的AlphaGo(图1–8)——一个使用深度学习网络评估盘面形势和可能的走法的围棋程序——进行了5场比赛。围棋相对国际象棋的难度,相当于国际象棋对跳棋的难度。如果国际象棋是一场战役,那么围棋就是一场战争。一块19×19围棋棋盘比一块8×8象棋棋盘大得多,这使得在棋盘的不同部分可能同时发生多场战役。不同战役之间存在长期的相互作用,即使是专家也难以判断。围棋的合法棋局总数是10170,远远超过宇宙中的原子数量。
图1-8 韩国围棋冠军李世石对战AlphaGo的5场比赛里,某一场战局中的棋盘。AlphaGo是一个通过与自己下围棋来学习的深度学习神经网络。
除了几个评估盘局并选择最佳着数的深度学习网络,AlphaGo还有一个完全不同的学习系统,用于解决时间信用分配问题:在众多步棋中,哪一步对赢得胜利有所贡献,哪一步对失败承担责任?大脑的基底神经节接收来自整个大脑皮层的投射,并投射回去,利用时间差分算法和强化学习来解决这个问题。AlphaGo使用由基底神经节进化出来的相同的学习算法,以评估最大化未来奖励的行动顺序(这一过程将在第10章中做出解释)。AlphaGo通过反复和自己下棋来学习这一技能。
AlphaGo和李世石对决的围棋比赛在亚洲得到了极高的关注。在亚洲,围棋冠军是全国性的公众人物,有着摇滚明星一样的待遇。AlphaGo早些时候击败了欧洲的围棋冠军,但是那场比赛的水平远低于亚洲的最高水平,因此李世石并没有做好打一场硬仗的心理准备。即使是开发AlphaGo的公司DeepMind,也并不清楚他们的深度学习程序到底有多强大。自上一场比赛以来,AlphaGo已经与好几个版本的自己下了数百万局的棋,然而并没有任何标准来判断它的水平到底达到了何种高度。
AlphaGo赢得了5场比赛的前3场后,许多人都感到十分震惊,因为它展现出了让人意想不到的高水准。这项比赛在韩国有很高的关注度,所有的主流电视台都对比赛进行了实况报道。AlphaGo有一些着数是革命性的。在第二场比赛的第三十八步,AlphaGo下出了精彩的一着,让李世石感到十分惊讶,他花了将近10分钟的时间才决定下一步要怎么走。AlphaGo输掉了第四场比赛,这是人类挽回颜面的一场胜利,最终它的战绩是4胜1负(图1–9)。3月的夜晚,我在圣迭戈的凌晨兴致勃勃地观看了这场较量。这让我回想起1966年6月2日凌晨1点,我在克利夫兰市,坐在电视机旁关注着“勘测者1号”探测器降落在月球上,并传回了第一张月球照片。我亲眼见证了这些历史时刻。AlphaGo的表现远远超出了我和其他许多人的期待。
图1-9 在2016年3月的围棋挑战赛中输给了AlphaGo之后的李世石。
2017年1月4日,一个名为“Master”的选手在一个网络围棋服务器上主动现身,其真正身份是AlphaGo 2.0。在此之前,它在与世界顶尖棋手的比赛中取得了60场全胜的战绩,被击败的棋手中包括当时世界排名第一的高手,19岁天才棋手柯洁。AlphaGo显露出了一种能与同时代的佼佼者抗衡的全新风格。2017年5月27日,在中国乌镇举办的围棋峰会上,柯洁以3场皆负的结果输给了AlphaGo(见图1–10)。这是有史以来最精彩的几场围棋比赛,数亿中国人都观看了该赛事。“去年,我还觉得AlphaGo的表现与人类非常接近,但今天我认为它是‘围棋之神’。”柯洁这样总结道。
在第一场比赛中,他以一目半的微弱差距输掉了比赛。柯洁说他“在比赛中途已经感觉快要赢了”。他非常兴奋:“我能感觉到自己的心脏在怦怦直跳!可能因为我太兴奋,有几步棋走错了。也许这就是人类棋手最薄弱的部分吧。”柯洁经历了一种情绪上的超负荷,但要达到最佳状态,更需要相对沉稳的情绪。事实上,舞台演员们都知道,如果他们演出前没有胃里翻江倒海的紧张感,就无法呈现出最精彩的演出。他们的表演遵循一种倒U形曲线,即最佳状态处于较低和较高的兴奋点之间。运动员把这叫作“在状态”。
图1-10 2017年在中国,DeepMind的联合创始人兼CEO德米斯·哈萨比斯(Demis Hassabis,左)和柯洁在历史性的围棋比赛结束后会面,共同展示带有柯洁签名的棋盘。图片来源:德米斯·哈萨比斯。
2017年5月26日,AlphaGo还击败了由5名顶尖棋手组成的队伍。这些棋手都分析过AlphaGo的招数,并已经在相应地改变自己的策略。这场比赛由中国政府主办,可以说是一个新版的“乒乓外交”。中国正在机器学习方面投入大量资金,其大脑研究计划的一个主要目标是挖掘大脑潜能来创造新的算法。
该围棋事件后续的发展可能会更令人惊叹。在开始跟自己下棋之前,AlphaGo是通过观察学习16万次人类围棋比赛起步的。有人认为这是作弊——一个自主的AI程序应该能够在没有积累任何人类知识的条件下学习下围棋。2017年10月,一款名为AlphaGo Zero的新版本AI程序面世了。它从游戏规则开始一步步学习下围棋,击败了曾战胜柯洁的版本AlphaGo Master,战绩为100∶0。此外,AlphaGo Zero的学习速度比AlphaGo Master快100倍,而计算能力差不多只有后者的1/10。完全忽略人类的知识,AlphaGo Zero变成了无敌超人。随着机器学习算法的不断进步,AlphaGo还会变得多么优秀,并没有已知的上限。
AlphaGo Zero虽然没有和人下棋,但仍然有许多围棋知识被人为添加到程序中强化棋艺的特征。如果没有任何围棋知识,AlphaGo Zero也许仍有进一步改进的空间。就像零度可乐将可口可乐里所有的热量分离出来一样,围棋的所有知识都被从Alpha Zero中剥离出来。结果,Alpha Zero能够更快、更果断地打败AlphaGo Zero。为了进一步说明“少就是多”,Alpha Zero在没有改变任何一个学习参数的情况下,学会了如何以超人的水准下国际象棋,还创造了人类从未使用过的着数。在与Stockfish这个已经是超人级别的顶级国际象棋程序的对决中,Alpha Zero还没有输过。在一场比赛中,Alpha Zero大胆地牺牲了一个象——这种做法通常用来获得位置上的优势,随后又牺牲了王后,这一步看起来像是个大昏着儿,直到很多步以后,Alpha Zero冷不防将了一军,无论是Stockfish还是人类棋手都没能预见到这样的结果。外星人已经着陆,地球从此要改头换面了。
AlphaGo的开发者DeepMind于2010年由神经学家德米斯·哈萨比斯参与创立,他曾在伦敦大学学院的盖茨比计算神经科学部门(University College London’s Gatsby Computational Neuroscience Unit)担任博士后研究员。该部门由彼得·达扬(Peter Dayan)领导,达扬曾是我实验室的博士后研究员,2017年和雷蒙德·多兰(Raymond Dolan)以及沃尔夫拉姆·舒尔茨(Wolfram Schultz)共同获得了享有盛誉的“大脑奖”(Brain Prize),以表彰他们在奖励学习方面的研究。谷歌在2014年以6亿美元的价格收购了DeepMind。该公司雇用了400多名工程师和神经科学家,拥有学术界和创业公司混合的双重文化。神经科学与人工智能之间的协同作用日渐深入,而且还在加速。
弗林效应:深度学习让人类更加智能
AlphaGo有智力吗?除了“意识”这个主题,关于智力的文章比心理学中任何其他主题都要多得多,这两个概念都很难界定。自20世纪30年代以来,心理学家就对流体智力和晶体智力进行了区分——流体智力能够将新条件中的推理和模式识别用于解决新问题,而不依赖于以前的知识;晶体智力则依赖于先前的知识,也是标准智商测试(即IQ测试)的对象。流体智力遵循一种抛物线式发展轨迹,在成年早期达到高峰,并随着年龄的增长逐渐下降;而晶体智力会随年龄的增长,缓慢渐进式地提高,直至暮年。AlphaGo只在一个相当狭窄的领域同时展现出了晶体智力和流体智力,但在这个领域,它表现出了令人惊讶的创造力。专业知识的获取也是基于在狭窄领域的学习。我们都是语言领域的专家,每天都在使用语言。
AlphaGo使用的强化学习算法可以被用来解决许多问题。这种形式的学习只取决于在一系列动作结束时给予获胜者的奖励,这似乎和提前做出更好的决策相矛盾。结合了许多强大的深度学习网络,就会生成许多领域相关的智能。而且事实上,已经出现了与领域相关的不同类型智能,例如社会、情感、机械和建筑等的案例。智力测试测量的一般因素(general factor,简称g因素)与这些不同类型相关。我们有理由认真审视IQ测试。自20世纪30年代首次测试智力以来,全人类平均的IQ分数每10年会上升三个点,这一趋势被称为“弗林效应”(Flynn effect)。对于弗林效应有许多可能的解释,比如更充足的营养、更完善的医疗体系,以及其他环境因素。这很有道理,因为环境会影响基因调控,从而影响大脑内在的连接,行为也会随之发生变化。随着人类越来越多地生活在人造环境中,大脑正在以某种超越自然进化轨道的方式被塑造。在更长的时间内,人类是否能一直都在变得更聪明?智商增长会持续多久?用电脑玩国际象棋、西洋双陆棋和围棋的人数自计算机程序达到冠军级别后一直在稳步增加,而机器也强化了人类玩家的智能。深度学习提升的将不仅仅是科学研究人员的智能,还包括所有行业从业人员的智能。
科学仪器正以惊人的速度产生数据。位于日内瓦的大型强子对撞机(LHC)中发生的基本粒子碰撞每年产生25PB(1PB=1000TB)的数据。大型综合巡天望远镜(LSST)每年将产生6PB的数据。机器学习正被用于分析庞大的物理和天文数据集,其规模之浩大让人类根本无法通过传统方法进行搜索。例如,DeepLensing是一种神经网络,可以识别遥远星系的图像。这些图像由于光在传播中因围绕周边星系的“引力透镜”造成的光路偏折而被扭曲了。这一技术可以自动发现许多遥远的新星系。物理学和天文学中还有许多其他类似“大海捞针”的问题,而深度学习能够让传统的数据分析方法如虎添翼。
新教育体系:每个人都需要终身学习
银行在20世纪60年代后期推出了面向银行账户持有人的全天候现金提取服务,这对于那些在银行正常营业时间之外需要现金的人来说非常方便,自动提款机(ATM)从此获得了阅读手写支票的能力。尽管它们的存在减少了银行柜员的日常工作量,但有越来越多的柜员为客户提供按揭和投资建议等个性化服务,同时也出现了维修ATM的新工种。就如一方面,蒸汽机代替了体力劳动者,但另一方面,这为能够建造和维护蒸汽机及驱动蒸汽机车的熟练工人提供了新的就业机会。亚马逊的在线营销也将许多员工从当地实体零售店中迁移出来,但同时也为分配和运输其商品,以及许多使用其平台的企业创造了38万个新的工作机会。由于现在需要人类认知技能的工作被自动化人工智能系统所接管,那些能够创建和维护这些系统的人将会获得新的工作。
工作变动不是什么新鲜事。19世纪,农场劳工被机器取代,机器也在城市工厂创造了新的工作机会,所有这些都需要一个教育系统来培训工人新的技能。不同之处在于,今天,由人工智能开辟的新职位除了需要传统的认知技能之外,还需要新的、不同的、不断变化的技能。所以我们都需要终身学习。要做到这一点,我们需要一个以家庭,而不是以学校为基础的新教育体系。
幸运的是,就像寻找新工作的需求变得迫在眉睫一样,互联网上免费的大规模开放式在线课程慕课(MOOCs)也应运而生,来帮助人们获取新的知识和技能。虽然仍处于初级阶段,但慕课的在线教育生态系统正在迅速发展,并在为更广泛的人群提供前所未有的优质教学。与下一代数字辅助系统相结合,慕课则可能会带来变革。芭芭拉·奥克利(Barbara Oakley)和我开设了一门名为“学会如何学习”(Learning How to Learn)的慕课——该热门课程会教你如何成为更好的学习者(见图1–11)——以及一门名为“思维转换”(Mindshift)的慕课,教你如何改造自己并改变你的生活方式(这两门课将在第12章中详细介绍)。
图1-11 “学会如何学习”教你如何成为更好的学习者,它是互联网上最受欢迎的慕课,拥有超过300万学习者。
进行网上操作时,其实正在生成机器可读的关于你自己的大数据。根据你在互联网上行为的蛛丝马迹,你正在被自动生成的相关广告定位。你在Facebook(脸谱网)和其他社交媒体网站上发布的信息可被用于创建数字助理,它几乎比世界上任何其他人都更了解你,并且不会遗漏任何内容,实际上就相当于你的虚拟分身。通过将互联网跟踪和深度学习都纳入服务,现在这些孩子的后代拥有的教育机会将比今天富裕家庭拥有的最优质的教育机会还要好。这些孙辈将拥有自己的数字导师,导师将在整个教育过程中陪伴他们。教育不仅会变得更加个性化,也会变得更加精准。世界各地已经开展了各种各样的教育实验,例如可汗学院,由盖茨基金会、陈–扎克伯格基金会和其他慈善基金会资助。这些实验机构正在测试软件,以便让所有的孩子都可以根据自己的节奏进步,并适应每个儿童的特定需求。数字导师的普及将使教师从教学中的重复劳动,如评分中解脱出来,专注于人类最擅长的事情——对学习困难的学生提供精神支持,并给予有天赋的学生灵感启发。教育技术(Edtech)正在快速发展,与自动驾驶汽车相比,传统教育向精准教育过渡的速度可能相当快,因为它必须克服的障碍要小得多,需求却要大得多,而且美国的教育是一个万亿美元的市场。一个主要的问题就是,谁能够访问数字助理和数字导师的内部文件。
正面影响:新兴技术不是生存威胁
AlphaGo在2016年毫无争议地击败了李世石,这激化了过去若干年引发的人工智能可能给人类带来威胁的担忧。计算机科学家签署了不会将AI用于军事目的的承诺协议。斯蒂芬·霍金(Stephen Hawking)和比尔·盖茨(Bill Gates)公开发表声明,警告人工智能可能对人类造成的生存威胁。伊隆·马斯克(Elon Musk)和其他硅谷企业家成立了一家新公司OpenAI,拥有10亿美元储备金,并聘请了杰弗里·辛顿之前的一名学生伊利娅·苏特斯科娃(Ilya Sutskever)担任第一任总监。虽然OpenAI的既定目标是确保未来人工智能的发现将公开供所有人使用,但它还有另一个隐含的更重要的目标:防止私人公司作恶。AlphaGo战胜了围棋世界冠军李世石,一个临界点也随之到来。几乎在一夜之间,人工智能从一项失败的技术,转变成了可感知的生存威胁。
一种新兴技术被看作生存威胁,这已经不是第一次了。核武器的发明、改进和储存曾经是一种毁灭全世界的威胁,但至少到目前为止,我们有能力阻止这种情况的发生。重组DNA技术刚问世的时候,人们担心经人工改造的致命生物会从实验室逃出来,导致全球范围内出现难以估量的痛苦和死亡。基因工程现在已经是一项成熟的技术,目前我们已经能和它的产物共存。与核武器和致命生物相比,机器学习的最新进展构成的威胁相对较小。我们也将适应人工智能。事实上,这已经在发生了。
DeepStack的成功带来的其中一个暗示是,深度学习网络可以学习如何成为世界顶级的骗子。训练深层网络能干什么只受限于训练者的想象力和数据。如果一个网络可以接受安全驾驶汽车的训练,那么它也可以被训练驾驶F 1赛车,很可能有人愿意为此掏腰包。今天,我们仍然需要技术娴熟和训练有素的从业人员使用深度学习来搭建产品和服务,但随着计算能力的成本持续下降、软件功能更加自动化,很快,高中生就可能具备开发AI应用程序的能力了。作为德国收入最高的在线电子商务公司,奥托(Otto)主要经营服装、家居和体育用品。它正在利用深度学习,根据历史订单信息预测客户未来可能购买的产品,并提前为他们下单。客户几乎在订购前就收到了自己想订购的商品,准确率达到90%。自动完成工作且无须人工干预,这种预订操作不仅可以每年为公司在剩余库存和退货环节节省数百万欧元,还提高了客户满意度和保有率。深度学习显著提高了奥托公司的生产力,却并没有取代它的工人。人工智能可以让你在工作中更高效。
虽然主要的高科技公司开拓了深度学习的应用,但机器学习工具已经普遍存在了,许多其他公司也开始从中受益。Alexa是一个广受欢迎的数字助理,与亚马逊Echo智能音箱配合使用,能够基于深度学习对自然语言发出的请求做出回应。亚马逊网络服务(AWS)引入了名为“Lex”、“Poly”和“Comprehend”的工具箱,可以分别基于自动化文字、语音转换、语音识别和自然语言理解,方便地开发相同的自然语言界面。具有对话交互能力的应用程序现在可供无力雇用机器学习专家的小型企业使用。企业通过应用这一程序可以提高客户满意度。
当最好的人类棋手在计算机程序面前都黯然失色时,人类会不再下棋吗?正相反,人工智能会提高人类的竞技水平,也使得棋类竞技更加大众化。顶级的国际象棋选手曾经都来自莫斯科和纽约等大城市。这些地方大师云集,可以教授年轻棋手并提高他们的技能水平。国际象棋电脑程序使得在挪威小镇长大的马格努斯·卡尔森(Magnus Carlson)13岁就成为国际象棋大师,如今他已是世界国际象棋冠军。人工智能不仅对游戏产生了正面的影响,更会推动人类付诸努力的各个方面,从艺术到科学。AI可以让你变得更聪明。
回到未来:当人类智能遇到人工智能
本书有两个相互交织的主题:人类智能是如何进化的,以及人工智能会如何演变。这两种智能之间的巨大差异在于,人类智能的进化经历了数百万年的时间,而人工智能在最近几十年才发展起来。尽管对于文化演变来说,这个速度仍然是快得出奇,但是过于谨小慎微可能并不是个正确的选择。
深度学习在近期取得的突破,并不是你从新闻报道中读到的那种一夜成功。从基于符号、逻辑和规则的人工智能向基于大数据和学习算法的深度学习网络的转变,其背后的故事通常并不为人所熟知。本书介绍了这个故事,并从我的角度探讨了深度学习的起源和成果。作为20世纪80年代开发神经网络学习算法的先行者和NIPS基金会的主席,我亲身经历了过去30年机器学习和深度学习的发展过程。我和同在神经网络领域的同事多年来都未能取得令人瞩目的成就,但坚持和耐心最终给我们带来了回报。