Demis Hassabis、AlphaGo与DeepMind

阿隆随录

2024-10-10 00:00发布于上海军事领域创作者

哈萨比斯（Demis Hassabis），1976年生于伦敦，父亲是希腊人，母亲是新加坡人。哈萨比斯的父亲曾是歌手，父母开过卖玩具的商店，家中并没有什么工程师氛围，哈萨比斯的妹妹从事音乐、弟弟是职业牌手，哈萨比斯也搞不清楚他后来显露出来的“技术”潜质从何而来。童年时期，哈萨比斯显示了国际象棋方面的天赋，9岁进入了英国少年国际象棋代表队，13岁国际象棋排名位列同龄段世界第二、获得了国际象棋大师称号。

哈萨比斯最惊人之处在于很小年纪就懂得对自己的人生进行哲学性的思考。哈萨比斯在列支敦士登参加一场国际象棋巡回赛时，比赛大厅里上百名来自世界各国的顶尖棋手正对着国际象棋这个复杂的游戏绞尽脑汁，哈萨比斯脑海中突然闪现出这样一个问题：“大家到底在干什么？大家是不是在浪费大脑？这么多聪明人为什么不用脑力去做点更有意义的事情呢？”不久后，在一次比赛输掉后，哈萨比斯宣布自己将不再参加国际象棋比赛，这让他的父母非常震惊，因为大家都认为他在国际象棋有光明的未来。

不过下棋的经历给哈萨比斯带来的好处也不少，一个好处就是哈萨比斯通过下棋一直收获颇丰，他在一次击败美国对手的比赛中赢得的200英镑奖金，就是用这笔钱哈萨比斯购买了人生中的第一台电脑ZX Spectrum，正是这台电脑带领他进入了计算机世界；另一个好处是因为小小年纪就是国际象棋大师，哈萨比斯想去剑桥大学，就可以去剑桥大学读书。

16岁时，哈萨比斯向剑桥大学提出申请，想成为一名攻读计算机科学专业的学生，剑桥大学破格录取了他，但由于年龄太小，学校要求他再晚一年入学。为了度过这一年，哈萨比斯参加了英国游戏杂志Amiga Power举办的游戏设计大赛并获得了二等奖，因此得到了去游戏开发公司（Bullfrog Productions）工作的机会。在那里他开发了一款新游戏“主题公园”，玩家可以打造并经营自己的主题公园，这款游戏获得了巨大的成功，不仅销售量达到了数百万套，还获得了英国“金摇杆奖”，哈萨比斯也因此赚到了足够多的钱以供自己上大学使用。

在剑桥学习的时光里，哈萨比斯学习了亚瑟·塞缪尔（Arthur Samuel）和他的跳棋程序、提出“人工智能”这个概念的约翰·麦卡锡（John McCarthy）以及弗兰克·罗森布拉特（Frank Rosenblatt）和他的第一个神经网络试验，哈萨比斯渴望在人工智能领域有所建树，可是在课堂上教授却反复强调：“围棋极具创造性和复杂性，在可见的未来计算机还无法完全解决围棋问题。”

哈萨比斯对这个问题的思考是，与其编写一个会下围棋的程序，不如编写一个通用性的“学习程序”，这个程序可以用于学会如何编写下围棋的程序，这或许有点不可思议，但重点是“学习程序”在实现以后将具有模式学习能力，随着经历的棋局越来越多，该程序会在下棋过程中自我学习，不断地从错误走法中总结经验并加以改进。哈萨比斯认为这是解决围棋问题的正确方向，于是，哈萨比斯打算研究人类的大脑是怎样学会解决问题的方法的，2005年赴伦敦大学学院（UCL）攻读神经科学博士学位。

在博士学习阶段，哈萨比斯与UCL的神经学家谢恩·莱格（Shane Legg）交流过创办一家实现自己想法的公司。2010年9月，哈萨比斯、谢恩·莱格与穆斯塔法·苏莱曼（Mustafa Suleyman，哈萨比斯中学时就认识的好友）三人创建了公司，即DeepMind。

在DeepMind成立之初，筹集所需的资金异常困难，因为大多数投资人都认为投资一个研究“人工智能玩游戏”的项目太不靠谱，只有埃隆·马斯克（Elon Musk）、彼得·蒂尔（Peter Thiel）等极少数有远见的投资人看好这家公司的前景并注入了资金。Peter Thiel从未给硅谷以外的公司投资过，他试图说服哈萨比斯把公司搬到美国西海岸，以便更好地发展，但哈萨比斯是土生土长的伦敦人，他坚信家乡还有很多能够壮大自己事业的人才未被发掘。

哈萨比斯在剑桥学习时就与同学David Silver一起创办了一家名为Elixir Studio的游戏公司，但两人都认为开发游戏的技术含量太低了，后来两人都选择回到学校攻读博士去了。David Silver到阿尔伯塔大学（University of Alberta）师从强化学习（Reinforcement Learning）权威理查德•萨尔腾（Richard Sarten）以及计算机博弈问题的权威马丁•穆勒（Martin Muller），博士毕业后David Silver获得了UCL的教职。

2012年，Geoffrey Hinton、Alex Krizhevsky与Ilya Sutskever的深度学习AlexNet模型取得了成功。利用深度学习与强化学习解决博弈问题的技术方向已经被很多人看到了，David Silver（后来是AlphaGo的首席架构师）与Aijia Wang（黄士杰，David Silver在阿尔伯塔大学的师弟，后来是AlphaGo的首席软件工程师）聚集到DeepMind，2013年DeepMind团队发表了论文《Playing Atari with Deep Reinforcement Learning》，Deep Reinforcement Learning在解决Atari（电子游戏博弈）问题上显示了惊人的性能，哈萨比斯决定投入公司资源利用Deep Reinforcement Learning来挑战彻底解决围棋问题。

2014年，Google以4亿英镑的价格收购DeepMind。在解释为什么把公司早早卖给Google时，哈萨比斯说“本来我并不想这么做，但在过去3年里，为了筹措资金，我只有10%的时间用于研究。我意识到，我的人生可能没有足够的时间，既能把公司发展成谷歌那样的规模，又可以在人工智能领域有所建树。所以，卖给谷歌这样的选择对我来说并不难。”

在收购DeepMind之前，Google已经收购了Geoffrey Hinton、Alex Krizhevsky与Ilya Sutskever团队，这些AI顶级任务充实了Google Brain的实力，收购DeepMind后，DeepMind与Google Brain深度交流，DeepMind大幅度提高了大型AI项目工程化的能力。

2015年DeepMind利用176块GPU形成了AlphaGo的第1个大版本，这个版本击败了欧洲围棋冠军 Fan Hui；2016年DeepMind利用48块TPU形成了AlphaGo的第2个大版本，这个版本以4-1击败了李世石；2017年击败柯洁的是AlphaGo的第3个大版本，所使用的网络和算法已经与“AlphaGo Zero”非常接近，但不是从零开始学习，而是从监督学习开始初始化。

2017年DeepMind在《Natural》发表论文公布AlphaGo的最终版本“AlphaGo Zero”，只需要棋类规则知识，完全从零开始学习，“AlphaGo Zero”击败了之前的全部AlphaGo版本。AlphaGo Zero的技术宣告棋类博弈这类组合博弈问题被AI深度强化学习工程化终结了。

2020年DeepMind在《Natural》发表论文公布MuZero模型，这个模型可通用性解决棋类和Atari游戏问题，而且不再需要关于游戏的任何知识（连规则信息也不需要，模型可自动学习规则），MuZero在Atari游戏上表现取得SOTA，在棋类博弈上和AlphaGo Zero实力相当。

近年，哈萨比斯试图驱动DeepMind离开Google独立发展，那么，哈萨比斯的最终目标是什么？

可以这样来理解这个问题，2013年Geoffrey Hinton、Alex Krizhevsky与Ilya Sutskever的DNNresearch准备出售时，竞标者有Google、微软、百度以及当时还名不见经传的DeepMind，初创的DeepMind竟然还试图去买下DNNresearch和Geoffrey Hinton！这是DeepMind被Google收购的前一年，DeepMind自己还在到处找钱，因此哈萨比斯只能以DeepMind的股权去竞购，哈萨比斯当时是想干什么——哈萨比斯是想邀请天下AI精英们一起干一番大事业！

Geoffrey Hinton当时对于DeepMind一笑了之，一年后，因为融资压力太大，哈萨比斯无奈将DeepMind也卖给Google。但是，正是因为DeepMind后来的成功推动资本开始大举涌入AI，投资者推动Ilya Sutskever离开Google成立了OpenAI，刺激Ilya Sutskever去创业的正是DeepMind AlphaGo的巨大成功，现在OpenAI已经形成气候，不仅技术上已经与DeepMind并驾齐驱，商业运作上还领先于DeepMind。

现在假设一下，如果当年Geoffrey Hinton、Alex Krizhevsky与Ilya Sutskever加入DeepMind，如果DeepMind像OpenAI一样独立拿到足够投资，如果DeepMind现在独立拥有AlphaZero、AlphaFold与GPT，那么，DeepMind现在应该是什么规模的估值？哈萨比斯“把公司发展成谷歌那样的规模”有什么不可能的？这些问题，哈萨比斯肯定不知想过多少遍。

查看原图 60K