机器之心报道
机器之心编辑部
「当一家人工智能公司的首席执行官更像是计算机科学家而不是推销员时,我感觉更舒服」。
对于 DeepMind 来说,2023 是充满变化的一年。这年的 4 月份,谷歌宣布将 Google Brain 和 DeepMind 进行合并,成立名为 Google DeepMind 的新部门。新部门将在保持道德标准的同时,引领突破性的 AI 产品研究和进步。
Google Brain 和 DeepMind——一个创造了 Transformer,一个创造了 AlphaGo、AlphaFold…… 两个部门强强联合,在 2023 年底打造出了对标 ChatGPT 的 Gemini。如今,在大模型排行榜 LMSYS Chatbot Arena 上,Gemini 经常名列前三。可见,二者的合并是有一定成效的。
那么,Google DeepMind 今后的路要怎么走?在与伦敦大学学院高级空间分析中心城市数学副教授 Hannah Fry(汉娜・弗莱)最近的一次对谈中,Google DeepMind 首席执行官兼联合创始人 Demis Hassabis(戴密斯・哈萨比斯)透露了公司的一些规划,同时也就当前 AI 领域的一些问题发表了自己的看法。
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930939&idx=2&sn=00d72f97f26fc7acc3b2a2fd39434048&chksm=84e43a85b393b393d7a9bd7caeafce2fcd71b6299e195df3e5a716cb840a401c85dc9efff669&token=899618486⟨=zh_CN#rd
哈萨比斯的核心观点如下:
从短期来看,AI 被过度炒作了,但从长期来看,它是被低估的。至于如何分辨 AI 领域哪些是炒作,哪些是可以实现的,哈萨比斯表示,除了做调研,你还得看看发表言论的人是什么背景,有多懂技术,是不是去年才从别的方向转到 AI 的。如果发表言论的人只是跟风,那 ta 贡献好点子的概率就会像彩票开奖一样。
DeepMind 和 Google Brain 的合并带来了很多创新机会,他们的目标是发明下一个能够推动 AI 前沿的架构,就像 Google Brain 发明了 Transformer 架构一样。
现有的学术基准测试已经趋于饱和,无法区分顶尖模型之间的细微差异。哈萨比斯认为,AI 领域需要更好的基准测试,特别是在多模态理解、长期记忆和推理能力等方面。
现在很多模型都是从五、六年前发明的技术中产生的。所以,这些模型仍然缺少很多东西,会产生幻觉、不擅长长期规划,无法主动完成复杂任务。针对这些问题,谷歌打算通过结合其在游戏智能体和大语言模型方面的专业知识,比如将 AlphaGo 在规划和决策上的优势与 Gemini 等多模态模型结合,开发具备更强智能体行为的系统。
在谈到开源时,哈萨比斯表示他们已经开源了很多技术,如 Transformer、AlphaFold。但他认为前沿模型需要经过更多的审核,在发布一到两年后才能开源,这种模式也是谷歌正在遵循的。谷歌会开源模型,但这些模型会比最先进的模型落后大约一年。哈萨比斯进一步谈到,开源的主要问题在于它就像是走过一扇单向门,一旦发布,就无法撤回。因此在开源之前需要非常谨慎。
AI 可能会在一些复杂的数学问题上取得突破,例如帮助解决著名的数学猜想或在国际数学竞赛中表现出色。然而,目前的 AI 系统还无法自行提出新的数学假设或原创性理论。哈萨比斯认为,AGI 的一个重要测试标准将是其是否能够自主生成像广义相对论那样的全新假设和理论。
关于如何确保 AGI 能够使每个人都受益,哈萨比斯认为不可能将所有偏好都包含在一个系统中,但是可以构建一套安全的架构,然后人们根据自己的偏好、使用目的、部署目的,决定 AI 系统可以用来做什么,不能用来做什么。
在看了这个采访后,有人评价说,这个采访让他感觉很舒服,因为哈萨比斯听起来更像是一个计算机科学家,而不是推销员。还有人说,收购 DeepMind 并让他们自由发展是谷歌做出的最好的人工智能决策,希望谷歌能让他们继续自己的工作,尽可能不要打扰。
以下是机器之心整理的采访内容。
AI 的发展出乎意料
弗莱:回想起来,当我们在 2017 年开始策划这个播客时,DeepMind 还是一个相对较小、专注的 AI 研究实验室,它刚被 Google 收购,并被赋予了在伦敦安全距离内进行自己独特研究项目的自由。但自那以后,情况发生了巨大变化。自去年以来,Google 已经重新梳理了其整个架构,将 AI 和 DeepMind 团队置于其战略核心。
Google DeepMind 继续追求赋予 AI 人类级别的智能,即所谓的通用人工智能(AGI)。它推出了一系列强大的新 AI 模型,称为 Gemini,以及一个名为 Project Astra 的 AI 智能体,能够处理音频、视频、图像和代码。该实验室还在将 AI 应用于包括人类体内所有分子结构预测在内的多个科学领域中取得了巨大飞跃,不仅仅是蛋白质。2021 年,他们还分拆出一家新公司 Isomorphic Labs,致力于发现治疗疾病的新药。Google DeepMind 还在研究能够通过强化学习自行学习执行任务的强大 AI 智能体,并继续着 Alpha Go 在围棋游戏中战胜人类的传奇。
我们今天请来了 DeepMind 联合创始人、CEO Demis Hassabis。
我想知道,自从公众对 AI 的兴趣激增以来,你的工作是变得更容易还是更困难了?
哈萨比斯:我认为这是双刃剑。困难之处在于,现在有太多的审查、关注,整个领域有很多噪音。我更喜欢人少一些的时候,我们可以更专注于科学。但从好的方面来看,这表明技术已经准备好以许多不同的方式影响现实世界,并以积极的方式影响人们的日常生活,所以我认为这也很令人兴奋。
弗莱:你有没有对公众的想象力被迅速吸引感到惊讶?我想你预料到最终会是这个样子,是吗?
哈萨比斯:确实如此。我们这些人已经研究这个领域几十年了,最终在某个时间点,公众会意识 AI 将会变得多么重要。但看到这一切真正实现,并且以这种方式发生,感觉还是有点超现实。我想,这确实是因为聊天机器人的出现和语言模型的发展,因为每个人都使用语言,每个人都能理解语言,所以这是公众理解和衡量 AI 发展水平的简单方式。
弗莱:我听说你形容这些聊天机器人是「 超乎寻常得有效」,这是什么意思?
哈萨比斯:我的意思是,如果回顾 5 到 10 年前,当时人们可能会认为要实现 AI 的发展,需要构建一些令人惊叹的架构,并在此基础上进行扩展,而不必特别去解决像抽象概念这样的具体问题。在 5 到 10 年前的许多讨论中,人们认为需要一种特别的方式来处理抽象概念,因为大脑显然就是这样工作的。但是,如果给 AI 系统足够的数据,例如整个互联网上的数据,它们似乎确实能够从中学习并泛化出一些模式,不仅仅是死记硬背,而是实际上在某种程度上理解它们正在处理的内容。这有点「 超乎寻常得有效」,因为我认为 5 年前没有人会想到它会像现在这样有效。
弗莱:所以,这是一个惊喜……
哈萨比斯:是的,我们之前讨论了概念和 grounding—— 将语言置于真实世界体验中,可能在模拟或机器人具身智能中。当然,这些系统还没有达到那个水平,它们犯了很多错误,它们还没有一个真正的世界模型。但是仅仅通过从语言中学习,他们已经走得比预期中远了。
弗莱:我觉得我们需要解释一下 grounding 这个概念。
哈萨比斯:Grounding 问题是 80 年代和 90 年代在像麻省理工学院这样的地方构建的经典 AI 系统中遇到的一个问题。你可以把这些系统想象成巨大的逻辑数据库,单词之间互有联系。问题在于,你可以说「狗有腿」,这会在数据库中,但当你给系统看一张狗的图片时,它并不知道那一堆像素点与那个符号有什么关系。这就是 grounding 问题 —— 你有这种符号性的、抽象的表示,但它们在现实世界中,特别是在混乱的现实世界中真正意味着什么呢?他们试图解决这个问题,但从未完全成功。
而今天的系统,它们直接从数据中学习,所以从某种意义上说,它们从一开始就在形成那种联系,但有趣的是,如果它只是从语言中学习,理论上应该缺少很多你需要的 grounding,但结果却是,很多 grounding 信息不知怎么地是可以推断出来的。
弗莱:为什么这么说?
哈萨比斯:理论上讲,因为这些最初的大型语言模型并不存在于现实世界中,它们没有连接到模拟器,没有连接到机器人,甚至最初也不是多模态的 —— 它们没有接触到视觉或其他任何东西,它们仅仅存在于语言空间中。所以,它们是在抽象领域中学习的。因此,它们能够从那个领域推断出关于现实世界的一些事情是很令人惊讶的。
弗莱:如果说 grounding 是通过人们与这个系统的互动而获得的,这很有道理……
哈萨比斯:确实。所以可以肯定的是,如果它们在回答某些问题时出了错,比如早期版本由于 grounding 缺失,在处理现实世界中狗的叫声这样的问题时回答错误。人们会通过反馈来纠正它们。这种反馈部分源自我们自己的现实知识。因此,一些 grounding 就是这样逐渐渗透进来的。
弗莱:我记得我看到过一个非常生动的例子,关于「穿越(cross)英吉利海峡」与「步行穿越(walking across)英吉利海峡」的区别。
哈萨比斯:这个例子确实可以。如果它回答错误,你会告诉它这是错误的,然后它就不得不弄清楚 —— 你不能步行穿越英吉利海峡。
AI 是被过度炒作还是低估了?
弗莱:我要问你一点关于炒作的问题,你认为就现在来说,AI 是被过度炒作了,还是被低估了,或者只是在错误的方向上炒作?
哈萨比斯:一方面,从短期来看,AI 被过度炒作了。人们声称它能做很多事情,但实际上它不能,有很多创业公司和风险投资追逐一些疯狂的想法,但其实这些想法还不够成熟。
另一方面,我认为 AI 仍然被低估了。或许人们还没有完全理解当我们达到 AGI 之后会发生什么,责任是多么大。
弗莱:你在这个领域已经几十年了,对于这些创业公司和风险投资所追逐的东西,你很容易发现哪些是现实的目标,哪些不是。但其他人要怎么分辨?
哈萨比斯:显然你得做一些技术尽职调查,对技术和最新的趋势有一些了解。同时,你也得看看发表言论的人的背景,他们有多懂技术,是不是去年才从别的方向转到 AI 的?他们去年是不是在做加密货币?这些可能是一些线索,表明他们可能是在跟风,这并不意味着他们会有一些好点子,即使有也可能会像彩票一样。
我认为,当一个领域突然受到大量关注时,这种情况总是会发生,然后资金就会随之而来,每个人都觉得他们不能错过。
这就创造了一种我们可以说是机会主义的环境,这与那些几十年来一直致力于深度科技、深度科学的人有点相反,我认为后者才是我们接近 AGI 时应该继续坚持的方式。
Gemini:谷歌大脑与 DeepMind 合并后的首个灯塔项目
弗莱:接下来谈谈 Gemini 吧。Gemini 在哪些方面不同于其他实验室发布的其他大型语言模型?
哈萨比斯:从一开始,我们就希望 Gemini 能够处理多种模态,所以它不仅能处理语言,还能处理音频、视频、图像、代码等各种模态。我们之所以想要这样做,首先是因为,我认为这是让这些系统真正理解周围世界并构建更好的世界模型的方法,这又回到了之前的 grounding 问题上。
我们也有一个愿景,即拥有一个通用助手。我们做了一个叫 Astra 的原型,它不仅理解你正在输入的内容,实际上还理解你所处的环境。这样的智能助手会更有用。所以我们从一开始就内置了多模态。这是另一件在那个时候只有我们的模型在做的事情,现在其他模型正在追赶。
我们在记忆方面的其他重大创新,比如长上下文,实际上可以记住大约一百万个或两百万个 token。所以你可以给它《战争与和平》或者整个电影,然后让它回答问题或在视频流中找到东西。
弗莱:在 Google I/O 上,你用了一个例子,说明 Astra 如何帮助你记住你把眼镜放在哪里了,对吧?但我怀疑这是否只是那些旧的 Google Glasses 的高级版本。
哈萨比斯:当然,谷歌在开发眼镜设备方面有着悠久的历史,实际上可以追溯到 2012 年左右,远远领先于时代。但它们也许只是缺少这种技术,而智能体或智能助手可以真正理解你在说什么。所以,我们对数字助理感到非常兴奋,它可以随时陪伴着你,了解你周围的世界。当你使用它时,它似乎真的是一个很自然的用例。
弗莱:接下来我想稍微回顾一下 Gemini 的起源,毕竟它来自谷歌的两个不同的研究部门。
哈萨比斯:是的,去年我们将 Alphabet 的两个研究部门合并,即将 Google Brain 和 DeepMind 整合为了 Google DeepMind。我们称它为超级部门(super unit),将整个公司的优秀人才聚集到了一个部门中。这意味着,我们将所有研究中获得的最佳知识结合起来,尤其是在语言模型方面。
所以,我们推出了 Chinchilla、Gopher 等模型,并构建了 PaLM、LaMDA 以及其他早期模型。这些模型各有优缺点,所以我们将它们整合到了 Gemini 中,成为了部门合并后推出的首个灯塔项目(Lighthouse Project)。然后,另一件重要的事情是将所有计算资源整合起来,这样就可以进行超大规模的训练运行。我觉得这些很棒。
弗莱:从很多方面来讲,Google Brain 和 DeepMind 的重点略有不同。我可以这样说吗?
哈萨比斯:谷歌各个部门显然都专注于人工智能的前沿,而且在个体研究层面已经有很多合作,但在战略层面有所不同。随着 Google DeepMind 的合并,我想把它描述成谷歌的引擎室(Engine Room),它运行得非常好。我认为,我们工作方式的相似之处要比差异多得多,我们将继续保持并加强自身在基础研究等方面的优势。
比如说,下一个 Transformer 架构从何而来?我们想发明它。Google Brain 研究人员发明了如今流行的 Transformer 架构。我们将该架构与自己开创的深度强化学习相结合。我认为仍然需要更多创新。我支持这样做,就像过去 10 年 Google Brain 和 DeepMind 团队所做的那样。这很令人兴奋。
未来方向:将 AlphaGo 与 Gemini 相结合
弗莱:我想讨论一下 Gemini,它的表现怎么样?与其他模型相比如何?
哈萨比斯:这个问题涉及到了基准,我认为整个领域都需要更好的基准。目前存在一些众所周知的学术基准,但现在它们已经饱和了,而且并没有真正区分不同顶级模型之间的细微差别。
在我看来,目前有三类模型处于顶端和前沿,我们的 Gemini、OpenAI 的 GPT 和 Anthropic 的 Claude。此外还有很多表现不错的模型,比如 Meta、Mistral 等推出的 Llama 系列、Mistral 系列模型,它们擅长的任务各有不同。这取决于你要执行什么类型的任务,编码选择 Claude、推理选择 GPT,记忆、长上下文和多模态理解选择 Gemini。
当然,各家公司还会继续不断改进模型。比如,Gemini 只是一个推出不到一年的模型。我认为我们的发展轨迹非常好,希望我们下次交谈时,Gemini 可以站在最前沿。
弗莱:是的,大模型还有很长的路要走。这是否也意味着,这些模型在某些方面还不是很好。
哈萨比斯:当然。实际上,这是目前最大的争论。现在很多模型都是从五、六年前发明的技术中产生的。所以,这些模型仍然缺少很多东西,会产生幻觉、不擅长规划。
弗莱:哪方面的规划呢?
哈萨比斯:比如一些长期规划,模型无法长期解决问题。你给它一个目标,它们无法真正为你采取行动。所以,模型很像被动问答系统。你提出问题,然后它们会给你某种回应,但却无法为你解决问题。比如你想要一个数字助理帮你全程预订意大利的假期,以及预定所有的餐馆、博物馆等事项。遗憾的是,它却做不到这些事情。
我认为这是下一个时代的研究主题,我们称它们为(更大程度上)基于智能体的系统或者拥有类似智能体行为的智能系统。当然,这是谷歌所擅长的。谷歌过去构建了游戏智能体 AlphaGo 以及其他智能体。所以,我们在做的很多事情是将成名的项目与新的大规模多模态模型结合起来,并成为下一代系统,比如 AlphaGo 与 Gemini 的结合。
弗莱:我觉得 AlphaGo 非常擅长规划。
哈萨比斯:是的,AlphaGo 非常擅长规划。当然,它只在游戏领域。所以,我们需要将它泛化到日常工作和语言等通用领域。
弗莱:你刚才提到 Google DeepMind 现在已经成为谷歌的引擎室。这是一个相当大的转变。那么,谷歌是否在 AI 领域下了很大的赌注?
哈萨比斯:我想是的。我认为谷歌一直都明白 AI 的重要性。当 Sundar 接任首席执行官时,他就说过谷歌是一家 AI 优先的公司。我们在他任职初期就讨论过这个问题,他认为 AI 有潜力成为继移动互联网之后的下一个重大范式转变,并且比以往发展潜力更大。
也许在过去一两年里,我们真的开始体验到这意味着什么,不仅仅是从研究的角度,而且在产品和其他方面也是如此。这非常令人兴奋,因此我认为我们把所有人才协调起来,然后尽最大努力推动 AI 进展是正确的选择。
弗莱:我们知道,Google DeepMind 非常重视研究和科学层面的东西。但随着它成为谷歌的引擎室,是否意味着必须更加关心商业利益, 而不再是那种最纯粹的东西。
哈萨比斯:是的,我们肯定更加关心在职权范围内的商业利益。但实际上,我有以下几件事要说。首先,我们将继续 AlphaFold 相关的科学工作,几个月前发布了 AlphaFold 3。我们也在加倍投资于此。我认为这是 Google DeepMind 所做的独特的工作。
你知道,甚至连我们的竞争对手都认为这会是通用 AI 产品。我们成立了一个新公司 Isomorphic Labs 来进行药物研发。这些都非常令人兴奋,一切都进展顺利。所以我们会继续这样做。同时,我们在气候预测和其他方面也做了很多工作。
我们拥有一支庞大的团队,所以可以同时做多项工作。我们在构建我们的大型模型 Gemini 等。我们正在组建一支产品团队,将所有这些惊人的技术带到谷歌所在的所有领域。所以在某种程度上,这是我们的一个优势,可以随时插入我们所有的技术。我们发明的东西可以立即让十亿人用上,这真的很激励人心。
另一件事是,现在我们需要为产品开发的 AI 技术与为纯 AGI 研究目的所做工作之间的融合程度大大提高。五年前,你必须为一个产品构建一些特殊的 AI。现在你可以将主要研究分离出来,当然仍然需要做一些特定于产品的工作,但这可能只占所有工作的 10%。
因此,实际上在开发 AI 产品和构建 AGI 之间不再存在矛盾。我想说,90% 是相同的研究计划。所以,如果你推出产品并将它们推向世界,你会从中学到很多东西。人们也会使用它,这样你会了解到很多信息,比如你的内部指标与人们所说的不太相符,然后你可以进行更新。这对你的研究非常有帮助。
如何测试 GenAI 技术
弗莱:我想知道,将 AI 应用于科学所带来的突破与向公众发布这些东西的正确时机之间是否存在矛盾。在 Google DeepMind 内部,大语言模型等工具被用于研究,而不是被视为潜在的商业产品。
哈萨比斯:我们从一开始就非常重视责任和安全。早在 2010 年以前,谷歌就将一些基本道德规范纳入了其 AI 准则之中。我们一直与整个谷歌保持一致,并希望作为这个领域的领导者之一负责任地进行部署。
所以,现在开始推出具有 GenAI 能力的真实产品很有趣。实际上还有很多需要学习的地方,而且我们学得很快,这很好。对于当前技术而言,我们的风险相对较低,毕竟这些技术还没有那么强大。但随着技术变得越来越强大,我们必须更加小心。
产品团队以及其他团队正在学习如何测试 GenAI 技术。这些技术不同于普通的技术,因为它并不总是做同样的事情。这几乎就像测试一个开放世界的游戏,你可以尝试用它做的事情几乎是无限的。所以,弄清楚如何对它进行红队测试(Red Teaming)是很有趣的。
弗莱:所以,这里的红队测试是你们相互之间进行对抗竞争?
哈萨比斯:是的。红队测试是指你从开发技术团队中抽出一个专门的团队来对技术进行压力测试,并尝试以任何可能的方式破解。你实际上需要使用工具来自动化测试,即使有成千上万的人在做这件事,但与数十亿用户相比,这还不够。
此外,我认为我们必须分阶段进行,包括了实验阶段、封闭测试阶段以及再次发布,就像我们过去发布游戏一样。所以你在每一步中都在学习。我认为我们需要做的更多的是,使用 AI 本身来帮助我们内部进行红队测试,实际上可以自动发现一些错误或进行三重筛选。这样我们的开发人员和测试人员就可以真正专注于那些棘手的情况。
弗莱:这里有一些非常有趣的事情,你处在一个概率更大的空间。所以,即使某件事情发生的可能性很小,但如果尝试得足够多,最终就会出错。我想已经出现过一些公开的错误。
哈萨比斯:正如我提到的,我认为产品团队已经习惯了各种测试。他们知道自己测试过这些东西,但具有随机性和概率性。事实上,在很多情况下,如果只是一个普通的软件,你可以说自己已经测试了 99.999% 的东西。然后推断,这样就足够了。
但是,生成式系统并非如此。它们可以做各种各样的事情,这些事情有点超出常规,有点超出你以前见过的范畴。如果某些聪明人或对手决定以某种方式来测试这些系统,就像黑客一样。
这些系统可能以组合的方式存在,里面包含了你之前对它说过的所有事情。然后它处于某种特殊状态,或者记忆中充满了特殊的东西,这就是它们需要输出一些东西的原因。这里很复杂,而且并不是无限的。所以有办法解决这个问题,但又与推出普通技术存在很多细微差异。
弗莱:我记得你曾经说过,我想那应该是我第一次采访你的时候,你提到实际上我们必须认识到这是一种完全不同的计算方式。你得从我们完全理解的确定性事物中抽身,转向更加混乱的东西,比如概率性的。你觉得公众是否也需要稍微改变他们对计算类型的看法呢?
哈萨比斯:是的,我同意。也许这也是我们需要考虑的另一件事,有趣的是,在你发布某个系统之前,实际上可以发布一份原则性文件或类似的东西,来明确展示这个系统的预期用途,它设计用来做什么?它有什么用?它不能做什么?我认为这里确实需要某种认知,比如,如果你按这些方法使用它,你会发现它很有用,但不要尝试用它来做其他事情,因为根本不会起作用。
我认为这是我们在某些领域需要做的事情,用户可能也需要在这方面的经验。实际上这很有趣,这可能是为什么聊天机器人本身有些出人意料,甚至对于 OpenAI 来说,包括 ChatGPT 在内,他们也感到惊讶。我们也有自己的聊天机器人,我们也注意到这些机器人仍然存在缺陷,比如会产生幻觉等问题。
但我们没有意识到的是,尽管存在这些缺陷,实际上聊天机器人仍然有很多非常好的使用场景。现在人们发现一些非常有价值的用途,比如总结文件和长文档,写邮件,填写表格等。由于使用场景广泛,即使存在一些小错误,实际上人们并不介意,人类可以轻松修正这些错误,并且能节省大量的时间。我猜这就是人们发现的令人惊讶的事情,当使用时,人们发现了这些有价值的使用场景,尽管这些系统以我们所知的各种方式存在缺陷。
关于开源:一旦发布,就无法撤回
弗莱:这又引出了我想问的下一个问题,即关于开源的问题。正如你提到的,当事物掌握在人们手中时,就会发生真正非凡的事情。据我了解 DeepMind 在过去已经开源了许多项目,但随着时间的推移,这种情况似乎有所改变。
哈萨比斯:是的,我们非常支持开源和开放科学。正如你所知道的,我们几乎公开了我们所做的所有事情,比如 Transformer,又比如 AlphaGo 和 AlphaFold 这些研究都发表在《自然》和其他期刊上,并且 AlphaFold 也是开源的。通过分享信息,使得技术和科学得以快速地进步。所以我们几乎总是这么做,我们认为这是非常有益的事情,这是科学的工作方式。
唯一的例外是,AI、AGI 和强大的 AI 具有双面性。问题在于谁在使用,真正本着好意行事的科学家和技术人员,可以提出建设和批评性建议,这是社会进步最快的方式。但问题是,你如何同时限制不怀好意的人的访问权限,这些人可能会将相同的系统用于不良目的,误用它们,比如武器系统,但这些我们不能提前预知。而且,通用系统本身可以被这样重新利用。今天我们还能把握住,因为我认为这些系统还没有那么强大。
在接下来的两到四年时间里,尤其是当我们开始开发具有智能体行为的系统时,如果这些系统被某些人误用,可能会造成严重的危害。虽然我们没有具体的解决方案,但作为一个社区,我们需要思考这对开源意味着什么。
也许前沿模型需要经过更多的审核,然后在发布一年或两年后才能开源。这种模式是我们正在遵循的,因为我们有自己的开源模型,称为 Gemma。这些模型较小,不属于前沿模型,因此它们的功能对开发者来说仍然非常有用,也易于在笔记本电脑上运行,且参数较少。这些功能目前已被很好地理解。不过,这些模型的性能不如最新的前沿模型,如 Gemini 1.5。我们最终可能采取的方法是,我们会有开源模型,但这些模型会比最先进的模型落后大约一年,这样我们可以在公开场合真正评估用户使用这些模型的情况,了解前沿模型的能力。
开源的主要问题在于,一旦发布,就无法撤回。如果使用者以不当方式使用开源模型,与专有模型不同,开发者不能简单地关闭它。一旦开源,就像是走过了一扇单向门,因此在开源之前需要非常谨慎。
弗莱:是否能够将通用人工智能(AGI)限制在某个组织内部的护城河之内。
哈萨比斯:这还是一个未解的问题。我们目前还不知道如何做到这一点,因为这是当我们开始讨论高级别、类似人类水平的 AI 时需要考虑的问题。
弗莱:那中间层呢?
哈萨比斯:在中间层,我们有一些较好的想法来处理这些问题。例如,可以通过安全沙箱环境来测试。这意味着在游戏环境或部分连接的互联网版本中测试智能体的行为。在这个领域以及金融科技等其他领域,已经进行了大量的安全工作。我们可能会借鉴这些想法,然后构建相应的系统,这就是我们测试早期原型系统的方式。但我们也知道,这些措施可能不足以限制 AGI,一个可能比我们更聪明的系统。因此,我们需要更好地理解这些系统,以便为 AGI 设计协议。到那时,我们将有更好的方法来控制它,可能还会利用 AI 系统和工具来监控 AI 系统的下一代。
如何监管 AI
弗莱:关于安全性的话题,许多人似乎认为监管这个词就能解决所有问题。你认为监管应该如何构建?
哈萨比斯:政府正在加快对 AI 技术的了解和介入,这是一个积极的现象。我认为国际合作是必需的,特别是在监管、安全措施和部署规范等方面。
随着我们接近 AGI,我们需要认识到,由于技术发展迅速,我们的监管方式也需要灵活且迅速适应最新的技术发展。如果你在五年前对 AI 进行了监管,那么你监管的将是一种完全不同的东西。今天我们看到的是生成式 AI,但五年后可能又会有所不同。
目前,基于智能体的系统可能带来最高风险。因此,我建议加强已经有监管的领域(如健康、交通等)的现有规定,使其适应 AI 时代,就像之前为移动和互联网更新过监管一样。
首先我会做的是保持关注,确保我们理解并测试前沿系统。随着情况变得更加明朗,需要围绕这些情况开始制定规定,可能在几年后进行会更有意义。我们目前缺失的是基准测试,正确的能力测试,包括整个行业都想知道的,我们的能力在什么点上可能构成重大风险。目前没有对此的答案,我刚才说的基于智能体的能力可能是下一个阈值,但目前还没有公认的测试方法。
一个可能的测试是检测系统是否具有欺骗性能力。系统中如果存在欺骗性,那么它报告的其他内容都无法被信任。因此,测试欺骗性应该是首要考虑的新兴能力。此外,还有许多其他能力值得测试,如实现特定目标的能力、复制能力等,目前已有不少相关工作正在进行。我认为这些基本上是政府机构正在发挥作用的地方。我认为对他们来说,大力推动这方面的工作会非常好,当然,实验室也应该贡献他们所知道的信息。
弗莱:在你描述的这个世界中,机构处于什么位置?即使我们达到了拥有能够支持所有科学研究的 AGI 的阶段,机构是否还能保留一席之地?
哈萨比斯:我认为有。在达到 AGI 的过程中,我认为这将是社区、学术界、政府和工业实验室之间的合作。我真的相信这是我们达到这个最终阶段的唯一方式。
哈萨比斯对 AGI 的测试标准
哈萨比斯:如果你问的是 AGI 出现之后的情况,我一直想构建 AGI 的原因之一是我们可以利用它开始回答一些关于自然、现实、物理和意识等方面的最大、最根本的问题。这取决于它采取何种形式,可能是人类专家与 AI 的结合。我认为在探索下一个前沿领域方面,这种情况还会持续一段时间。
目前这些系统还不能自己提出猜想或假设。目前来看,它们可以帮助你证明某些问题,能够在国际数学奥林匹克竞赛中获得金牌,甚至可能解决著名的数学猜想,但它们还没有能力提出像黎曼假设或广义相对论这样的假设。这一直是我对真正的通用人工智能的测试标准 —— 它将能够做到这些,甚至发明新的理论。我们还没有任何系统,我们甚至可能不知道如何理论上设计能做到这些的系统。
弗莱:计算机科学家斯图尔特・罗素曾向我表达了他的担忧, 他担心一旦我们达到了 AGI 的发展阶段,我们所有人可能会变得只会享受无拘无束的奢华生活,并且没有任何生活目的。这种生活虽然充满了物质享受,但缺乏深层次的意义和目标。
哈萨比斯:这确实是一个有趣的问题。这可能超越了 AGI,更像是人们有时所说的 ASI。届时我们应该拥有极大的资源,假设我们能确保公平、均等地分配这些资源,那么我们将处于一个可以自由选择如何行动的位置,而「意义」将成为一个重大的哲学问题。我认为我们将需要哲学家,甚至可能是神学家,以及社会科学家现在就开始思考这个问题。什么能带来意义?我仍然认为自我实现是重要的,我不认为我们所有人都只会沉浸在冥想中,也许我们会玩电脑游戏。但即便如此,这真的是坏事吗?这是一个值得探讨的问题。
尽管 AGI 将带来巨大的变革,例如治愈众多疾病甚至所有疾病,解决能源和气候问题,但它也可能让我们面对一个更深层次的问题:生活的意义何在?就像人们攀登珠穆朗玛峰或参与极限运动一样,这些活动表面看似无意义,但实际上是人们对挑战自我的追求。随着 AGI 的发展,我们可能会在物质层面拥有一切,但随之而来的是对生活意义的再思考。这个问题在科技发展的早期和晚期阶段都被低估了,我们需要重新评估所谓的炒作以及它对我们未来的真正影响。
弗莱:让我们回到关于 AGI 的问题。我知道你们的重大使命是构建能够造福所有人的 AI。但你如何确保它确实使每个人受益?如何考虑所有人的偏好而不仅仅是设计师的偏好?
哈萨比斯:我认为不可能将所有偏好都包含在一个系统中,因为人们对很多问题无法达成一致。我想我们可能将拥有一套安全的架构,可以在其上构建个性化的人工智能,然后人们根据自己的偏好、使用目的、部署目的,决定 AI 系统可以用来做什么,不能用来做什么。总的来说,架构需要确保安全,然后人们可以在架构的基础上做一些变体、增量。
所以我认为,当我们接近通用人工智能时,我们可能必须在国际上进行更理想的合作,然后确保我们在安全的环境中构建通用人工智能。
一旦我们完成了这个任务,每个人都可以拥有自己的个性化袖珍 API(如果他们愿意)。
弗莱:好的。但我的意思是 AI 可能会出现一些不良行为。
哈萨比斯:是的,不良的新兴行为、能力。欺骗就是一个例子。我们必须更好地理解所有这些问题。
有两种情况需要担心:一种是人类可能会滥用 AI;一种是人工智能本身(随着它越来越接近 AGI,它的表现却偏离了轨道)。我认为这两个问题需要不同的解决方案。是的,这就是当我们越来越接近构建 AGI 时,我们必须应对的问题。
回到你让每个人受益的观点,以 AlphaFold 为例,我认为如果 AI 药物设计有效的话,我们可以在未来一两年内治愈大多数疾病。然后它们可以转化成个性化药物,以最大限度地减少对个人的副作用,这与人的个人疾病和个人新陈代谢等相关。所以这些都是令人惊奇的事情,你知道,清洁能源、可再生能源,技术将会带来巨大的好处,但我们也必须降低风险。
弗莱:你说你想要减轻风险的一种方式是,有一天你基本上会做科学版的「复仇者集结」?
哈萨比斯:当然。
弗莱:那么,你怎么知道什么时候是合适的时间?
哈萨比斯:好吧,这是一个大问题。你不能太早这样做,因为你永远无法获得一些反对者的支持。如今,你会看到一些非常有名的人说 AI 没有风险。然后像 Geoffrey Hinton 这样的人说存在很多风险。
弗莱:我想和你多谈谈神经科学。它对你正在做的事情还有多大启发?因为我注意到前几天 DeepMind 揭开了一只具有人工大脑的虚拟老鼠的面纱,这有助于改变我们对大脑如何控制运动的理解。我记得我们曾谈论了很多关于如何从生物系统中直接获得灵感的话题,这仍然是您方法的核心吗?
哈萨比斯:不,它现在已经发展起来,我认为我们已经进入了工程阶段,例如大型系统、大规模的训练架构。神经科学对此影响有点小。神经科学是思路来源之一,但当工程量大时,神经科学处于次要地位。因此,现在可能更多地是将人工智能应用于神经科学。我认为,随着我们越来越接近 AGI,理解大脑将是 AGI 最酷的用例之一。
弗莱:我想知道你是否也在设想将会有一些超出人类理解范围的事情,而 AGI 将帮助我们发现、理解?
哈萨比斯:我认为 AGI 系统有可能比我们更能理解更高层次的抽象。我认为人工智能系统可以有效地拥有任意类型的前额叶皮质,所以可以想象更高层次的抽象和模式,它能够看到我们无法立即真正理解或记住的宇宙。
然后我认为,从可解释性的角度来看,我们不能无限扩展我们自己的大脑,但理论上只要有足够的时间、SPE 和内存,AGI 就能理解任何可计算的东西。
弗莱:你说 DeepMind 是一个为期 20 年的项目。您距离步入正轨还有多远?
哈萨比斯:我们已经步入正轨。
弗莱:2030 年会实现 AGI 吗?
哈萨比斯:如果它在未来十年内出现,我不会感到惊讶。