AI赢麻了?西湖大学和国科大专家解读诺贝尔化学奖

潮新闻客户端 记者 林婧

继物理学奖后,今年诺奖又再次光顾AI领域。

瑞典皇家科学院9日宣布,将2024年诺贝尔化学奖一半授予大卫·贝克(David Baker),“以表彰在计算蛋白质设计方面的贡献”;另一半则共同授予德米斯·哈萨比斯(Demis Hassabis)和约翰·M·詹珀(John M. Jumper),“以表彰他们在蛋白质结构预测方面的成就”。

图片

2024年诺贝尔化学奖获得者。图源 诺贝尔奖官网

大卫·贝克(David Baker)目前担任华盛顿大学蛋白质设计研究所所长,是蛋白质设计领域“鼻祖级”人物,而后两位获奖者均任职于谷歌DeepMind,约翰更是AlphaFold的第一作者。官宣的同时,屏幕前蹲守直播的网友们不由感叹:AI赢麻了。

其实,回到诺奖本身,蛋白质一直是诺奖的常客。2008年,诺贝尔化学奖授予了三位科学家在发现和研究绿色荧光蛋白(GFP)方面有突出成就。2018年,诺贝尔化学奖授予了 “肽类和抗体的噬菌体展示技术”;两年后,又授予了两位女性科学家开发出一种基因组编辑方法——CRISPR/Cas9基因剪刀。

听起来像是生理学或医学领域的成果,为何频频获得化学奖?

为此,记者采访了西湖大学特聘研究员卢培龙和国科大杭州高等研究院副研究员孙爱爱。问题的答案就是蛋白质本身。

它们通常由 20 种氨基酸构成,通过不同的排列组合形成纷繁各异的三维结构,而不同的结构便赋予了蛋白质不同的功能。“就像铁要变的船的形状才可以浮在水面上一样,蛋白质也要折叠成一个特定的结构,才可以去发挥某种特定的功能。而它折叠成各种各样的结构本质上是通过化学的相互作用去实现的。”孙爱爱解释道。

图片

生物科技蛋白质分子结构3D渲染。图源 视觉中国

那么,蛋白质的结构是什么导致的呢?上世纪六七十年代,科学家们发现蛋白质的三维结构完全由蛋白质中的氨基酸序列决定,且氨基酸链并非随机折叠,而是一个预定的过程。这意味着,我们可以根据氨基酸序列推测出蛋白质的结构,从而推测其功能。于是,结构预测开始进入大众视野。

为了促进该领域的快速发展,1994年研究人员启动了一个名为“蛋白质结构预测关键评估(CASP)”的项目,之后发展成为一项竞赛,每两年举办一次。参赛者要根据已知的氨基酸序列来预测蛋白质结构。然而,该项目却展十分缓慢。

问题就出在蛋白质折叠的方式实在太多了。自然界中天然蛋白质的序列有10的12次幂之多,对于200个氨基酸构成的蛋白质而言,它的序列空间是20的200次幂。“比围棋的下法更为复杂多变,有天文数字般的可能性。” 卢培龙说,“怎么样用一种快速的准确的计算方法解决这一难题,人们在近几十年一直在努力。”

2018年转机来了,一位4岁开始下棋、13岁时达到大师水平的人物,为这个长期存在的难题带来了全新的视角。在开发出的AlphaGo算法击败了世界围棋冠军后,德米斯·哈萨比斯(Demis Hassabis)带领团队参加了2018年的CASP竞赛,人工智能模型AlphaFold首次亮相便一举夺冠,将蛋白结构预测准确率从原本的40%提高到60%。

图片

图源:AlphaFold官网

但他们并不满意——达到90%准确率才算真正取得成功。于是,对蛋白质有着深入认知的约翰·M·詹珀(John M. Jumper)来了,他和哈萨比斯(Hassabis)共同领导开发了AlphaFold 2。

2020年,利用所有已知蛋白质结构和氨基酸序列数据库中的大量信息训练的AlphaFold 2以摧枯拉朽之势击败了所有对手。其准确率超过90%,比最接近的竞争对手高出5倍。深度学习的AI轻松地破解了难题,再次震撼生物学界。如今,AlphaFold2已被来自190个国家的200多万人使用,以帮助科研人员更好地了解抗生素耐药性等领域。

在此之前,科学家们大都使用冷冻电子显微镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的蛋白质结构。在孙爱爱看来,虽然自己更偏向实验学科,但AlphaFold为自己的研究提供了大量便利,可以促进学科更快发展。

另一位获奖者大卫·贝克(David Baker)同样参加过CASP竞赛。90年代末,他试着开发一款能预测蛋白质结构的软件——Rosetta。1998年,首次参赛的Rosetta表现异常出色,但大卫(David)并没有和哈萨比斯(Hassabis)一般执着于提升蛋白结构预测的准确率,而是创造性地提出新想法:如果能输入所需的蛋白质结构,获得氨基酸序列的建议,就能创造全新的蛋白质,而非仅仅将氨基酸序列输入Rosetta,得到蛋白质结构。

这种从0开始的构建全新蛋白质,被称为“从头设计(de novo design)”,开创了蛋白质工程领域的新纪元,为未来的生物技术和医学应用提供了无限可能,而大卫(David)更是被Science 杂志评论为“蛋白质世界中的魔术师”。

图片

Top7。图源 诺贝尔奖官网©Terezia Kovalova/The Royal Swedish Academy of Sciences

2003年,他首次利用软件成功创造出了一个与天然蛋白质截然不同的新蛋白质:Top7。这是是人类首次获得了非自然界来源的全新蛋白质。此后,他的研究小组创造了一种又一种包括可用于药物、疫苗、纳米材料和微型传感器的蛋白质。

“蛋白设计的基本流程是:先定义一个三维结构。这种三维结构不一定是在自然界中出现的。然后找到一些氨基酸的排列组合,让蛋白质序列自发的折叠形成这样的结构。这种折叠过程,需要符合生物化学与生物物理的规律。” 卢培龙说。

卢培龙曾在大卫·贝克实验室开展博士后从事膜蛋白设计研究,在他看来,大卫·贝克(David Baker)是一个非常纯粹的科学人。“他每天基本上都在实验室,跟大家聊课题、聊方向,或者是给一些指导,以及建立各种各样的合作。我觉得这是他取得成功的一个非常重要的因素,他完全沉浸在自己的世界里。”

“他一直是获得诺奖非常热门的人选,大家都很为他高兴。我给他发了短信但还没收到回复,明年再见到他时一定要当面祝贺他。” 卢培龙笑着说,大卫·贝克(David Baker)引领了他探索新的科学边界。在博士后研究时期,他将蛋白质设计的研究从可溶蛋白领域延伸至跨膜蛋白领域。“他给我们的启示就是不要受原来的观念的束缚,不要局限在某一个特定的问题里面,然后永远去问什么是重要的和自己感兴趣的科学问题。”

图片

蛋白质可以由几十种氨基酸到几千种氨基酸组成。氨基酸链折叠成三维结构,对蛋白质的功能起着决定性作用。图源 诺贝尔奖官网©Terezia Kovalova/The Royal Swedish Academy of Sciences

在西湖大学建立独立实验室以后,卢培龙继续与大卫·贝克(David Baker)合作针对跨膜纳米孔蛋白质进行从头设计,在世界上首次实现了跨膜纳米孔蛋白质的精确从头设计,这项成果已发布在Nature杂志上,并将有助于提高DNA纳米孔测序技术的精度,以及开发基于纳米孔的分子测序与检测技术。

这不经令人回想到,当晚直播中,颁奖仪式结束后,当一名记者问他是否有最喜欢的蛋白质时,大卫·贝克(David Baker)回答说:“我喜欢所有的蛋白质,我不想挑最喜欢的。”

“蛋白质是使生命得以存在的分子。”诺贝尔化学奖委员会主席Heiner Linke在谈到Baker的贡献时表示:“他开发的计算工具现在使科学家能够设计出具有全新形状和功能的新型蛋白质,为人类的最大福祉开辟了无限的可能性。”

科学是探索未知、解决无法解决的问题,而AI的出现正在加速问题的解决速度。正如官网报道所说,有了本届诺奖得主贡献的研究工具,这些研发工作都可以以前所未有的速度进行。

“转载请注明出处”