诺贝尔化学奖也和人工智能相关,彻底坐实理综奖的绰号?

2024年诺贝尔物理学奖颁发给机器学习领域的专家以后,大家纷纷调侃“物理学不存在了”,并对化学奖有了更多猜测。毕竟,即使在往年物理学奖还颁发给大家传统印象中的物理学家的时候,化学奖就很少颁发给传统印象中的化学家,而是经常发给生物学家、物理学家,也因此被戏称为“理综奖”。

刚刚,答案终于揭晓。

2024年10月9日,瑞典皇家科学院宣布将2024年诺贝尔化学奖授予三位科学家:美国华盛顿大学的David Baker、英国Google DeepMind公司的Demis Hassabis和John M. Jumper。其中,Baker因“计算机辅助蛋白质设计”获得一半奖金,Hassabis和Jumper因“蛋白质结构预测”共同分享另一半奖金。

图片
三位获奖人 (图片来源:诺贝尔奖委员会官网)

这三位科学家的研究成果标志着人类已经能够破解和掌控生命的化学工具——蛋白质。Baker成功设计出全新的人造蛋白质,而Hassabis和Jumper则利用人工智能解决了困扰科学界50多年的蛋白质结构预测难题。他们的发现具有巨大的应用潜力,将为人类带来深远影响。

因为又是和人工智能相关,不禁想起许多人都有的忧虑,“人工智能这样发展下去,会不会统治世界?”我想,在这之前,人工智能可能会先尝试“统治”诺奖。

蛋白质:生命的化学工具

要理解这项成果的重要性,我们需要先了解蛋白质的基本概念。蛋白质是由20种氨基酸以不同顺序和比例组合而成的大分子。在细胞中,DNA携带的遗传信息指导氨基酸按特定顺序连接成长链,这条氨基酸链会自发折叠成特定的三维结构,从而形成具有特定功能的蛋白质。

图片

蛋白质的四级结构(左)及蛋白质数据库中多样化的蛋白质(右)

(图片来源:维基百科“蛋白质”条目)

蛋白质的功能多种多样,它们可以是构建肌肉、角质或羽毛的材料,也可以是激素或抗体。许多蛋白质是酶,能够以惊人的精确度催化生命的化学反应。细胞表面的蛋白质则充当细胞与外界环境的通信渠道。正是这些功能各异的蛋白质,构成了生命丰富多彩的化学基础。

然而,要完全理解和掌控蛋白质一直是科学家们的梦想。这个梦想的实现面临两大挑战:一是如何从氨基酸序列预测蛋白质的三维结构;二是如何设计全新的、自然界不存在的蛋白质。2024年诺贝尔化学奖正是表彰了在这两个方向上取得突破性进展的科学家们。

图片
蛋白质结构科学插画 (图片来源:诺贝尔奖委员会官网)

人工智能破解蛋白质结构之谜

自20世纪50年代科学家首次通过X射线晶体学获得蛋白质三维结构以来,预测蛋白质结构一直是生物化学领域的重大挑战。虽然公共数据库中已有近30亿个DNA序列和2亿多个蛋白质序列,但通过实验方法解析的蛋白质结构只有约20万个。如果能够直接从氨基酸序列预测蛋白质结构,将是一项重大突破。

挑战的根源在于蛋白质可能的构象数量是天文数字。以一个由100个氨基酸组成的蛋白质为例,其理论上可能的构象数量高达10的47次方。显然,蛋白质不可能通过随机搜索所有这些构象来找到正确的折叠方式,它必然遵循某些规律。

图片
蛋白质折叠示意图 (图片来源:诺贝尔奖委员会官网)

为了推动这一领域的发展,研究人员于1994年发起了“蛋白质结构预测关键评估”(CASP)竞赛。每两年,参赛者需要根据给定的氨基酸序列预测蛋白质结构,预测结果与实验解析的结构进行比对评分。

长期以来,CASP竞赛的进展缓慢。直到2018年,Demis Hassabis领导的DeepMind团队带着他们的人工智能模型AlphaFold参赛,才取得了突破性进展。2020年,John Jumper主导开发的升级版AlphaFold2在CASP14竞赛中取得了惊人的成绩,在大多数情况下,其预测精度几乎可以与X射线晶体学媲美。

AlphaFold2的成功源于其创新的设计。它利用了名为“transformer”的神经网络,这种网络能够在海量数据中找到模式,并有效确定应该关注什么来实现特定目标。研究团队用所有已知的蛋白质结构和氨基酸序列数据库训练了AlphaFold2。

在预测过程中,AlphaFold2首先搜索数据库中相似的氨基酸序列和蛋白质结构。然后,它分析这些序列在进化过程中的保守性,并估算氨基酸之间的距离。通过迭代过程,AlphaFold2不断优化这些分析结果,最终得出蛋白质的三维结构。

图片

AlphaFold预测的蛋白质结构(蓝色)与实际结构(绿色)对比

(图片来源:AlphaFold)

计算机辅助蛋白质设计的突破

与此同时,David Baker领导的研究团队在另一个方向上取得了突破。他们开发的Rosetta软件不仅可以预测蛋白质结构,还能反向设计全新的蛋白质。

2003年,Baker团队发表了一项里程碑式的成果:他们设计出了一种名为Top7的全新蛋白质。这个由93个氨基酸组成的蛋白质具有独特的结构,在自然界中并不存在。更重要的是,实验合成的Top7蛋白质与计算机设计的结构几乎完全一致。

这一成功开启了蛋白质设计的新时代。此后,Baker实验室不断创造出各种令人惊叹的人造蛋白质,包括可用作药物的蛋白质、疫苗、纳米材料和微型传感器等。Baker还公开了Rosetta的源代码,使全球的研究人员能够继续开发和应用这一强大的工具。

图片

利用人工神经网络进行蛋白质结构预测的示意图

(图片来源:诺贝尔奖委员会官网)

突破性成果的广泛应用

AlphaFold2和Rosetta的成功为生物化学和医学研究带来了革命性的变化。以前需要几年时间才能获得的蛋白质结构,现在只需几分钟就能预测出来。研究人员可以更好地理解生命如何运作,包括某些疾病为什么会发生、抗生素耐药性如何产生,以及某些微生物如何分解塑料等。

在药物开发方面,这些工具可以帮助研究人员设计更精确的靶向药物,加速疫苗的研发过程。在材料科学领域,可以设计新型的纳米材料。在环境保护方面,可以设计能够更有效分解塑料的酶。在化学工业中,可以开发更环保的催化剂。

结语:开启生命科学新纪元

2024年诺贝尔化学奖的成果标志着人类在理解和掌控生命的基本单元——蛋白质方面迈出了巨大的一步。Baker、Hassabis和Jumper的工作不仅解决了长期困扰科学界的难题,还为未来的研究和应用开辟了广阔的前景。

这些突破性成果再次证明,跨学科合作和新技术的应用对于科学进步的重要性。物理学、化学、生物学和计算机科学的结合,加上人工智能技术的引入,共同推动了这一领域的飞跃式发展。总的来说,2024年诺贝尔化学奖的成果为解决人类面临的诸多挑战提供了新的工具和思路。它开启了生命科学研究的新纪元,其影响将深远持久。

出品:科普中国

作者:郭菲(烟台大学)

监制:中国科普博览

图片