人类一败涂地,化学奖也被AI拿下了

图片

作者 | 南风窗记者 晓谦

编辑 | 向由

谢天谢地,刚刚颁布的诺贝尔文学奖未给到ChatGPT——在今年诺奖科学奖的角逐里,AI已经出尽了风头。

10月8日,“AI教父”斩获物理学奖,舆论哗然,9日,化学奖评选委员会再接再厉,将奖项颁发给AI在解析蛋白质结构和设计中的颠覆性应用。

诺贝尔化学奖一半授予美国生物化学家、华盛顿大学蛋白设计所主任David Baker,他开发一种算法,从头开始设计全新的蛋白质,堪比创造生物的“上帝之手”;另一半授予谷歌DeepMind首席执行官Demis Hassabis和谷歌DeepMind高级研究科学家John M.Jumper,他们应用AlphaFold,从氨基酸序列预测几乎所有已知的2亿种蛋白质的三维结构,作为两位AI工业界人士,达成了生物化学家们50多年来的夙愿。

图片2024年度诺贝尔化学奖揭晓,一半授予David Baker,另一半共同授予Demis Hassabis和John M.Jumper

这届诺奖科学奖,人类一败涂地。不是“组委会真的太懂流量”,是通过计算和人工智能“给家人们把时间和价格打下来”,极大提升蛋白质研究的效率,这对人类来说是最大的福祉。

在“下一步,经济学奖给黄仁勋,和平奖给马斯克,格莱美给Suno,奥斯卡给Sora”的调侃声里,我们的确持续见证着AI改变世界的浪潮。

01

“降本增效”

读过高中生物必修1的朋友们都知道,一切生命活动都离不开蛋白质,它们通常由20种氨基酸组成,氨基酸以存储在DNA中的信息作为蓝图,在细胞中“组合”“连接”成长链。

图片高中生物必修1中讲到,蛋白质是生命活动的主要承担者

接下来就是见证蛋白质奇迹的时刻:氨基酸链会扭曲并折叠成独特的三维结构,正是这种结构赋予了蛋白质特异的生物功能,使其成为生命的基本单元。

有些蛋白质可以构建肌肉、角或羽毛,有些则可能成为激素或抗体,还有蛋白质会形成酶或在细胞表面充当其与其周围环境间的信号传递通道。

19世纪以来,化学家们就意识到蛋白质对生命的重要性,但直到20世纪50年代,化学工具才足够精确,此后蛋白质结构研究成为诺奖“顶流”领域。

借助X射线晶体学(X-ray crystallography)方法于50年代末首次呈现出蛋白质的三维模型的成就,于1962年获颁诺贝尔化学奖。但这种方法相当耗时,此后研究人员付出了大量努力,绘制出了约20万种不同蛋白质的图像。

图片1962年,英国蛋白质晶体学家佩鲁茨呈现出血红蛋白的三维图象

同期,美国科学家Christian Anfinsen通过各种化学技巧,成功使一个现有蛋白质展开然后再次折叠起来。有趣的是,蛋白质每次都呈现出完全相同的形状。

1961年他得出结论,蛋白质的三维结构完全由氨基酸序列决定,这项发现使他在1972年获得了诺贝尔化学奖。

但另一位美国科学家Cyrus Levinthal提出了质疑:即使一个蛋白质只由100个氨基酸组成,理论上该蛋白质至少可以呈现10^47种不同的三维结构。如果氨基酸链是随机折叠的,找到正确结构的时间会比宇宙年龄还要长,但这在细胞中仅需几毫秒。

那么氨基酸链究竟是如何折叠的呢?Anfinsen的发现和Levinthal的质疑共同指向了一个事实:氨基酸链折叠是一个预定的过程,更重要的是,关于蛋白质如何折叠的所有信息一定存在于氨基酸序列中。

图片蛋白质折叠示意图

这意味着,如果化学家知道蛋白质的氨基酸序列,就应该能够预测蛋白质的三维结构。一旦如此,他们就不必使用繁琐的X射线晶体学来预测蛋白质结构了,毕竟过去弄清一个晶体结构往往都会消耗一个博士生的整个求学生涯,这可以节省大量时间,还能够为不适用X射线晶体学的蛋白质生成结构。

1994年起,蛋白质结构预测关键评估(CASP)项目应运而生,变成一场比赛。每隔一年,研究人员都可以获得结构刚被测定的蛋白质的氨基酸序列,挑战是基于已知的氨基酸序列预测蛋白质结构。

但多年来,研究人员的预测准确性最高只有40%,直到2018年,国际象棋天才、深度学习“元老”、AlphaGo亲爹Demis Hassabis下场参赛了。

图片Demis Hassabis

02

AI终结50年挑战

闯入“蛋白质奥运会”前,Hassabis已经在棋盘、游戏和创投领域大杀四方。

他4岁开始学国际象棋,8岁用国际象棋比赛奖金买来的电脑编程开发了棋盘游戏奥赛罗(Othello),13岁时就成为这个年龄组的世界第二,17岁时负责的游戏项目《主题公园》爆火。

他一直在思索“大脑是如何学会掌握复杂任务的”“电脑也能做到同样程度吗”,在2015年的采访中他表示:“事实上我的整个职业生涯,包括我开发游戏的时候,都是为了最终成立AI公司。少年的时候我就决定,AI会是最有趣和最重要的事业。”

2010年,他共同创立了DeepMind,2014年被谷歌收购,2016至2017年,AlphaGo击败人类围棋世界冠军更是使Hassabis的深度学习事业声名大噪。

图片柯洁晒出AlphaGo人机大战后与Hassabis的合影,表示“成为历史的见证者了!”

其实Hassabis19岁才开始学围棋,目前水平也只是“刚入门”的业余1段,围棋只是他开发更好人工智能模型的手段。2018年,他的团队携第一代AlphaFold以近60%的准确率获得第13届CASP冠军。

这是意想不到的进步,但要投入实际应用,预测必须达到90%准确率。Hassabis遭遇技术瓶颈之时,一位2017年入职Deepmind的新员工John Jumper提出了对AlphaFold改进的突破性想法。

John Jumper原本基于对宇宙的迷恋钻研物理和数学,2008年,他在D.E.Shaw Research找到一份工作,负责开发用于蛋白质模拟的超级计算机。带着对蛋白质的新兴趣,他于2011年开始攻读理论物理博士学位。因为学校供应的计算机配置不足,他开始开发更简单巧妙的方法做蛋白质模拟。

2017年博士毕业时,他听说谷歌DeepMind在高度保密的情况做蛋白质结构预测,便提交了工作申请,那时他应该很难想象,这一决定会带他博士毕业七年速通诺奖,成为诺奖历史上首位“80后”得主。

图片John Jumper是诺奖历史上首位“80后”得主

团队停滞不前后,Jumper和Hassabis共同领导了AlphaFold2的开发。得益于算法革新,AlphaFold2不再沿用AlphaFold中的卷积神经网络,而是采取Transformer架构,在所有已知蛋白质结构和氨基酸序列的庞大数据库中训练,将未知结构的氨基酸序列输入AlphaFold2,在迭代中细化序列分析和氨基酸彼此之间的距离图。

在2020年的CASP,将实验方法得到的蛋白质结构叠加在AlphaFold2的结构上,组成蛋白质主链骨架的叠加原子之间的距离中位数(95%的覆盖率)为0.96埃(0.096纳米)。这意味着,预测的蛋白质结构能达到原子水平的准确度——生物化学领域50年来在蛋白质折叠问题上挑战结束了。

2021年7月,DeepMind向全世界开源了AlphaFold2。AlphaFold能够“在几秒或几分钟内相当准确地预测蛋白质的结构”,Hassabis在接受美联社采访时表示,这为研究人员省去了“可能需要数年才能完成的繁琐实验工作”。

图片将一个未知结构的氨基酸序列输入AlphaFold2,系统会在数据库中搜索相似的氨基酸序列和蛋白质结构

AlphaFold2能够预测几乎所有已知的2亿种蛋白质的结构,目前,来自190个国家的200多万人都用上了AlphaFold2,相当一批资金有限的科研者也有了机会借助工具分析数据并从中发现模式和结构,参与到高水平的科研中。

今年5月,AlphaFold3再登Nature,基于Diffusion架构,将技术延伸到蛋白质折叠之外,能以原子级精度准确预测蛋白质、DNA、RNA、配体等生命分子的结构及相互作用。

Hassabis在获奖后透露,“我们即将完成AlphaFold3的代码清理工作,并计划将其向学术界开放,供自由使用,之后我们将继续前行。”

03

诺奖也FOMO

2020年12月4日,AlphaFold2在CASP取得爆炸性突破,CASP创始人之一John Moult在比赛结束时发问“what now?”

与两位人工智能研究者分享诺奖的另一位CASP参与者David Baker,正在蛋白质结构预测“反向操作”的道路上行走。

图片David Baker

当Baker开始在哈佛大学学习时,他选择了哲学和社会科学。然而一本《细胞分子生物学》第一版改变了他的人生方向。他对蛋白质结构产生了浓厚的兴趣,开发了预测蛋白质结构的计算机软件Rosetta,并借助Rosetta在1998年首次参加CASP比赛时领先于其他参与者。

Baker的团队意识到,使用Rosetta,他们应该能够输入蛋白质空间结构的“设计图纸”,让计算机反推出对应的氨基酸序列,按照序列进行合成就可以得到人们想要的、具有特定功能的新蛋白质。

过去科学家们无法凭空设计一种新蛋白质,只能改造自然界已经存在的蛋白质,Baker想要从头开始创造。他表示:“如果你想制造飞机,你不会从修改鸟开始,而是基于对空气动力学基本原理的理解制造飞行机器。”

2003年时,Baker首次利用软件创造出了一个与天然蛋白质截然不同的新蛋白质Top7。Rosetta搜索了所有已知蛋白质结构的数据库,寻找与所需结构相似的短片段,优化并提出一个氨基酸序列,经X射线晶体学方法比对,其开发的蛋白质Top7几乎与他们设计的结构完全一致。

图片与天然蛋白质截然不同的新蛋白质——top7

此后,他们不断从头创造出新的富有想象力的蛋白质,催生新的纳米材料、药物、疫苗、微型传感器和更环保的化学工业。获奖当天,诺奖委员会联系到了Baker,他认为自己是站在巨人肩膀上取得了这些成果,AI已经为科学进步做出了巨大的贡献。

“Demis和John在蛋白质结构预测上的突破,真正让我们看到了人工智能的巨大潜力,”Baker说道,“这也促使我们开始将人工智能方法应用于蛋白质设计。”

预测和设计的两组科学家相互借鉴了对方的成果。诺奖新闻发布会上,Hassabis和Jumper表示,他们的研究只是人工智能辅助技术的开端,这种技术可以将医疗手段的开发周期从数年缩短至几个月,同时帮助研究人员理解生物学中的基本机制。

图片AlphaFold2能在几分钟内预测出一个典型蛋白质的结构,大大提高了研究人员的效率和精准度

“我认为人工智能有潜力成为加速科学研究和知识发展的终极工具,希望AlphaFold是第一个样例。”Hassabis在与诺奖官方通话中表示,“最好的科学家和这类工具将能够做出令人难以置信的成果。”

通话中,Jumper视自己为计算生物学家,并称:“我们需要计算来解决生物学的问题。我只是很高兴它开始奏效了,我简直不敢相信我们这么快就得到了认可。”

好在,诺奖也怕错过,果断将AI在蛋白质结构与设计上的突破进展赶早收入囊中。

AI for Science的时代,交叉学科爆发,基础科学接纳并认可了机器学习这一潜能无限同时伴随着发散和不确定性的领域,新的科研范式正在形成并将带来深远的影响。

颁奖前,Jumper觉得自己只有10%的获奖几率,他原本的计划是睡个懒觉,等醒来那刻便知道自己是否获奖,但这个计划并未成功,“因为睡那么久实在很难熬”。他在线看了化学奖直播,并自拍录下了自己的欢呼:

“真高兴你们都跟上了!”

-END-

值班主编 | 赵靖含

排版 | 阿车

南风窗新媒体 出品

未经授权 禁止转载

关注南风窗,查看更多精彩内容