开疆拓土、再创物理辉煌——2024年诺贝尔物理学奖解读

图片

赵鸿,张勇 (厦门大学物理系)

导读:2024年的诺贝尔物理奖授予了约翰·霍普菲尔德(John J. Hopfield)和杰弗里·辛顿(Geoffrey E. Hinton),以表彰他们利用物理学的思想和方法构建模型和演化规则、为今天强大的机器学习理论和应用奠定了基础。很有意思的是此奖一经宣布,在中国学者中掀起了一股轩然大波,不少人表达了不理解,质疑其是否属于物理学,是否达到了物理学奖通常的标准。厦门大学赵鸿教授和张勇教授对2024年度诺贝尔物理奖给出了他们的解读。

图片

图一:2024年物理诺奖的物理学渊源

诺奖发给谁是瑞典皇家科学院的特权,我们的好恶影响不了他们。我们需要思考的问题是,首先,也许评奖委员会的科学家真的是所谓的“战略科学家”,他们在煞费苦心地进行“顶层设计”:物理学正在进行范式的改变,向复杂系统交叉领域的拓展将变得越来越重要。如果2021年的物理诺奖没有让大家领悟到这样的改变,那今年的诺奖之后如果还不醒悟,我们或许真的会错过物理学新的“盛宴”。其次,抛开是否“物理”不谈,他们的工作正在深刻改变世界这是无疑的,而他们探索世界的方式无疑是我们当下苦苦追寻的“0”到“1”创新模式。或许我们可以从中学到些什么,比如我们的本科教育是否也能给霍普菲尔德和辛顿那种离经叛道的学生以发展的空间,我们的大学和研究所是否能容忍他们这类不务正业的学者存在?

本文作者自本世纪初开始从事霍普菲尔德模型的研究,试图发展一套不同于辛顿等人机器学习理论和算法的体系,前后一直持续了二十多年。虽然没有取得显著的成果,但是对这个领域还是有一些了解和理解,借此机会分享我们对霍普菲尔德和辛顿工作的解读,以供大家参考。

仔细了解一下他们的工作,会发现的确是立足物理,推动人工智能(AI)革命的最重要的原动力,见图一。伊辛模型是理解磁性等物性的基本模型,它刻画自旋之间存在近邻相互作用的系统;如果任意自旋态之间具有相互作用,就成为Sherrington-Kirkpatrick(S-K)模型,可以刻画自旋玻璃以及无序系统等的物性。在限定了两两态之间的相互作用满足正态分布后,乔治·帕里西(Giorgio Parisi)获得了此模型严格的解析解,荣获了 2021 年的物理诺奖。霍普菲尔德把小磁针当作做神经元,把相互作用看作神经元之间的轴突树突连接,同时针对生物神经系统选择了计算连接强度的公式,获得了一个类伊辛模型,也就是霍普菲尔德网络。这个模型的重要性在于它把神经系统或大脑作为了物理学的研究对象,首次为神经系统构造了网络结构模型,并赋予其动力学,以在物理学通常的框架下理解大脑工作原理。这个模型带给脑科学的贡献是展示了信息不是写在神经元上,而是存储在树突轴突构成的连接网络中;存在于这种结构中的信息可以通过激活相关的神经元,推动网络演化而作为动力学系统的稳态被联想出来,见图二。这改变了神经科学领域研究的思维方式,建立了用简单的模型理解脑神经系统的新的模式。

图片

图二:联想记忆

图片

图三:网络训练的负熵过程

辛顿的工作受到了霍普菲尔德的启发,他进一步引入了隐层神经元,以与数据集契合度最好的玻尔兹曼分布确定连接强度,提出了所谓玻尔兹曼机。后来进一步用玻尔兹曼机来构建多层网络,获得深层置信玻尔兹曼机,这促成了机器学习应用大突破的深度学习的基本思想。深度网络最终大显身手,导致了AI研究的热潮,但是它的脉络在玻尔兹曼机。辛顿本人认为玻尔兹曼机是他最重要的工作。霍普菲尔德网络和玻尔兹曼机这两个获奖模型曾经也引起过包括物理界,特别是统计物理与非线性动力学系统研究的热潮,但是由于模型简单等原因本身没有在应用方面创造更大的辉煌,但这是辉煌的引子,是深度学习之花的根。基于这样的背景,大家应当可以理解为什么他们的工作获得了物理诺奖。如果物理学传统领域发明了一种工具,取得同样大的影响,那如果其获奖是不会引起质疑的。不仅如此,机器学习也正在推动物理学本身的发展,特别是统计物理领域,基于统计推断基础上重新表述的统计力学,在非平衡态统计物理方面取得了初步的成果。

霍普菲尔德和辛顿的模型比伊辛模型具有更广泛应用场景。后者的连接强度是物理条件确定的,研究目标是写出模型并求解模型,更关心稳态。前者则设计连接强度,演化连接强度,用规则控制系统向特定的功能演变。设计成功后,网络成为一个动力学系统,其动力学演化特性决定了网络的功能,因此被称为统计物理逆问题。我们知道,建立动力学方程研究演化是物理学的基本模式。牛顿力学和量子力学都由微分方程给出,描述的都是系统的演化。后来发展出的物理学很多领域以研究这些演化所导致的稳态为目标,刻画平衡稳态下的物性。研究演化的任务由非平衡统计物理和非线性动力学发展到了复杂系统,但是由于和主流的物理学领域有所分离而不为很多人了解。物理学界有人把科学研究的时代分为“金银铜铁锡”,物理学的很多领域已经进入了“铁锡”甚至之后的时代,那些老一辈科学家所做量级的科学贡献已经成为稀有事件。而复杂系统这个学科还正在形成之中,即便是它的重要组成部分,非平衡统计物理,虽跨越几个世纪的发展,其框架和理论还远未成熟,充其量只进入了“铜”的时代。复杂系统研究演化,研究运动,研究多体非线性系统的运动规律,特别是“more is different”的涌现行为。机器学习这类系统,无疑是复杂系统下的典型例子。

还有一个现象很有意思,我们看到国外名校物理系本科课程,如哈佛等,他们早就把机器学习的若干内容,如人工神经网络、支持向量机、玻尔兹曼机等融入了统计物理的高阶课程之中。而国内就我们所知,厦门大学物理系在七年前也开设了机器学习这门本科生课,其他学校物理系鲜有开这类课程的。这意味着,国外物理学界早就适应了机器学习这个概念,这大概也是这次物理诺奖被国内物理学界激烈争议的原因吧。

接下来我们将从学术的角度分别介绍霍普菲尔德和辛顿的工作。


霍普菲尔德的贡献

为了刻画物质的磁性,物理学家把分子、原子电流产生的磁场基于量子理论简化为向上(s=1,自旋向上)和向下(s=-1,自旋向下)的小磁针,由此产生的磁针之间的相互作用记为Jij。此系统的哈密顿函数可以写为

图片 (1)

对于“小磁针”晶格(图一),如果只考虑最近邻相互作用,则相互作用强度是常数,Jij=J,因为最近邻距离相等。如果给系统赋予温度,也就是让小磁针按照玻尔兹曼分布随机的反转方向,随着温度的降低,可出现从没有整体磁性到具有整体磁性的相变,从而解释了磁性的起源。这个模型的一维版本是威廉·楞次(Wilhelm Lenz) 1920年提出的,在他的指导下他的博士生恩斯特·伊辛(Ernst Ising)求解了该模型并于1924年完成了其博士论文。然而由于没有发现自发相变,这个模型很长时间没有受到重视。1944年拉斯·昂萨格(Lars Onsager)求解出二维伊辛模型在没有外磁场时的解析解,发现了从没有磁性到有磁性的相变,伊辛模型迅速受到了重视。昂萨格由此获得了洛伦兹奖(他还由于非平衡统计物理和热力学方面的工作获得了诺贝尔化学奖)。相变的精确解之所以重要,是因为它为实验提供了可检验和可比较的标准,否则实验的结果无法升级为普适的结论。也正因为如此,很多科学家立即投入了更具实际意义的三维伊辛模型的求解,很遗憾迄今为止还没有获得完整的解析解。值得一提的是,我国科学家郝柏林教授等多年从事三维伊辛模型的研究,他们所获得的解是目前为止对该问题研究所取得的最好的进展(郝柏林,挑灯看剑集 2014)。伊辛模型的研究也推动了杨振宁、李政道先生对相变问题的研究,获得的李-杨零点理论揭示了连续相变的机理。

将格点 与 上的两个小磁针之间的相互作用 Jij 设为服从某一给定的概率分布的随机变量得到伊辛模型的一个自然推广,即自旋玻璃的Edwards-Anderson(E-A)模型(1975):图片如果假定概率分布不限于最近邻就得到E-A模型的无穷作用范围版本,即S-K模型 (1975)如果通过定义随机的赝自旋变量将原来随机的相互作用 Jij 确定化,即得到Mattis模型(1976)。自旋玻璃模型的求解异常困难,出人意料的是,这个模型虽然长程关联,但是竟然经过了若干天才物理学家的努力,帕里希1979年利用复本对称破缺方法得到了精确解并获得2021年的诺贝尔物理奖。这个工作的意义不仅是又得到了一个统计物理精确解模型,更重要的是把研究对象拓展到复杂随机系统,包括自旋玻璃系统。其方法和思想还被进一步用于理解诸如鸟群、鱼群等运动中形成的涌现现象,成为理解复杂系统的重要工具。

霍普菲尔德于1982年提出了霍普菲尔德模型,其哈密顿量与S-K模型形式相同。在伊辛模型这条线上看,它给出了计算相互作用强度的一个特殊公式,

图片   (2)

这里的 表示第 μ 个样本的第 个分量。但是从应用对象和内涵来看,它把生物神经系统作为了研究对象。具体来讲,它把 s看成是神经元的激活状态(+1)或静息状态(-1),把N个神经元的状态构成的矢量看作系统的一个态,把演化下最终的稳态叫做一个记忆模式。同时,把相互作用强度看成了神经元之间通过树突、轴突建立的连接强度,见图一。另一个重要的区别是连接强度 Jij 随演化过程是变化的,但由于具有对称性,Jij=Jji,因此存在李雅普诺夫函数,能量在演化过程中保持不增加。这个公式遵从了神经心理学家唐纳德·赫布(Donald Hebb) 1949年提出的Hebb规则:如果两个神经元状态相同,它们之间的突触连接会加强;如果两者之间状态相反,它们之间的突触连接会减弱。霍普菲尔德把这个规则用到了他的模型,给出的 Jij 反映了存储于系统的P个样本态导致的两个神经元之间连接加强或减弱的平均效应。

霍普菲尔德以此方式赋值连接强度后把这P个“模式”存储于系统之中,成为系统共存的“吸引子”。如果给各神经元赋予变形或被扰动的某个样本态作为初值,以此初态按公式(2)改变连接强度,系统会演化到这个样本态,也就是用近似的或相似的初态“联想”出所存储的记忆样本。演化规则分为局域演化和全局演化两种方式,其全局演化方程如下

图片 (3)

这里 是神经元传输函数,取图片则得到原始的二值霍普菲尔德模型,如果取诸如双曲函数,神经元的状态可连续变化。

霍普菲尔德模型的一个重要成果是首次从动力学系统的角度解释了人类联想记忆的可能机制。我们以图二展示这一性能。首先把两个以200x200的像素给出的蝴蝶样本化成两个4×104维度矢量,sA 和 sB,然后以公式(2)获得 Jij,这就完成了这两个样本的存储。把噪声扰动的蝴蝶照片作为联想记忆的初态输入模型,我们看到随着时间的演化,存储的蝴蝶分别被显现出来,完成了联想。霍普菲尔德模型的连接是对称的,这保证了李雅普诺夫函数的存在,但限制了其动力学丰富性。笔者研究组提出一套设计连接强度的一般方法,设计了非对称霍普菲尔德网络,从而可以展示混沌运动、压制伪记忆、实现混沌联想到记忆联想的相变,同时还可以存储周期态或者极限环记忆模式(赵鸿等,PRE 200420052010),如图二(b)所示。

霍普菲尔德模型的另一个更重要的贡献是表明信息是叠加存储在轴突树突构成的网络之中,而不是存储在神经元上,“刻”在脑子里。这个观点神经科学虽然也已经有了,但是用物理的模型,展示出其基本原理,这是霍普菲尔德模型的功劳。

霍普菲尔德模型还有一点值得指出的是它把动力学,准确地说非线性动力学引入了神经科学的研究之中,使得不仅可以利用统计学知识,而且可以用动力学的理论、方法、观点去理解生物生命系统,从而把神经科学从纯实验科学走向理论引领。

霍普菲尔德模型可以有各种推广,如把神经元的状态扩充,就得到Potts-glass模型;把神经元的变化连续化,就得到连续的霍普菲尔德网络。在上世纪末霍普菲尔德模型研究的热潮期间,各种应用也得到尝试和探索,包括模式识别、控制系统、以及求解优化问题等等。这些应用原则上是可行的,但是由于效率低等原因,没有获得普遍的实际应用推广。另外霍普菲尔德网络对理解大脑似乎还过于简单,主要停留在概念层次。虽然如此,由这个模型激发的辛顿的工作,启发了其提出玻尔兹曼机,最终导致了深度学习网络的建立,推动了AI的大发展。深度学习不仅在这些应用方面远超霍普菲尔德网络,而且导致了对科学模式的革命,正在全面改变着社会生活的各个方面。


辛顿的贡献

机器学习是实现AI的一种途径,它的主要任务是为经验数据建立概率模型。深度学习是机器学习的一种算法,建立在深度神经网络构架之上。而发现深度构架具有巨大威力的,正是杰弗里·辛顿。如今深度学习成了AI的代名词,因此辛顿也被称为AI教父。

机器学习是统计推断的一个分支,即给定数据集,通过优化算法,确定该数据集的概率分布函数。概率分布函数有很多种类型,人们往往选定一种类型,将其参数化,通过优化方法,确定其参数,从而确定描述数据集的最优概率分布函数。比如,如果选定正态分布去描述数据,那么均值和方差就是它的待定参数,通过训练,确定针对给定数据集的均值和方差,从而确定了描述数据的正态分布。给定数据集上的带参数的分布函数,称为似然函数,寻找最优概率分布的过程就是最大化似然函数的优化过程。

辛顿受霍普菲尔德模型的启发,选择玻尔兹曼分布去描述数据,并采用了 S-K 模型的能量函数将其参数化,这就是著名的玻尔兹曼机(Ackleyet al., Cognitive Science 1985)。

该模型的能量函数为:
图片
其中,vu  分别表示可见神经元和隐层神经元的集合,如图一所示。Jij 是所有神经元之间的链接权重。bi, ci 分别是可见神经元和隐层神经元的外场强度(偏置项)。所有神经元构型的玻尔兹曼分布函数为:
图片
其中为配分函数:
图片
那么描述数据,也就是可见神经元构型的分布函数为:
图片
定义其 log 似然函数:
图片

玻尔兹曼机的任务是通过最大化似然函数L,找到一组参数Jijbicj,使得P(v)成为描述数据的最优概率分布函数。

这里,辛顿做的最关键的改动是引入了一组隐层神经元 u 。它们不直接描述数据,但是参与了表征待定的玻尔兹曼分布。隐含层神经元能够有效捕捉到数据特征之间的关联,极大地增强了玻尔兹曼分布描述复杂数据的能力,是一项重大创新。

同大多数统计力学的计算问题一样,在最大化似然函数的过程中涉及到计算配分函数Z 。尽管人们发展了很多算法,包括物理学家熟悉的模拟退火、Metropolis算法等,但面对高维数据时,依然是一项极具挑战性的任务。当时辛顿采用的是随机梯度下降的方法,等价于 Hebb 规则。

后来,辛顿进一步简化了该模型,提出了受限玻尔兹曼机(Hinton et al., Neural Comput. 2002)。它将可见神经元之间,以及隐层神经元之间的链接去掉,如图一所示。这一改进不但简化了系统能量函数的描述,而且还极大提高了优化算法的计算效率,为玻尔兹曼机的实用化打下了基础。2006 年,辛顿与合作者将多层堆叠的限制玻尔兹曼机,称为深度置信网络,用于处理高维数据降维的问题(Hinton et al. Science 2006)。学界普遍认为,这篇文章直接推动了深度学习革命。深度网络与玻尔兹曼机的确有较大的差别(图一),但是仍然是一个非线性动力学系统,况且最近有学者认为甚至大语言模型实际上也可以表述为广义的伊辛模型(黄海平:2024物理秋季会议报告)。

万事具备,只欠东风。等到李飞飞构建的包含千万张标记图片的 ImageNet 以及 GPU 构架高效执行矩阵运算的编程接口出现之后,深度学习革命自然就水到渠成了。2012 年辛顿和他的学生提出了 AlexNet 卷积神经网络在 ImageNet 图片分类问题上一举夺魁,将分类误差降到了 15.3%,比第二名低了 10.8 个百分点,正式宣告了人工智能进入深度学习的时代。从那时候起,深度模型在各个领域沿着超越人类表现的路上狂飙突进,就连辛顿本人都害怕它们失控。尽管深度学习后来的发展跟当初辛顿提出的玻尔兹曼机没有直接的联系,但是这一系列受统计力学启发的工作为深度革命播下了一颗强大的种子。在最近一次采访中,主持人问辛顿这一生所取得的最大智力成就是什么,辛顿自豪的说是受统计力学启发提出玻尔兹曼机,他说尽管它应用方面不太成功,但是理论上是那么优美。

实际上,作为机器学习理论基础的统计推断也促进了统计物理本身的发展。自从杰纳斯利用统计推断的思想重新表述了统计力学之后,这一思路极大的推动了该领域本身的发展,并在非平衡态统计物理领域取得了令人瞩目的成就(Pachter et al., Nat. Rev. Phys. 2024)。


结语

不是物理学要蹭机器学习的热度,而是它的确起源于物理,而且很可能需要物理学家的继续介入才能让这个领域讲“理”。机器学习正在改变着世界,改变着港口、工厂、农耕、贸易、人们生活方式的方方面面、甚至是战争的方式和科研的范式。目前AI靠的是大力出奇迹,底层理论或物理还远不清楚,已经显示出算力受能源消耗限制的瓶颈。物理学理所应当积极参与,以“理”服人,推进这个领域,开疆拓土。物理学界应当尽早积极布局,或许能赶上物理学的再次盛宴。

还需要强调,平衡态统计物理关心的平衡态是“死”的,非平衡统计关心的是趋向这种平衡态,或者是趋向更为一般的细致平衡破坏下的非平衡稳态,甚至是含时驱动下不存在稳态的动力学规律。而神经网络是人为设计的结构,学习训练是“负熵”过程。图三展示我们早期研究非对称霍普菲尔德模型的一个结果(周庆国等,Neural Comput. 2009):训练之初,系统的本征值在复平面上的分布,落入了表征完全随机态的单位圆内。随着训练的进行,有本征值集团从单位圆中分离出来,使得系统存储了信息,具有了非平衡结构,偏离了热力学稳态。因此,神经网络乃至AI的深入发展,可能需要平衡态统计物理、非平衡统计物理、非线性动力学,信息理论等学科交叉,在复杂系统的框架下展开研究。另外目前的机器学习乃至大语言模型,还都在经典物理学的框架之内,基本还是“more is different”的经典现象。可以预期,量子物理的实际介入将会推动这个领域更深入的发展。

最近刷屏最多的是大众包括一些科学家对AI的恐惧,笔者就此谈谈我们的看法。蒸汽轮机发明后,人类在很多方面早已被自己制造的机器超越,火车比人跑得快拉得多,飞机能飞人不能,诸如此类的每次超越都是几个量级的碾压。现在人工智能只不过是又一个例子,作为人类工具的本质没有变,大可不必“过”联想。至于成为超越人类的更高级生命,更是无稽之谈。与其问“猴子为什么不变成人?”,倒不如问猴子为什么要变成人?在森林里自由自在不好吗?同样,机器为什么要取代人,有进化学上的必要吗?注重名利追寻卓越传递基因是人类的价值观,有何理由强加于机器?至于机器是否会有意识,目前还只是哲学问题,不是物理问题。物理学研究“物”,无论说什么不见“物”都不算。那么从物理学家的角度见过“意识”这个物吗?意识能被定义吗?这一点是需要注意的,不然各有各的“意识”内涵,各说话,会引起混乱。与其问机器是否能成为人,或许不如探讨一下人本质上超越机器的地方在哪里?总之对人工智能的担心有必要,但是没有那么可怕,道高一尺魔高一丈,“核”那个大老虎也在和人类和平共处,只要控制,只要规范,机器永远是机器。杞人忧天其实忧错了对象,不必忧天,真正该忧的是人。除了需要担心成为人的武器之外,还需要考虑这样一种可能性:当大部分的事情都被AI做了,人类的躺平才是可怕的,没有了进取心和奋斗的动力,甚至没有了欲望,人类的危险或许来自于自己把自己演化死掉。

毋庸置疑,诺奖整体上代表了科学研究的最高水平,代表了对科学发展的引领。每一次颁奖,可以说都是对中国科学家的一次激励。十年树木百年树人,中国科学经过数代人艰苦卓绝的努力,已经能够接近或赶超国际前沿,期待我国物理学者以更加开放和包容的心态重视交叉融合,广播创新的种子,在不远的将来率先取得突破。


致谢

笔者特此致谢童培庆、方海平、王矫、周海军、苗兵、陈勇、张潘、符维成等教授的有益建议和讨论,也对林宇宸同学对本文图形的制作修改表示感谢!


作者简介


图片

赵鸿

厦门大学物理科学与技术学院教授、博士生导师,国家杰出青年科学基金获得者。主要研究领域为统计物理、输运理论、非线性动力学以及机器学习等。曾任兰州大学物理系理论物理教研室主任、兰州大学理论物理研究所副所长、厦门大学物理系主任、厦门大学物理机电学院副院长等职,在低维晶格热输运,布朗运动,机器学习预测等理论研究方面取得了一定的成绩。近年来,他领导的研究组基本解决了著名的FPUT问题,对经典晶格热化给出了一般性的结论。


图片

张勇

厦门大学物理系教授、博导。博士毕业于兰州大学理论物理专业。长期从事非平衡统计物理基本问题、低维能量输运和理论机器学习方面的研究工作。从事培养学生计算思维的教学实践工作,参与建设厦门大学物理系本科生的科学计算系列课程,多年前开始讲授《科学编程入门》、《非线性动力学》、《机器学习》等课程。