李根国:从全球最快的到最需要的……展望下一代AI算力

图片
展望下一代AI算力,是讲堂新书《对话时代》的上海场研讨讲座,第二天为北京场
【导读】10月19日上午,由文汇讲堂和北大博雅讲坛联合承办,上海市算力网络协会、北京大学出版社、上海图书馆联合主办的“展望下一代算力暨《对话时代》新书研讨讲座上海场”在上图东馆成功举办,近10万人次观看直播。现经整理,分主讲和对话予以刊发。此为主讲篇。
图片
李根国现场演讲,分析和展望下一代算力 李念拍摄
进入信息时代,作为数字经济底座的算力小则既影响个人应用体验,中则影响城市数字经济的发展,大则关乎国家之间的竞争和人类文明进程,因此是一个大家颇为关注的话题,也是我们上海超级计算中心的一个重要的科普内容。今天从三方面和大家一起探讨,一是当前对算力的巨大需求,二是算力面临的挑战,三是下一代算力展望。
AI热点对算力的需求
自从Chat-GPT问世后,人工智能界的热点话题已经成为全社会的关注。我们先来看看最近的AI界三大热点,从个案来了解算力的需求侧。
*热点一:
物理诺奖给神经网络研究者,全社会对AI高度认可
2024年诺贝尔物理学奖授予霍普菲尔德(Hopfield)和辛顿(Hinton),以表彰他们“推动利用人工神经网络进行机器学习做出的基础性发现和发明”。霍普菲尔德创建了一种可以存储和重建信息的结构,辛顿发明了一种可以独立发现数据属性的方法,这种方法对于目前使用的大型人工神经网络至关重要。这表明,人工智能得到了人类社会的高度认可。
图片
霍普菲尔德(Hopfield)和辛顿(Hinton)获诺贝尔物理奖
霍普菲尔德和辛顿所作的贡献跨越了科学和计算机界,特别是辛顿,此前已获得“图灵奖”,此次因人工智能领域的贡献而获诺贝尔奖,是各行各业对其成就的高度认可,同时也表明,人工智能就是人类未来各个领域发展的一个方向。
众所周知,人类与其他动物的区别是,人类会制造工具、利用工具。计算机刚被发明时就认为是人类大脑的延伸,是人类智力的体现。
1946年出现了真正意义上的现代计算机。现代计算机是基于图灵计算理论和冯•诺伊曼体系结构,当时图灵就预测20世纪末计算机会产生智能,提出了“图灵测试”,实际上直到2014年,美国才做出第一台通过了“图灵测试”的计算机。何为“图灵测试”?就是将一个人和机器放到两个黑屋子中,由另一人对他们进行一些问题测试,如果分不出人和计算机,就认为计算机通过了测试。GPT和ChatGPT都通过了图灵测试。问题是,早在计算机诞生时就预测它会产生智能,但为何花费了这么近70年才得到实现?
图片
2015年,“阿尔法狗”战胜柯洁,标志着大规模算力才能发展人工智能  图源《新民周刊》
人工智能自1950年代发展起来就特别热门,提出了用神经网络的方法来研究。后来发现算力太差无法开展,当时计算机速度只有每秒几千次、上万次。1980年代提出了神经网络新算法,但算力仍然不够。直至2015年谷歌开发出会下围棋的“阿尔法狗(AlphaGo)”,才标志着新一轮的人工智能的发展。从这个方面来看,计算速度对人工智能的发展是最重要的决定性因素。只有大规模的算力才能发展人工智能,比如目前最新的GPT4o1,之后的发展都需要大规模的算力支持。
*热点二:
蛋白质结构预测表明科学范式变化,AI广泛渗透
今年的诺贝尔化学奖授予了大卫·贝克(David Baker)、戴米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John Jumper),以表彰他们在蛋白质设计和蛋白质结构预测领域做出的贡献。在蛋白质结构预测领域,三位引领者成果显著。大卫·贝克创建出精确的AI预测工具RoseTTAFold,预测了约80%的蛋白质-配体复合物。戴米斯·哈萨比斯和约翰·江珀发明了预测蛋白质三维结构的革命性技术——阿尔法折叠(AlphaFold)。
图片
诺贝尔化学奖垂青阿尔法折叠发明者
传统研究方式是物理实验结合超级计算。国内两位海归科学家施一公和颜宁就是运用物理实验方法研究蛋白质结构,利用冷冻电镜观察蛋白质结构,并在美国和中国都发表了许多高质量的文章,成果显著很快就评上了院士。谷歌公司最新发布的AlphaFold是用AI做蛋白质结构预测的。
这些科学家都在做同一件事,但能看出一些明显区别,用人工智能的AlphaFold会做得很快,一次性就能预测出几十种蛋白质的结构,这叫概率计算——大致是这样的情况,但不能准确的得出结果。真正的科学计算基于超级计算机,就能预测出蛋白质结构,但这需要精确计算。这是两种不同的方法。人工智能计算和超算的区别就在于,一个是概率计算,另一个是精确计算。当然,最终的科学研究还是要落实到实验,真正物理上能够实现,才能确认有蛋白质结构。例如医药研究方面,许多病理的研究都基于蛋白质结构的研究。
因此,今年的诺贝尔化学奖授予蛋白质结构的发现,标志着整个科学界的认可,也意味着当前科学研究的范式发生了变化。之前的科学研究基于大量的实验观察,后来是实验观察与计算相结合,现在是以大数据和人工智能相结合的科学研究,这是一个非常重要的研究方法进化。
诺贝尔奖的颁发,更多的是唤醒人们对AI超预期发展和广泛渗透性的重视,增加人们对AI推动人类社会跨越式发展的期望。
*热点三:
马斯克周:无人驾驶车、机器与人互动、筷子夹火箭
图片
马斯克创新不断,其推特发布星舰的“筷子夹火箭”获得成功
10月7日-13日被称为“马斯克周”,为什么呢?
(1)10月11日,马斯克发布了无人驾驶出租车CyberCab(无监督FSD),颠覆了人类对车的概念的理解。
(2)10月11日,马斯克发布能跟人互动的Optimus机器人。
(3)10月13日,马斯克麾下的太空探索技术公司(SpaceX)新一代重型运载火箭“星舰”第五次试飞成功,并在这一过程中实现了技术上的重大突破——首次尝试用发射塔的机械臂(形象地被称为“筷子”)在半空中捕获助推器以实现回收并取得成功。从成本效率等各方面都可以看到,马斯克对AI的应用是超前的。
*新药研发AI设计周期可从5-6年提至1-2年
正是因为有这些工作展现,在社会各行业,无论是商业、金融、制造业、社会治理,还是医疗、教育、科研、服务等领域都在训练AI大模型,基于大模型展开应用。举例来说,在药物研究领域,原来发布一款新药一般需要5至10年,现在新药周期大规模缩减,方法就是基于数据预测。
具体做法是,第一步,先用计算预测蛋白质的结构,无论人的功能细胞还是病体的病毒结构,都要通过这个实验或者计算来预测。这个工作目前已与人工智能结合起来,如AlphaFold已经发布到第六版了,它是一个开源的软件来预测正常细胞或是病体。然后,再去找新研究的药物或已有的基药,通过实验和计算机测试这些药对这个结构(靶体)是否有用。依靠人工智能收集的大量数据,可以在较短的时间内观察小分子药对病体的反应,以得出是否有用的结论。过去做这项实验可能需要5-6年时间,利用AI可能在一年或更短时间内就能完成第一步工作。
图片
新药研发由于AI介入大大缩短时间
第二步要进入临床测试。所有的新药必须经过临床一期、二期确定安全后才能投放使用。人工智能在临床测试过程中也有许多帮助,主要是通过人工智能进行大量数据的对比和大批量数据处理。特别是前三年的疫情期间,美国与中国都在快速研究一些应对新冠的特效药,出药的时间比过去快多了。可以说,人工智能发展之后,极大提升了生物医药研发速度。
*大模型对算力需求为何增长很快?
人工智能的三要素包括算力、数据、算法。其中算法相对固定,数据也比较清晰,有大规模的数据才能训练数据,然后产生智能。
现在已经总结出三者的关系,所谓的规模定律(Scaling Law),意思是我们做每一个训练的数据、大模型参数和所需的算力,按照算力等于6倍的数据量,再乘以参数量这样一个关系。例如GPT-4是一个万亿参数的大模型,它的数据量也是万亿token(token是一个很小的单位把数据都分割开),那么2个万亿级乘起来再乘以6,大概是一个10的25次方的量级,这个量级是什么概念呢?现在所谓的E级机,也就是目前最快的超级计算机,它的算力是10的18次方,称作“E级”,那么从E级到10的25次方还差7个数量级,所以计算量就是靠大规模的机器长时间的计算来实现。例如GPT-4运行的是2万张A100GPU卡,在上面训练了90天。所以说关键是算力。大模型对算力的需求增长非常快。
图片
马斯克推特发布有关最快AI算力集群新闻
马斯克在今年上半年构建了一个基于GPU的最快算力系统,用10万张H100GPU卡构成的AI集群系统来支撑他的自动驾驶和机器人。构建这样规模的机器,造价约40亿美元,每年功耗150兆瓦,电费高达1.2亿美元。如果国内要构建一个10万块规模能力的卡,基本上要花人民币40亿元,每年耗电约1.2亿元。
*10万卡集群规模建设即超算建设决定着各国算力实力
从超级计算机的角度来看,GPT就是一个典型的分布式和并行计算的一个应用。因为H系列、A系列的GPU卡是一个全能卡,超算、智算都可以做。受到美国的限制,国内许多常见的算力卡受到很大的限制,只能有16位或32位,这种情况下的GPU就只能做人工智能的大数据处理。所谓“智算算力”是国内的一种说法,国际上通常的说法是“AI超级计算机”,因为它本来做的就是一个超级计算机的应用。从整个机器来看,AI超级计算机原本就由10万张卡堆在一起,那么怎么把它们堆到一起?真正核心的其实是互联技术,能把上万张卡放到一起,做同一个题目,能够稳定计算至少几个小时。
因此,超级计算机的难度不在于GPU卡本身,而在于这个系统,所以各国都特别重视超级计算机的发展。特别是美国。例如,美国国家计划5年内投资2800亿美元以保持美国在芯片和计算技术领域的领先地位;欧盟计划提供12亿欧元资金用于“欧洲共同利益重要计划——下一代云基础设施和服务”;日本经济产业省拟为5家日本企业提供总额725亿日元的补贴,用于打造人工智能超级计算机。
图片
智算规模在2023年增速达136%
从国际上看,美国和中国在人工智能领域有大规模发力的建设。一方面,美国是由政府引导,头部公司发力。例如Meta、微软&OpenAI、马斯克的xAI等多家AI巨头公司陆续宣布或者完成10万卡集群规模建设。据IDC统计,预计2022年至2032年全球人工智能产业规模的复合增长率高达42%,2032年将达到1.3万亿美元。至2023年底,全球算力总规模约为910EFlops,增长40%,智能算力规模达到335EFlops,增长达136%。
算力的发展与国家的实力密切相关,与GDP走势呈正相关。例如,算力发展较为迅速的美国和中国,GDP的体量也处于领先地位,属于第一梯队。日本、德国、法国、意大利等GDP在世界上占比较高的发达国家,属于第二梯队。其他发展中国家,以及规模较小的国家则属于第三梯队。
*中国算力建设加速,从“东数西算”到全国一体化算力网
算力代表新质生产力。2022年12月,国务院印发《“十四五”数字经济发展规划》提出,到2025年,数字经济核心产业增加值占GDP比重达到10%的重要发展目标。2023年,中共中央、国务院印发了《数字中国建设整体布局规划》,其中明确提出,数字中国建设按照“2522”的整体框架进行布局。
数字战略的实施标志着中国从工业社会进入信息化社会。目前上海走在数字城市发展的前列,全国各地的发展差距较大。2021年5月,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发了《全国一体化大数据中心协同创新体系算力枢纽实施方案》。2022年1月,国家发改委提出,我国布局八大算力网络国家枢纽节点,实施“东数西算”工程,支撑大规模算力调度,构建形成以数据流为导向的新型算力网络格局。2023年12月25日,又发布了《深入实施“东数西算”工程,加快构建全国一体化算力网的实施意见》,提出了全国一体化算力网。
图片
发改委等多部门发布构建全国一体化算力网的实施意见
“东数西算”工程部署了8个枢纽节点,京津冀、长三角、粤港澳和成渝地区等4个信息化发达地区,主要负责应用算力。内蒙、甘肃、宁夏、贵州等4个欠发达地区作为供给方,提供绿电并转化成算力。自2023年起至2024年6月底,八大国家枢纽节点直接投资超过435亿元,拉动投资超过2000亿元。各级地方政府把数字产业作为支柱产业发展,投入巨大。当然也给许多地区的经济带来了特别的发展。
国内三大电信运营商、互联网公司三巨头BAT(百度、阿里巴巴、腾讯),以及其他算力公司,都建设了万卡以上规模的算力来支撑我国的人工智能发展。
AI算力面临的挑战
大模型等人工智能的快速发展对算力有着强大的需求,资本和社会力量投入也日益增长,那么,大众期盼的算力为何不能如愿匹配呢?
*效率低下:集成电路自身限制和生态体系不完整
一方面,现代计算机受结构体系限制,存在“内存墙”“功耗墙”“IO墙”等集成电路固有瓶颈,导致计算效率整体水平低。国内问题更加突出,涉及AI超级计算机配置、系统架构、算法优化等诸多问题,导致GPU算力利用率低于50%。另一方面,许多AI计算方法是通用的,从需求来看,希望能用最好的人工智能设备来保障大模型训练运行畅通。但由于美国方面的限制,我国许多自主算力的兼容性较差,生态体系不够完整,许多算法迭代的速度较慢,某些方面还不够先进,使得整个计算效率又打了一个折扣。
图片
主讲之后,上海市算力网络协会专家们展开讨论,专家会员沈巍(中)主持,商汤科技大装置事业群生态执行总监刘运辉(右)和上海超算中心高性能计算部部长王涛参与
*能耗浪费:散热成本、数据搬运功耗、数据中心折旧
一方面,集成电路本身的特性使得其自身发热,这就是电力浪费,还要给其配置制冷设备,把它的热量带出去,这就是二次浪费。计算机中数据的传输成本非常高,例如,想从北京拷个数据到上海,可以通过网络传输,但是一旦达到P级(1PB=1024TB)或者再大规模的数据,网络传输的成本和速度就远远不如直接派人去北京把数据拷到硬盘里带回上海的速度和成本。事实上,微观的数据传输成本,即从一个CPU传到另一个CPU的成本也是最高的。有一个预测,当半导体工艺达到7纳米时,数据搬运功耗占总功耗的63.7%。也就是说,计算机里真正耗能的主要是数据的传递,在超级计算机里数据的同步和传输也是最花时间和电力的。
算法设计也是最重要的工作。例如并行计算。其实人类所有的工作都适合串行计算。到目前为止,计算机也无法自动实现并行计算,还需要人工介入把任务分配好。所以,真正计算难度在于把计算机里这些成千上万个核同步调动起来,让它们干一件事情,这也需要耗能。
另一方面,宏观上可能要创建许多数据中心。一个设备至少使用5至8年才会更新或淘汰,老旧设备对能耗消耗也相当大。据国内统计,近5年我国算力中心的耗电量基本达到15%的增长速度,高于我国的GDP增速。整个数据中心的耗能占总耗电量的5%至6%。2023年全国数据中心总耗电量已经达到1500亿度。
图片
对计算机的散热,液冷是目前的解决方案
对于计算机的能耗,我们现在还只能做一些外围工作。对于如何降低计算机本身的电耗,目前还无解,就看下一代计算机是否有革命性的突破。目前算力中心采取了最先进的液冷,将整个计算机放到一种特殊的液体中进行制冷,但建设成本很高,初期的一次性投入非常大。如果把制冷液也计入成本,那从投资的角度来说,根本就没有节省。另一种方法是用所谓的绿电,太阳能、水利发电,这种方法的污染相对较少。此外,最近也有观点提出把机器建到月球上。小规模的机器可以操作,大规模的机器难以实现,因为机器本身十几兆、百兆瓦的耗电量,在月球上难以解决。所以,能耗问题是计算机非常头疼的一个问题。
*多样性需求提升和计算架构单一矛盾
人类需要计算机解决各种各样的问题,不论是场景环境还是种类需求日益增多,但是计算机结构单一,解决方案就是一个单一结构或固定结构,计算机很难有一个动态的变化来适应人类的问题。对此,计算机科学家也在努力探索。
新一代AI算力展望
虽然挑战很大,但诸多方面都在展开攻关。我们可以展望下一代算力的前景。
*硬件创新:NPU、TPU、FPGA芯片、ASIC芯片
图片
5月15日,谷歌发布了第六代TPU芯片Trillium
从计算机硬件来看,在提高算法在机器里的效率上已新发布一些新架构,例如华为发布的人工智能专用处理单元NPU(Neural-network Processing Unit),即嵌入式神经网络处理器,就是针对人工智能升级网络设计的性能更优芯片。谷歌向量计算也在做自己的TPU(Tensor Processing Unit,张量处理单元)芯片,还有使用场景更加灵活的FPGA(Field-Programmable Gate Array,现场可编程门阵列)芯片,以及针对特定应用领域的ASIC(Application-Specific Integrated Circuit,应用型专用集成电路)芯片。这些芯片结构可以提高我们解决问题的效率,但是通用性会差一些。幸好针对人工智能的算法是一个特定的算法,可以提高效率。
*软件创新:算法改变较难,软硬件结合为佳
从软件的角度出发,现在的计算方法与硬件的匹配关系较差,所以现在也在改变算法,但是算法也不容易改变。辛顿从1980年代就开始研究人工智能的卷积神经网络算法,尽管人工智能有许多算法的设计,但本质上不可能在短期内有更大突破,所以要将软硬件两者结合起来,尽可能提高效率。
*新型颠覆式计算机:存算一体、量子计算、生物存储、脑机接口
我们畅想、展望下一代颠覆式新型计算机。
图片
生物存储是模仿人体的蛋白质结构原理展开
一是模拟人脑进行数据传输和运算的存算一体机。人脑本身就存储了许多信息,运算时只要把两个神经元连接到一起。存算一体是打破冯·诺依曼结构的一个全新发展方向,目前也有一些成果。
二是量子计算。从计算机的角度看,我们期望量子计算的诞生,为计算机带来革命性的巨大发展。量子计算也有许多方法,例如超导计算,在环境温度冷却到负273度的情况下产生超导,然后建立计算机基础。还有光子子、中微子陷阱等方式。该领域目前国内也在积极研究,希望能够创造出颠覆性的成果。
三是生物存储。现在的存储还是集成电路,未来希望计算机能够模拟人类进行蛋白质结构存储。这方面目前也在进行一些实验,但距离投入使用还很遥远。
四是脑机接口。这也是一个新的发展方向。一般来说,将一个小学生培养到博士,至少需要20年时间。一旦脑机接口研究成功,可能几小时之内就把小学到博士阶段的知识一下子灌输到人脑中了。脑机接口距离临床使用还有很远的距离,目前更多的研究是针对瘫痪病人,用一个芯片与人脑的神经直接对接上,然后把信号传递出来,或者将外部的信号输入到人脑中。但是人脑结构特别复杂,其中的血管不能触碰,容易造成损伤。所以这也是一个极具想象力,能够从根本上解决我们的知识学习和应用的一个方向。
图片
上图中心听众济济一堂,对新话题充满探索热情,近10万人次观看直播   孙科拍摄
不论是量子计算、生物存储还是脑机接口,现在美国的研究是走在我们前面的,但我国也在各个方面积极布局,希望在新一代科学技术和工业等方面的发展中,能够走在世界前列。
整理:金梦 李念
  作者:李根国(上海超算中心主任)
文:李根国图:嘉宾PPT及网络 朱梅全整理编辑:李念责任编辑:李念
转载此文请注明出处。