英伟达的狂欢,才刚刚开始

全文3471字,阅读约需10分钟,帮我划重点

划重点

01生成式AI热潮引发英伟达GPU需求激增,其中H100芯片需求量最大,价格飙升至4万美元。

02由于台积电产能翻倍和DRAM厂商增加HBM产量,H100交货时间从52周缩短至20周。

03然而,预计2024年ChatGPT级AI开发和运营所需的高端AI服务器仅占所有服务器的3.9%。

04谷歌、亚马逊等云服务提供商的需求似乎根本无法得到满足,英伟达的竞争对手不是处理器制造商AMD,而是美国谷歌和亚马逊。

05未来可能会出现全面的生成式人工智能热潮,数据中心市场也将扩大。

以上内容由腾讯混元大模型生成,仅供参考

图片

本文由半导体产业纵横(ID:ICVIEWS)编译自eetimes

英伟达的竞争对手不是AMD,而是谷歌和亚马逊。

自Open AI发布ChatGPT以来,生成式AI成为一大热潮,英伟达的GPU作为AI芯片开始流行。然而,在GPU的生产中,存在两个瓶颈:台积电的CoWoS和高带宽内存(HBM),导致GPU在全球范围内短缺。

在这些GPU中,H100的需求量尤其大,其价格飙升至4万美元,引发了所谓的英伟达“GPU狂热”。

在这种情况下,台积电将产能翻倍,SK海力士等DRAM厂商增加了HBM产量,导致“H100”的交货时间从52周缩短至20周。那么,英伟达的“GPU狂热”会结束吗?

在这篇文章中,我们将讨论英伟达的“GPU狂热”是否即将结束。先说结论,预计即使到2024年,ChatGPT级AI开发和运营所需的高端AI服务器也只有3.9%的出货量。因此,谷歌、亚马逊、微软等云服务提供商(CSP)的需求似乎根本无法得到满足。总之,到目前为止,英伟达 的“GPU狂热”只是一个开始,全面的生成式 AI 热潮即将来临。

下面,我们先简单回顾一下英伟达 GPU的两大瓶颈。

两个英伟达 GPU 瓶颈

在英伟达 GPU的生产中,代工厂台积电负责所有前、中、后制程。这里,中间工序是指分别生产GPU、CPU、HBM等芯片,并将其放置在从12英寸硅片切下的方形基板上的工序。这种基板称为硅中介层(图 1)。

图片

图 1 2.5D 到 3D 中出现的中级工艺,例如 英伟达 GPU

另外,台积电开发的英伟达 GPU封装称为CoWoS(Chip on Wafer on Substrate),但两个瓶颈是硅中介层容量和HBM(图2),情况如下。

图片

图2 CoWoS结构和英伟达 GPU上的两个瓶颈

CoWoS 于 2011 年开发,但此后,随着 GPU 性能的提高,GPU 芯片的尺寸不断增大,GPU 中安装的 HBM 数量也随之增加(图 3)。结果,硅中介层逐年变大,而从单个晶圆上可获得的中介层数量却与之成反比减少。

图片

图 3 Interposer 面积和 HBM 数量随着每一代的增加而增加

此外,GPU中安装的HBM数量增加,HBM内部堆叠的DRAM芯片数量也增加。此外,DRAM每两年就会小型化一次,HBM标准每两年更新一次以提高性能。因此,尖端 HBM 供不应求。

在这种情况下,台积电将其硅中介层产能从2023年夏季前后的每月15,000片翻倍至今年夏季前后的每月超过30,000片。此外,三星电子和美光科技已获得英伟达认证,并开始供应尖端 HBM,此前由 SK 海力士主导。

受上述影响,需求量最高的英伟达 H100的交货时间从52周大幅缩短至20周。那么,AI服务器的出货量因此增加了多少呢?

两类AI服务器的定义

根据DIGITIMES Research发布的《全球年度服务器出货量,2023-2024》(Servers Report Database, 2024)显示,AI服务器有两种类型:

  • 配备两个或多个AI加速器但未配备HBM的系统称为“通用AI服务器”。

  • 配备至少四个配备HBM的AI加速器的系统被称为“高端AI服务器”。

这里的AI加速器是指为加速AI应用,特别是神经网络和机器学习而设计的特殊硬件,典型的例子就是英伟达的GPU。此外,ChatGPT级别的生成式AI的开发和运行需要大量高端AI服务器,而不是通用AI服务器。

那么,通用AI服务器和高端AI服务器的出货量分别是多少?

通用AI服务器和高端AI服务器出货量

图4显示了2022年至2023年通用AI服务器和高端AI服务器的出货量。预计2022年通用AI服务器出货量为34.4万台,2023年出货量为47万台,2024年出货量为72.5万台。

图片

图4 通用AI服务器和高端AI服务器出货量(2022-2024)

同时,ChatGPT级生成式AI开发和运营所需的高端AI服务器预计2022年出货3.4万台,2023年出货20万台,2024年出货56.4万台。

那么,高端AI服务器的出货量能否满足美国CSP的需求呢?

图5显示了服务器、通用AI服务器和高端AI服务器的出货数量。从服务器整体来看,无论是通用人工智能服务器还是高端人工智能服务器,出货量都非常少。

图片

图5 服务器、通用AI服务器、高端AI服务器出货量

当我研究开发和运行 ChatGPT 级别的生成式 AI 需要多少高端 AI 服务器时,我更加失望。

ChatGPT级别生成AI所需的高端AI服务器

据报道,ChatGPT 的开发和运营需要 30,000 台英伟达 DGX H100 高端 AI 服务器(图 6)。

图片

图6 运行ChatGPT需要多少高端AI服务器?

英伟达 DGX H100配备了八颗H100芯片,每颗芯片的价格已飙升至4万美元,使得系统总价达到46万美元。换句话说,生成 ChatGPT 级别的 AI 需要投资 30,000 台 x 460,000 美元 = 138 亿美元。

我认为世界上充斥着生成式人工智能系统,但实际上已经构建了多少 ChatGPT 类生成式人工智能?

图片

图7 服务器出货量、高端AI服务器出货量、ChatGPT级生成AI系统数量

由于2022年高端AI服务器出货量为3.4万台,因此只能构建一套ChatGPT级AI系统(这正是ChatGPT)。次年,即2023年,高端AI服务器出货量达到20万台,因此可以构建6到7个ChatGPT级AI系统。由于预计2024年将出货56.4万台高端AI服务器,因此将有可能构建18至19个ChatGPT级AI系统。

不过,上述估算假设ChatGPT级AI可以用3万台高端AI服务器“英伟达 DGX H100”构建。然而,由于一代 AI 可能变得更加复杂,在这种情况下可能需要超过 30,000 个 英伟达 DGX H100。综上所述,美国通信服务提供商不太可能对当前高端人工智能服务器的出货量感到满意。

现在,我们来看看每个最终用户(例如美国的 CSP)拥有多少台高端 AI 服务器。

最终用户的高端人工智能服务器数量

图 8显示了最终用户的高端 AI 服务器数量。2023年,拥有OpenAI的微软拥有最多的高端AI服务器数量,为6.3万台,但到2024年,谷歌将超越微软,拥有最多的高端AI服务器。

图片

2024 年排名前五的分别是谷歌,以 162,000 台(5 个系统)排名第一,微软以 90,000 台(3 个系统)排名第二,超微以 68,000 台(2 个系统)排名第三,亚马逊67,000台(2个系统)排名第四。最后是Meta,以46,000台(1个系统)排名第五(括号中的数字是ChatGPT类生成AI可以构建的系统数量)。由此可见,美国前五名光热发电企业垄断了约80%的份额。

接下来我们看看AI加速器出货的高端AI服务器数量(图9)。不出所料,英伟达的GPU是AI加速器使用最多的,2024年将达到33.6万台。然而,令人惊讶的是,第二受欢迎的公司不是AMD,而是谷歌。

图片

图9 按人工智能加速器划分的高端人工智能服务器(2023-2024)

谷歌开发了自己的张量处理单元(TPU)作为人工智能加速器。到2024年,搭载该TPU的高端AI服务器数量将达到13.8万台。这里,从图8我们知道,谷歌到2024年将拥有16.2万台高端AI服务器。因此,预计有 138,000 台配备了 Google 自家的 TPU,其余 24,000 台配备了 英伟达 的 GPU。换句话说,对于英伟达来说,谷歌既是客户,也是可怕的敌人。

另外,如果我们再看一下2024年的出货量,排名第三的AMD有4.5万台,排名第四的亚马逊则以4万台紧随其后。亚马逊还在开发 AWS Trainium 作为人工智能加速器。如果再等等,AMD可能会被亚马逊超越。

综上所述,目前,英伟达 的 AI 加速器出货量最多,但谷歌和亚马逊正在成为其强有力的竞争对手。英伟达的竞争对手不是处理器制造商AMD,而是美国谷歌和亚马逊。

全面的生成式人工智能热潮即将到来

让我们总结一下到目前为止的一切。根据 DIGITIMES Research 的一份报告,预计到 2024 年,能够开发和运行 ChatGPT 级生成式 AI 的高端 AI 服务器出货量仅占所有服务器的 3.9%。人们认为这个出货量根本无法满足CSP的需求。

也就是说,英伟达从2023年到2024年的“GPU狂热”只是一个开始。因此,未来可能会出现全面的生成式人工智能热潮。让我们在下面展示其基础。

图 10显示了半导体行业协会 (SIA) 发布的按应用划分的半导体市场及其未来预测。据SIA预测,2030年全球半导体市场规模将超过1万亿美元。

图片

图10 按应用划分的半导体出货量预测

截至 2030 年,最大的市场将是计算和数据存储。其中包括PC和服务器(当然还有高端AI服务器),但由于PC出货量不太可能大幅增加,因此服务器可能会占大多数。

有线通信是指用于数据中心的半导体。这意味着到2030年,计算和数据存储(3300亿美元)+有线通信(600亿美元)=总计3900亿美元将成为数据中心(包括PC)的半导体,成为全球最大的市场。

另一件值得关注的事情是数据中心市场及其前景,如图11所示。2022年ChatGPT发布后,数据中心市场预计将稳步增长。数据中心由三个要素组成:网络基础设施、服务器和存储,预计从 2023 年到 2029 年,服务器和存储将分别增加一倍左右。

图片

图11 数据中心市场展望

这样,服务器用半导体(包括高端AI服务器)将占据全球市场最大份额,数据中心市场也将扩大。

重复最后一次。到目前为止,英伟达 的“GPU 狂热”还只是刚刚开始。全面的生成式人工智能热潮即将到来。