ARM NEVERSE 路线图更新:CPU设计出炉,但大型GPU缺席

Arm Neoverse 数据中心计算路线图上刚刚添加了许多新功能,但数据中心级独立GPU加速器仍然缺席。另一大备受期待但仍无动静的则是矩阵数学加速器,如英特尔(以及 Habana Labs)、SambaNova Systems、Tenstorrent、Groq 或 Cerebras Systems 所创建的加速器。
考虑到英伟达目前凭借GPU技术优势对市场和利润空间的疯狂收割(事实上,英伟达差点成为Arm公司的实际持有者;如果当初其400亿美元收购Arm的交易获得全球监管机构的批准,那么很可能会在自家GPU上采用Arm的授权技术),整个世界无疑正在期盼Arm能够拿出一款更便宜的替代品,用以抵消英伟达现款“Hopper”H100/H200以及即将推出的“Blackwell”B100/B200独立GPU产品那恐怖的售价。事实上不光是英伟达,就连AMD的现款“Antares”Instinct MI300和将要投放市场的Instinct MI400独立GPU,也让客户们直呼越来越用不起。
至于为什么没有提到英特尔的独立数据中心 GPU,因为英特尔的 "Ponte Vecchio "Max 系列 GPU,除了阿贡国家实验室的 "极光 "超级计算机内的 GPU 外,并不是独立 GPU 领域的真正竞争者,但遗憾的是,如果英特尔现在就能生产一百万个 GPU,它就能卖出一百万个 GPU。
谷歌已经创建了自己的 TPU,亚马逊网络服务已经创建了自己的 Trainium 和 Inferentia,微软已经创建了自己的 Maia,Meta Platforms 也已经在开发自己的 MTIA 系列。就数据中心基础设施的收入而言,市场上有近一半的公司已经在做自己的事情,因此,试图构建新的 GPU 或矩阵架构的风险太大,否则 Arm 也会这么做。正因为存在这种风险,我们可以说,只有 Arm 能做这件事,并且有成功的希望。
如果非要说谁有勇气开发一款能与英伟达设备全面兼容的GPU,那我们也许能从当初IBM与Amdahl、富士通和日立之间的大型机市场对抗中找找答案——尽管经历多起反垄断诉讼,但IBM最终还是赢得了这场战争。英特尔和AMD也差不多,双方在数据中心x86架构上爆发过史诗级的对抗,直接搞得AMD几乎九死一生。
但可惜的是,看来 Arm 没有这个胆量。其他人也没有这个胆量。这正是因为大型机和 X86 架构的遭遇。
因此,Arm 控股公司(Arm Holdings)本身又是一家上市公司,而且由于股票浮盈和非理性繁荣而比其软银母公司更有价值,它将坚持其 CPU制造技术,并利用其 Neoverse CPU 设计抓住人工智能训练和推理的任何机会。
下面这张图来自Arm 2024 Neoverse路线图简报会,其中的内容已经清楚表明了一切:
图片
公平地说,上面的三个 CPU 都是基于 Arm 架构的,还有那些自制加速器,底部运行的三个 DPU 中至少有两个也是 Arm 架构的。2011 年,当 Arm 开始在数据中心大举进攻 X86 CPU 时,这样的图表简直就是梦幻。Arm CPU 在超级分频器和云构建商数据中心的崛起是绝对的成功。
数据中心中人工智能工作负载的复杂性和独特性需要更多。这时候可能会有人说,英伟达愿意为 Arm Holdings 支付 400 亿美元,就是为了阻止这家知识产权公司创造和授权杀手级 GPU,而这笔交易让 Arm 在英伟达看到 GenAI 浪潮来临的同时一直处于被动地位。
即使是 Arm 公司自己绘制的图谱,也为不同类型的数据中心工作负载提供了更多的性能向量:
图片
可惜,到了 2024 年,我们从 Arm Holdings 得到的更多信息是,随着路线图的扩展,Neoverse 内核类型将继续多种多样,而且高性能 V 级内核和 N 级内核将可获得计算子系统(或 CSS)许可包。
微软的128核Cobalt 100处理器已确定基于Gensis CSS N3设计,我们强烈怀疑传闻中的谷歌“Maple”Arm服务器CPU也将基于CSS计算子系统打造——比如说基于该许可协议的“波塞冬”V3核心或者“赫尔墨斯”N3核心。这在很大程度上取决于谷歌的目标和时间。我们认为,所有的超大规模企业和云计算构建商都将不可避免地在数据中心部署混合使用 N 核和 V 核的 Arm CPU,并在边缘部署 E 核。当然,他们也会混合使用 X86 处理器,而且这些处理器可能会在很长一段时间内成为主流 CPU。但是,变化有时会发生得很快,所以不要满足于自己的成就。
让我们深入了解一下 Neoverse CPU 路线图,先从 2022 年 9 月的路线图开始,因为老实说,它比 2024 年的路线图更详细:
图片
Neoverse 的努力至今已有 6 年,早在 2018 年 10 月开始时,它的想法是每年做一个新的核心和服务器平台,并通过台积电每年的制造工艺制造。2019年的Ares“阿瑞斯”平台采用7纳米晶体管蚀刻技术,2020年的Zeus“宙斯”则计划采用增强型7纳米工艺,2021年的“波塞冬”打算使用5纳米制程工艺。人们期望Arm 在可预见的未来,每一代产品的性能都能提高 30%,这部分是通过架构实现的,部分是通过功能实现的。
之后,Neoverse 路线图被划分为 N、V 和 E 三个内核,将这些内核投入实际应用需要更多的时间。例如,Poseidon V3 内核原本预计在 2021 年面世,后来在两年前的路线图中被修改为更模糊的 "2023+",而现在才面世。这些都需要时间,而真正推动 Neoverse 路线图的超大规模厂商和云计算构建商需要在主流的情况下按部就班地制定芯片计划,这确实打乱了供应链和计划。
我们认为,有了 Neoverse,Arm 及其客户今后的发展将更加顺利。
以下是去年的 Neoverse 路线图,供参考,该路线图与 CSS 一起发布,我们在其中添加了代号,以便更加清晰:
图片
英伟达最初部署的 Demeter V2 内核需要一个 CSS 包,但现在看来不会实现了。好消息是,正如 2024 年 Neoverse 路线图所示,Poseidon 内核及其 CSS 包现在已经可用,Hermes N3 内核及其 CSS 包也已可用:
图片
之前我们并不清楚N3和V3 CSS封装将有何代号,所以猜测如果Arm继续按《旧约》中Genesis“创世纪”的传统选择名称,那么答案很可能是Exodus“出埃及记”和Leviticus“利未记”。但现在真相揭晓,Arm选择的分别是CSS V3“Voyager”和CSS N3“Pioneer”。
在2024年的路线图上,Arm省去了X轴上的年份标记,因此我们不清楚后续“阿多尼斯”V4核心及其“Vega”CSS封装,包括再下一代“狄俄倪索斯”N4核心及其“Ranger”CCS封装,乃至后续“利西乌斯”E4核心的具体推出时间。Arm Neoverse部门高层承诺在未来提供更多细节。
以下是我们所知道的。CSS N3 软件包由 32 个 N3 内核组成,拥有一对 DDR5 内存控制器、一对 I/O 控制器和可选的芯片到芯片互连,以创建计算复合体。这样如果将两套封装计算复合体共同接入同一插槽,则可提供64个N3核心。这些N3核将根据最新Armv9.2规范构建而成。
虽然没有公布 N3 内核或 CSS N3 封装的工艺技术,但我们相信,台积电的 5 纳米和 3 纳米工艺技术以及三星和英特尔的类似工艺技术都是可以选择的。
图片
上述数据表明,N3 CSS 封装可以在 40 瓦的热设计点下提供 32 个内核,这强烈表明这种设计将在台积电的 3N 3 纳米工艺中处于领先地位。
根据 Arm 的说法,N3 封装可以缩小到 8 个内核,可能只需一个 DDR 控制器和一个 I/O 控制器。从之前的 2022 年 9 月路线图来看,我们会怀疑 N3 内核将被装入支持 DDR5 内存和 PCI-Express 6.0 外设控制器的封装中,并叠加 CXL 3.0 一致性。但如果图中所示的CSS V3封装属实,那么实际采用的可能仍是上代PCI-Express 5.0与CXL 2.0(我们仅做猜测,并非最终结论)。
我们不知道 N3 内核上的矢量单元有多宽,也不知道有多少个,但如果 N3 内核要在 CPU 上进行人工智能推理和一些人工智能训练,那么与 N2 内核相比,它们就必须得到加强,N2 内核有一对 128 位矢量,每个时钟可以进行四次 FP64 运算,然后再将其缩小,以实现混合精度性能。N3 内核可能还会增加一个适当的矩阵数学单元--张量内核,但 Arm 没有透露。
“波塞冬”V3核心也有望以类似的方式得到增强。从历史规律来看,其向量和矩阵运算能力应该会达到“赫尔墨斯”N3核心的两倍,但这同样只是猜测。“宙斯”V1核心采用双256位向量单元,“得墨忒耳”V2核心则改为四128位向量单元;二者每个时钟周期都能执行8次FP64运算,但V2核心的设计效率更高。这也让我们不禁好奇,V3核心将会朝哪个方向继续推进。采用四个256位向量单元的可能性不大,毕竟V1采取的就是这种设计;八128位向量单元就更怪了,因为英特尔在其“Sapphire Rapids”至强SP CPU中就是用这种方式建立起AMX矩阵数学单元。
图片
无论如何,CSS V3 的基本构件是 64 个 V3 内核、6 个 DDR% 内存控制器、4 个 PCI-Express 5.0 I/O 控制器和一对芯片到芯片互连。2022 年 9 月的路线图告诉我们,V3 代产品有望采用 PCI-Express 6.0 和 CXL 3.0。这在 V4 代和可能的 N4 代之前是不可能实现的。
根据 Arm 的说法,这种 CSS V3 复合物的性能比现有的 CSS N2 复合物高出 50%,在一个软件包中可以安装两个这样的复合物,从而在单个插槽中扩展到 128 个内核。我们很惊讶它不能扩展到 256 个内核,但这可能是 CSS 的限制,而不是 V3 架构本身。不过考虑到技术或者经济层面的现实意义,估计也不会有人选择单插槽256个V3核心的配置。
V3封装将支持DDR5内存或HBM堆叠内存,我们也一直在关注全球各大CPU厂商对于HBM内存的支持进展。毕竟只要成本不是问题(特别是在生成式AI如此火爆的当下),HBM内存给HPC和AI工作负载带来的增益可谓显而易见,厂商当然也愿意抓住这波机会。
Arm还特别强调,CSS V3封装的设计目标是与加速器紧密连接起来。至少从Grace-Hopper超级芯片复合体的设计思路来看,英伟达肯定非常重视这种直连能力。
图片
为了吊足大家的胃口,Arm 提供了 V2 内核与之前的 N1 和 V1 内核以及英特尔和 AMD 过去两代 X86 处理器的早期性能参数。一起来看看吧:
图片
下面是另一张图表,显示了在各种工作负载下,V3 与 V2 的对比情况,以及 N3 与 N2 的对比情况:
图片
Arm 尤其致力于提升 XGBoost 的性能,这是一种用于回归、分类和预测的经典机器学习算法。
为了好玩,Arm 还在一个相对较小的 LLaMA 2 大型语言模型上进行了人工智能推理基准测试,该模型只有 70 亿个参数:
图片
不过目前Arm尚未公布V3设计的性能数据。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。