最强AI芯片!AMD发布MI325X,性能超英伟达H200

图片

​今日,老牌芯片巨头AMD交出了一份令人印象深刻的AI答卷。

图片

美国时间10月10日,AMD在旧金山召开了Advancing AI发布会。这一次,他们带来了三款核心硬件产品:新版Instinct MI325X 、第五代EPYC 服务器和最新的第三代 DPU Pensando系列。

图片

这些新技术将于明年推出,AMD 承诺将在生成式 AI 性能方面树立新标准。这些技术是 AMD 持续进军数据中心芯片领域的一部分。AMD 在该领域已经抢占了长期竞争对手英特尔公司的市场份额,占据了 34% 的数据中心芯片收入。AMD 专注于让这些芯片更好地适应 AI。

“我们的目标是让 AMD 成为端到端 AI 的领导者,”首席执行官苏姿丰 (Lisa Su)在今天上午的活动主题演讲中表示。她列举了微软公司、Meta Platforms Inc.、Databricks Inc. 和甲骨文公司等 AI 领导者的高管,以及 Reka AI Inc.、Essential AI Labs Inc.、Fireworks AI 和 Luma AI Inc. 等初创公司的高管,他们对与 AMD 的合作大加赞赏。

AMD已迅速崛起,对英伟达公司在人工智能基础设施行业的主导地位构成了越来越大的威胁,其热销的 MI300X 人工智能芯片的成功正在进一步巩固其市场地位。该芯片于今年早些时候推出,预计将为该公司带来超过 40 亿美元的人工智能芯片销售额。

AMD 迄今为止最强大的 AI 芯片

AMD Instinct MI325X 基于该公司的 CDNA 3 架构,旨在实现超快的性能和更高的能效,以执行最苛刻的 AI 任务,包括训练大型语言模型、微调其性能和 AI 推理,然后由模型将结果提供给用户。

图片

MI325X加速器采用了 AMD CDNA 3 GPU 架构,配备 256GB 下一代 HBM3E 高带宽内存。内置 1530 亿个晶体管。它提供了 6TB/s 的内存带宽,在 FP8 和 FP16 精度下分别达到 2.6 PF 和 1.3 PF 的峰值理论性能。

与英伟达上一代的旗舰GPU 加速器H200相比,MI325X的内存容量更大(256Gvs141G),内存带宽也更高(6TB/s vs 4.8TB/s)。在算力方面,虽然英伟达官方宣称H200的FP16 算力可达1.9 PF,但经semianalysis实测,其实际算力约为1 PF,与H100持平,比MI325X低了30%。

图片

因此AMD MI325X在推理方面的表现平均超越H200 30%,与其算力比提升相符。保持了上一代的领先优势。

图片

由MI325X核心集成的GPU平台包含 8 个 MI325X。该平台总共提供 2TB HBM3E 高带宽内存,FP8 精度下的理论峰值性能达到 20.8 PF,FP16 精度下达到 10.4 PF。系统配备 AMD Infinity Fabric 互连技术,带宽高达 896 GB/s,总内存带宽达到了 48 TB/s。

图片

相比于H200的集成平台H200 HGX,MI325X平台提供1.8倍的内存量,1.3倍的内存带宽和1.3倍的算力水平。

图片

在推理方面能相较H200 HGX提升至多1.4倍的表现水平。

图片

AMD版GPU软件系统ROCm在过去一年内和主流AI开发平台的适配性一直在磨合期,这导致其训练效果有待提升。但这一年来AMD一方面加强升级ROCm,一方面与AI开发平台深度合作,总算是让它有了一倍左右的提升。

图片

这一提升的结果是,针对Meta Llama-2这种主流模型,MI325X的单GPU训练效率终于超越了H200。而在集群中,其训练效率仍和H200 HGX相当。

图片

MI325X预计将于 2024 年第四季度开始出货,与H200的大规模交付相差仅一个季度。鉴于目前英伟达遇到了B200和B100的封装瓶颈,规模发货被延迟,交付给OpenAI的也仅仅是工程样机。如果MI325X的发货规模能快速爬升,那理论上的代差就会被实际的出货情况抹平,MI325X在市场上的实际对手就是H200,而它还比H200性能稍高。

构建人工智能的网络基础

AMD 打算将最新的 Instinct 加速器与新的网络技术相结合,包括 AMD Pensando Salina DPU 和 AMD Pensando Pollara 400,后者声称这是业界首款支持超级以太网的 AI 网络接口卡。新技术对于连接 AMD 的新 AI 加速器并确保足够的吞吐量以共享数据至关重要。

图片

图片

AMD Pensando Salina DPU 代表 AMD 网络的前端,负责将数据传送至 Instinct 加速器集群,而 AMD Pensando Pollara 400 则代表后端,负责管理各个加速器和集群之间的数据传输。这两款产品将于明年初上市。

Pensando Salini DPU 是其 DPU 系列的第三代产品,性能是其前代产品的两倍,可用带宽和规模增加了一倍以上。总而言之,它支持 400G 吞吐量,确保数据中心有史以来最快的数据传输速率。因此,它将成为 AI 前端网络集群的关键组件,帮助优化 AI 应用程序的性能、效率和可扩展性。

在发布会上,AMD 网络技术与解决方案事业部高级副总裁兼总经理、AMD于 2022 年收购的 Pensando Systems Inc. 联合创始人 Soni Jiandani强调了网络的重要性。她解释说,AI 系统需要为用户连接网络的前端,而在后端则必须连接到数千个 GPU 以确保性能。

“后端网络推动着 AI 系统的性能,”她说。“Meta 表示,其训练周期的 30% 时间通常都在等待联网时流逝。因此,联网不仅至关重要,而且是推动 AI 性能的基础。”

IDC 分析师 Brandon Hoff 对此表示同意。他解释说:“AI 工作负载,尤其是生成性 AI 工作负载,是第一个能够消耗服务器节点中的所有计算、内存、存储和网络的工作负载。AI 还可以扩展到单个 AI 工厂节点之外,这需要所有 GPU 相互通信。”

因此,他补充道,“AI Factory 节点之间的通信时间称为‘网络时间’,最多可占训练或多节点推理 AI 运行处理时间的 60%。换句话说,如果超大规模企业在 GPU 上花费 10 亿美元,他们完成了 4 亿美元的工作,而 6 亿美元的 GPU 处于闲置状态。高性能网络至关重要,也是第二重要的部分。”

因此,对于 AMD 来说,他说:“拥有一套强大的网络产品是打造其 AI 业务的重要组成部分。这些是适合 DPU 和 SmartNIC 的产品,而以太网是值得投资的正确技术。”

Bajarin 表示,AMD 在网络技术方面取得了长足进步。“我认为,AMD 能够通过收购 ZT 系统将这一技术融入到其针对机架进行优化的全栈方法中,那么他们的网络技术就会变得更加重要,”他说。

未来 GPU 正在研发中

Salina DPU 和 Pollara 400 也将于明年初推出,但在公司等待这些技术面世的同时,他们至少可以展望未来的发展。

除了即将推出的新芯片和网络技术之外,AMD 还预览了其下一代芯片 AMD Instinct MI350 系列加速器,预计将于明年下半年推出。

图片

图片

据 AMD 介绍,Instinct MI350 将基于该公司的 CDNA 4 架构打造,与 Instinct MI325X 相比,在推理性能方面实现了令人难以置信的 35 倍提升,同时提供 288GB 的HBM3E 内存。

该公司还提到了新的 MI355X 加速器芯片计划,预计将于 2025 年底开始批量出货,随后是基于全新架构的 MI400 芯片,将于 2026 年某个时候推出。

下一代 EPYC 服务器芯片

尽管大家都在关注人工智能,但 AMD 无意放松对数据中心服务器市场的广泛进攻。在此次活动中,该公司还推出了最新的 EPYC 中央处理器,以前代号为“Turin”,旨在满足企业、人工智能和云工作负载的需求。

图片

第五代 AMD EPYC 系列处理器将基于该公司的 Zen 5 核心架构,该公司旨在提供各种核心数量以满足不同的使用情况,从最低 8 个核心到最高 192 个核心,以满足最苛刻的工作负载。

该公司承诺,第五代 EPYC 芯片将以现有的第四代 EPYC 平台的性能为基础,其最大的 192 核 EPYC 9005 系列的性能比其现有最强大的芯片高出 2.7 倍。同时,新的 64 核 EPYC 9575F 是针对 GPU 驱动的 AI 工作负载定制的,性能高达每秒 5 千兆位,处理速度比竞争芯片快 28%。

AMD 服务器业务高级副总裁兼总经理 Dan McNamara 表示,客户可以信赖该公司的性能声明。“凭借五代按时执行的路线图,AMD 已证明它可以满足数据中心市场的需求,并为客户提供数据中心性能、效率、云、企业和 AI 工作负载解决方案和功能的标准,”他说。

适用于 PC 的 Ryzen AI Pro 芯片

最后,AMD 透露即将推出第三代移动处理器笔记本电脑和笔记本。新款Ryzen AI Pro 300 系列处理器采用先进的四纳米工艺制造,据称功能强大,足以支持设备上的 AI 工作负载,例如生成式 AI 副驾驶、实时字幕和 AI 翻译。与上一代Ryzen 芯片相比,它们的 AI 性能提高了三倍,并为企业用户提供了高级安全性和可管理性功能。

与最新的 EPYC 芯片一样,新款 Ryzen 处理器基于 AMD 的 Zen 5 架构,与英特尔 Core Ultra 7 165U 相比,它们的性能提升高达 40%,生产效率提升高达 14%。该公司补充说,它们还将“显著”延长设备的电池寿命。

此外,AMD 表示,它们还配备集成的神经处理单元,可提供每秒 50 万亿次运算的 AI 处理能力,超过微软公司对其 AI 驱动的 Copilot 工具的要求。

AMD 计算和图形事业部高级副总裁兼总经理 Jack Huynh 表示,PRO 300 系列旨在满足企业对商用机器更高计算能力和效率日益增长的需求。“我们第三代支持 AI 的商用电脑处理器具有前所未有的 AI 处理能力、超长的电池寿命和与用户所依赖的应用程序的无缝兼容性,”他说。

Creative Strategies 的 Bajarin 表示,最重要的是“数据中心正在经历一场彻底的变革,我们仍处于变革的早期阶段,因此在未来 10 多年的时间里,这仍然是一个开放的竞争领域。我不确定我们能否肯定地说这段时间内情况会如何,但最重要的是,有大量的市场份额和资金可供 AMD、Nvidia 和 Intel 忙个不停。”

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。