深度|GPU泡沫破裂,H100亏本出租,AI行业发生了什么?

全文6579字,阅读约需19分钟,帮我划重点

划重点

01NVIDIA H100 GPU 租赁价格持续下降,每年降幅达到或超过40%,尤其在小型集群上。

02开放权重模型的兴起引发AI市场根本性转变,推动企业和开发者对AI模型的选择和使用方式发生变化。

03由于微调现有模型比从头训练新模型更加经济实惠,小型和中型模型创建者市场正在经历显著萎缩。

04然而,H100 GPU的价格正在快速商品化,甚至出现以亏损价格出租的情况,引发业界对GPU投资回报率的担忧。

05专家建议,对于投资H100硬件或其他AI基础设施的公司,应考虑在其他地方投资或投资股市指数以获得更好的回报率。

以上内容由腾讯混元大模型生成,仅供参考

图片

图片来源:英伟达官网

Z Highlights
  • H100 GPU 的租赁价格正在经历前所未有的下降,每年降幅达到或超过 40%。这一趋势尤其明显地体现在小型集群上。NVIDIA 曾预计在 4 年内保持每 GPU 每小时 4 美元的价格,但这一预测价格在短短 1.5 年内就已经达到。
  • 开放权重模型的崛起正在引发 AI 市场的根本性转变。这些模型在性能上已经可以与闭源模型相媲美,同时提供了更高的灵活性和可控性。这一趋势正在重塑企业和开发者对 AI 模型的选择和使用方式。
  • 小型和中型模型创建者市场正在经历显著萎缩,主要是因为微调现有模型比从头训练新模型更加经济实惠。这一变化导致了对 H100 GPU 需求的三重打击:减少了大规模训练的需求,降低了新模型创建的投资,并推动了更多企业转向微调现有模型。
  • H100 GPU 的价格正在快速商品化,甚至出现了以亏损价格出租的情况。这种趋势引发了业界对 GPU 投资回报率的担忧,同时也为 AI 开发者和研究人员提供了更经济的计算资源选择。
大跳水的 GPU 租赁市场

在过去的一年里,如果你有机会租到 H100,它的价格是一小时 8 美元。而现在,已经有 7 家零售市场以低于 2 美元每小时的价格销售它。发生什么了?

最近英伟达为 OpenAI 提供的最新 Blackwell 系列芯片引发了许多关注。该公司表示,未来一年的预售产品已经售罄。而黄仁勋宣称,该产品或可成为“工业史上最成功的产品”。随着 Lisa Su(ZP注:苏姿丰,AMD 公司董事长兼 CEO)紧随其后宣布为 MI3 25 X 和 Cerebras 申请 IPO 上市,是时候对 GPU 市场进行深入分析了。

我们对这个 6000 亿美元的问题有答案吗?现在人们一致认为,基础模型训练的资本支出是“历史上贬值最快的资产;但对 GPU 基础设施支出的评价尚未有定论,“GPU Rich Wars”激战正酣。与此同时,我们现在知道,前端实验室在“训练+推理”上的支出超过了收入,在有史以来最大的风险投资轮中融到了 66 亿美元,同时预计 2026 年将亏损 140 亿美元。其中的金融逻辑需要 AGI 来解析。

图片

图片来源:Latent Space

AI 竞赛简史

ChatGPT 于 2022 年 11 月推出,基于 A100 系列构建。H100 于 2023 年 3 月上市。向投资者和创始人的宣传很简单:与 A100 相比,新款 H100 的功能强大 3 倍,但标价仅为 2 倍。

如果你能比其他人更快地提高 H100 的使用量,你也可以构建更大、更好的模型,甚至可能超越 OpenAI 成为 AGI——前提是你的有足够的资金支持它烧钱。出于这种愿望,百亿至千亿美元级别的资金被投资到拥有大量 GPU 的 AI 初创公司,以构建下一场革命。这导致的以下结果:

H100 需求突然激增,H100 最初的租金起价约为每小时 4.70 美元,但后来涨到了 8 美元以上。急于训练模型的创始人们只能说服投资者进行下一个 1 亿美元的融资轮。

图片

图片来源:Latent Space

对于 GPU 供应商来说,如果这些创始人能以每小时 4.70 美元或更高的价格租用 H100 SXMGPU,甚至让他们预先付款,这简直就是在白送钱。投资回收期为 <1.5 年,在这之后每个 GPU 每年的自由现金流超过 10 万美元。由于对 GPU 需求看不到尽头,投资者同意了,并进行了更大规模的投资。

6000 亿美元投资

与数字商品不同,H100 这样的实体商品存在滞后时间——特别是当出现多个环节运输延误时。在 2023 年的大部分时间里,除非支付巨额预付款,H100 的价格一直在每小时 4.70 美元之上。然而,2024 年初多家提供商的 H100 价格达到约 2.85 美元。

图片

图片来源:Latent Space

2024 年 8 月,如果你愿意拍卖买下一小部分 H100 时间(几天到几周),你可以开始以每小时 1 到 2 美元的价格寻找 H100 GPU。Eugene Cheah 预计每年价格下降 >= 40% ,特别是对于小型集群。英伟达的营销预测是 4 年内每 GPU 小时 4 美元,但不到 1.5 年就达到了。这很可怕,因为这意味着有人可能会被迫承担后果——特别是如果他们刚刚购买了新的 GPU。

价值 5 万美元的 H100 SXM GPU 投资回报率是多少?

数据中心中的 H100 SXM GPU 的平均安装、维护和运营成本为 5 万美元或更多(也称为大部分资本支出)。不包括电力和冷却 OPEX 成本。我们现在假设 GPU 本身的使用寿命为 5 年。

一般来说,租赁 H100 有两种商业模式:
  • 短期按需租赁(按小时、按周或按月)
  • 长期预订(3-5 年)
图片

图片来源:Latent Space

总之,对于按需工作负载
  • >$2.85 :击败股市 IRR
  • <$2.85 :股市 IRR 损失
  • <$1.65 :预计投资损失
对于上述投资回报率和收入预测,Eugene Cheah 引入了“混合价格”,去假设租金价格在 5 年内逐渐下降至 50%。鉴于我们现在看到的每年 >= 40% 的价格下跌,这可以说是保守的估计。即使以 4.50 美元/小时的价格混合,我们也能看到英伟达数据中心提供商的宣传,他们在提供 20+% 的 IRR(内部回报率)。

然而,以 2.85 美元/小时计算,IRR 刚刚开始高于 10%。这意味着,如果你今天购买一台新的 H100 ,并且市场价格低于 2.85 美元/小时,假设 100% 分配(这是一个不合理的假设),你几乎无法击败市场。任何低于这个价格的东西,作为投资,你最好选择股票市场,而不是 H100 基础设施公司。

如果价格低于 1.65 美元/小时,作为基础设施提供商,你在 5 年内注定会在 H100 上遭受损失。特别是如果你今年刚刚购买了节点和集群。

图片

图片来源:Latent Space

许多基础设施提供商,尤其是较老的基础设施提供商,对此早有准备。因为他们在加密货币时代经历了价格大幅上涨之后,直接面临 GPU 租金价格的大幅下跌——他们以前见过这个周期。

因此,在去年的这个周期中,他们大力推动 3-5 年的预付款承诺和/或以 4 美元以上的价格范围付款(通常预付 50% 到 100%)。如今,他们将价格范围推高至 2.85 美元以上来锁定利润。

这种情况在 2023 年人工智能高峰期间发生,各种基础模型公司,特别是在图像生成领域,间接被迫签订高价的 3-5 年合同,只是为了进入新集群的前沿,并成为第一个制作目标模型的人,以帮助完成下一轮融资。这可能不是最经济的举措,但它让他们比竞争对手更快地行动。

然而,这导致了一些有趣的市场动态——如果你为 H100 支付每小时 3 或 4 美元的费用,那么在接下来的 3 年里,你将被合同套牢。当模型创建者完成模型训练后,你就不再使用集群了。他们会做什么?他们转售并开始收回部分成本。

目前的 H100 价值链
从硬件到 AI 推理/微调,可以大致视为以下几个方面:
  • 与英伟达合作的硬件供应商(一次性购买成本)
  • 数据中心基础设施提供商和合作伙伴(出售长期预订、设施空间和/或 H100 节点)
  • 风险投资基金、大型公司和初创公司:计划构建基础模型(或已经完成模型构建)
  • 托管人工智能推理/微调提供商:使用上述组合。
虽然堆栈中的任何一层都可以垂直整合(例如跳过基础设施),但这里的关键驱动因素是“未使用容量的经销商”以及“足够好”开放权重模型(如 Llama3)的兴起,因为它们都是当前 H100 经济压力的主要影响因素。
图片

图片来源:Latent Space

开放权重模型的兴起,与闭源模型不相上下,正在导致市场发生根本性转变。

市场趋势:开放权重模型的兴起

↑↑AI 推理和微调的需求增加

因为许多“开放”模型缺乏适当的“开源”许可证,但可以自由分发,并广泛使用,甚至商业化。我们在这里将它们统称为“开放权重”或“开放”模型。

一般来说,随着不同规模的多个开放权重模型的建立,对推理和微调的需求也在增长。这主要是由两个重大事件推动的
  • GPT4 级开放模型的到来(例如 405B LLaMA3、DeepSeek-v2)
  • 小型(~8B)和中型(~70B)微调模型的成熟和采用
如今,对于企业可能需要的绝大多数用例,已经有现成的开放权重模型。在某些基准测试中,这可能比专有模型落后一小步。具有以下优势:
  • 灵活性:领域/任务特定的微调
  • 可靠性:不再有较小的模型更新,破坏用例(目前社区信任度较低,认为模型权重不会在没有公共 API 端点通知的情况下悄悄更改,从而导致无法解释的回归)
  • 安全和隐私:确保他们的提示和客户数据的安全。
所有这些导致了开放模型的持续增长和采用,以及对推理和微调需求的增长。但这确实造成了另一个问题。
小型和中型模型创建者的复合式崩溃

↓↓ 基础模型创作者市场萎缩(中小型)

我们使用'模型创建者'统称从头开始创建模型的组织。对于微调者,我们称之为'模型微调者'。

许多企业和多个小型和中型基础模型创建者初创公司 - 特别是那些以'更小、专门针对特定领域的模型'为宣传点筹集资金的公司 - 都是没有长期计划/目标从头训练大型基础模型(>= 70B)的群体。

对于这两个群体,他们都意识到微调现有的开放权重模型比'自行训练'更经济、更有效。这最终造成了 H100 需求减少的三重打击。

1.微调比从头开始训练要便宜得多

a.因为与从头开始训练(对于 7B 及以上模型,从 16 个节点,通常更多)相比,微调的计算要求显着减少(通常为 4 个节点或更少,通常为单个节点)。

b.这种全行业的转变基本上消除了大部分较小集群的需求。

2.缩减基础模型投资(中小型)

a.2023 年,在文本和图像空间内,出现了一股中小型基础模型的巨大浪潮。

b.然而,今天,除非你绝对有信心能够超越 llama3,或者你要带来一些新的东西(例如新架构、低 100 倍的推理、100 多种语言等),否则〜不会再建立更多的基础模型从头开始。

c.一般来说,由较大参与者(Facebook 等)创建的中小型开放模型,使得较小参与者很难证明训练基础模型的合理性。除非他们有强大的差异化因素(技术或数据) ,或者有计划扩展到更大的模型。

d.最近投资者也反映了这一点,因为新基础模型创建者的资金急剧下降。绝大多数较小的团体已转向微调(这种情绪与近期多家公司的退出情况不甚理想相结合)。

e.据 Eugene Cheah 估计,目前全世界大约有:

▪<20 大型模型创建团队(又名 70B++,也可以创建小型模型)

▪<30 中小型模型创建团队 (7B - 70B)

f.总共全球不到<50 个团队会在任何时候需要 16 个节点的 H100(或更多)来进行基础模型训练。

g.全球有超过 50 个拥有 16 个以上节点的 H100 集群。

3.预留节点的过剩容量即将上线

a.对于集群所有者来说,尤其是各种基金会模式的初创公司和 VC,在 2023 年的最初“抢地”中,早有保留。

b.切换到微调后,H100 的等待时间非常长(峰值为 >= 6 个月),很可能这些团体中的许多人在进行更改之前就已经支付了预付款,从本质上来说,他们的预付费硬件“一到就过时”。

c.或者,那些按时到达硬件来训练他们的前几个模型的人也意识到,最好对他们的下一个模型迭代进行微调。而不是自己建设。

d.在这两种情况下,他们都会有未使用的容量,这些容量通过“计算经销商”加入市场供应而上线。

导致供应增加和训练需求减少的其他因素

1.大型模型创作者退出公有云平台

所有主要的模型创建者,如 Facebook、X.AI,以及可以说 OpenAI(如果将其算作微软的一部分),都正在离开现有的公共提供商,建立自己的数十亿美元集群,减少了现有集群所依赖的需求。此举主要出于以下原因:
  • 现有的约 1000 个节点集群(建设成本>5000 万美元)对他们来说已经不够大,无法训练更大的模型。
  • 在十亿美元的规模上,会计人员最好购买具有账面价值(公司估值和资产的一部分)的资产(服务器、土地等),而不是纯粹的费用租赁。
  • 如果你没有人才(他们有),你可以直接购买小型数据中心公司,他们拥有为你构建数据中心的专业知识。
随着需求逐步减少,这些集群反而开始向公共云市场开放。
图片

图片来源:Latent Space

2.未使用/延迟供应上线

还记得 2023 年所有 H100 的大规模出货延迟,长达 6 个月或更长时间吗?它们现在与 H200、B200 等一起上线。这与前面提到的现有初创公司、企业或风投公司的各种未使用计算资源一起上线。其中大部分是通过计算经销商完成的,例如:together.ai、sfcompute、runpod、vast.ai 等。

在大多数情况下,集群所有者拥有一个未得到充分利用的小型或中型集群(通常为 8-64 个节点)。集群的资金已经'花出去了'。由于主要目标是收回尽可能多的成本,他们宁愿削弱市场并保证分配,而不是与主要提供商竞争,并且可能没有分配。这通常是通过固定利率、拍卖系统或自由市场上市等方式完成的。后两者会推动市场价格下跌。

3.更便宜的 GPU 替代品(特别是用于推理)

另一个主要因素是,一旦你离开训练/微调领域,推理领域充满了替代选择,特别是如果你运行的是较小的模型。人们无需支付 H100 的 Infiniband 和/或英伟达带来的的溢价。

a)英伟达市场细分

H100 用于训练的溢价已经计入硬件价格。例如,英伟达自己推荐 L40S,这是一个更具价格竞争力的推理替代品。

图片

图片来源:Latent Space

L40S性能是H100的1/3,价格是 1/5。但在多节点训练中表现不佳。在这个细分市场上削弱了他们自己的 H100。

图片

图片来源:Latent Space

b) AMD 和 Intel 替代供应商

AMD 和 Intel 虽然在 MX300 和 Gaudi 3 方面进入市场较晚。

这些系统它们一般是:
  • 购买成本比 H100 便宜
  • 比 H100 拥有更多的内存和计算能力,并且在单个节点上的性能优于 H100。
  • 总的来说,它们都是很棒的硬件。
缺点是什么?它们在训练中存在一些小的驱动问题,在大型多节点集群训练中完全未经验证。正如我们所讨论的,这对当前的格局来说基本上无关紧要。除了<50 个团队之外。H100 的市场已经转向推理和单节点或小集群微调。

所有这些 GPU 都已被证明可以胜任这些工作。对于绝大多数市场所要求的用例来说。这两个竞争对手是完全的替代品。使用现成的推理代码(例如 VLLM)或最常见模型架构的微调代码(主要是 LLaMA3,其次是其他)。所以,如果你已经解决了兼容性问题。强烈推荐大家去看看。

c) 加密货币/Web3 领域 GPU 使用的下降

ASIC 主导了比特币挖矿竞赛。加密货币挖矿中的 GPU 使用量一直呈下降趋势,并且在某些情况下无利可图。此后一直涌入 GPU 公有云市场。

尽管由于硬件限制(低 PCIe 带宽、网络等),绝大多数 GPU 无法用于训练,甚至无法用于推理。该硬件已经大量涌入市场,并已被重新用于人工智能推理工作负载。在大多数情况下,如果你的模型小于 10B,你可以用这些 GPU 获得不错的开箱即用性能,价格非常低。如果你进一步优化(通过各种技巧),你甚至可以让大型 405B 模型在这种硬件的小型集群上运行,比通常使用的 H100 节点更便宜

H100 正变得便宜,甚至亏本出租,可能的影响是什么?

1.中性影响:H100 集群价格细分

从较高水平来看,预计大型 GPU 集群仍会收取额外费用(>=2.90 美元/小时),因为那些真正需要它的人别无选择。我们开始在 Voltage Park 看到这种趋势:

图片

图片来源:Latent Space

带有 Infiniband (ZP 注:无线带宽技术,下同)的集群收费较高。虽然基础模型创建团队对它的需求普遍下降,但很难预测这种需求是否会随着开放权重和替代架构的增长而复苏。

预计将来我们将看到按集群大小进行进一步细分。采用 Infiniband 的大型 512 节点集群的每 GPU 费用可能高于 16 节点集群。

2.负面影响:新的公有云 H100 集群虽然推出,但已经落后于市场,可能无法盈利——一些投资者可能会遭受损失。

有很多因素对你不利:
  • 如果你将其定价低于 2.25 美元(具体取决于你的运营支出),你可能会面临无利可图的风险。
  • 如果你定价太高 >= 3 美元,你可能无法吸引足够的买家来填补产能。
  • 如果你进入较晚,就无法在早期每小时 4 美元的时期收回成本。
总体而言,这些集群投资对于主要利益相关者和投资者来说将是艰难的。

虽然情况并不一定如此,但如果新的集群占据了人工智能组合投资的很大一部分。我们可能会看到焦头烂额的投资者对融资生态系统产生额外的连锁反应。

3.中性影响:购买长期租约的中型到大型模型创建者已经以溢价提取了价值

与其说是负面展望,不如说是中性展望,一些未使用计算资源的基础模型创建者上线的计算资源已经付费。融资市场已经为这个集群及其模型训练定价并支付了费用。并'提取了它的价值',他们用于当前和下一轮融资。大多数这些购买是在计算资源转售商流行之前进行的,成本已经计入价格。

如果有的话,他们目前从多余的 H100 计算资源中获得的收入,以及我们获得的较低价格,对双方都有利。如果是这样,负面的市场影响是最小的,总的来说对整个生态系统是净正面的胜利。

4.正面影响:廉价的 H100,可以加速开放权重 AI 的采用浪潮

鉴于开放权重模型已经进入 GPT-4 级别的领域。H100 价格下降将成为开放权重 AI 采用的倍增解锁因素。

对于业余爱好者、AI 开发人员和工程师来说,运行、微调和修改这些开放模型将变得更加负担得起(特别是如果 GPT5++ 没有重大飞跃)。这是非常需要的,因为目前市场是不可持续的。因为在应用层面缺乏对付费用户的价值捕获(这会传递到平台、模型和基础设施层)由于付费用户缺乏应用程序层的价值捕获(这会渗透到平台、模型和基础设施层)

在某种程度上,如果每个人都在制造铲子(包括我们),而没有建立有付费用户的应用程序(并收集收入和价值)。但当 AI 推理和微调变得比以往任何时候都便宜时。它可能会引发 AI 应用浪潮。如果它还没有缓慢开始的话。

结论:不要购买全新的 H100

购买新的 H100 硬件的支出可能会造成亏损。除非你拥有打折的 H100、打折的电力,或者你需要一个超大型 GPU 集群。如果你正在投资,请考虑在其他地方投资,或者投资股市指数本身以获得更好的回报率。

原文:$2 H100s: How the GPU Rental Bubble Burst

https://www.latent.space/p/gpu-bubble

编译:Shizheng Cao