行业观察 | 大模型竞争加剧,阿里云加码AI大基建

全文5020字,阅读约需15分钟,帮我划重点

划重点

01大模型竞争加剧,阿里云加大AI大基建投入,推出更高效的计算体系。

02阿里云CEO吴泳铭表示,大模型技术快速迭代,推理成本指数级下降,已远超摩尔定律。

03由于大模型竞争,微软、亚马逊、谷歌等科技公司在2024年上半年资本支出增速高达75%。

04然而,大模型推理价格降价对于处于发展早期的AI大模型产业是有意义的,有望推动AI应用创新。

05专家预测,未来中国市场将只有3家-5家基础模型厂商能继续活下去,持续降低的算力成本和模型价格将推动AI应用生态逐渐繁荣。

以上内容由腾讯混元大模型生成,仅供参考

图片



大模型后续投入需要更大的算力支出,更低的模型价格,更高的技术门槛。这意味着,淘汰赛已经开始了



文 | 吴俊宇 
编辑 | 谢丽容

大模型竞争正在加剧。2023年之前,1万枚AI(人工智能)芯片的数据中心是基础大模型的入场券。2024年以后,基础大模型有朝着10万枚AI芯片为基础的方向演进的趋势。
在这一背景下,微软、亚马逊、谷歌、阿里等拥有云计算业务的科技公司都在加大投入力度。
大模型是“吞金兽”。硬件层面,它需要巨额资本支出用于采购芯片和服务器,租赁土地建设数据中心。软件层面,它需要持续消耗算力进行模型训练、迭代。这带来的直接结果是,微软、亚马逊、谷歌、阿里这几家公司的资本支出增速在大幅增长。
微软、亚马逊、谷歌2024年上半年资本支出总和高达486亿美元,同比增长75%,达到了2019年以来的最高峰。阿里集团财报显示,阿里2024年上半年资本支出232.4亿元,同比增长123.2%。阿里2024年上半年资本支出增速也达到了2019年以来的高峰。

图片

国际市场调研机构Gartner数据显示,阿里云目前是全球第四大云厂商,份额为7.9%,仅次于微软、亚马逊、谷歌。作为一家中国云厂商,它在大模型浪潮中的动作尤其值得关注。
阿里云为何要采取如此大力度进行AI投资?阿里云的AI基础设施投资还会持续多久?9月19日,阿里集团CEO(首席执行官)、阿里云智能董事长兼CEO吴泳铭在云栖大会上对此表达了几个重要判断。
其一,过去22个月,AI发展速度超过其他历史时期,目前依然处于大模型变革早期。大模型技术快速迭代,技术可用性大幅提升。模型推理成本指数级下降,已远超摩尔定律。推理成本是应用爆发的关键,阿里云会努力降低成本。全世界先进模型竞争的投入门槛,将达到数十亿、数百亿美元的级别。
其二,CPU(中央处理器)主导的计算体系,正在加速向GPU(图形处理器)主导的AI计算体系转移。新增算力市场,超过50%的新需求由AI产生,这一趋势还在扩大。所有行业都需要性能更强、规模更大、更适应AI需求的基础设施。过去一年,阿里云投资新建了大量的AI算力,仍不能满足客户需求。
吴泳铭表达了阿里继续加码AI算力投入的决心。他直言,新技术早期渗透率比较低,大部分人本能会产生怀疑,这很正常。但新技术会在怀疑中成长,让很多人在迟疑中错过。阿里云正在少有的高强度投入AI技术研发和基础设施建设。
阿里2025财年一季度(即2024年二季度)财报电话会中,阿里管理层曾披露,未来几个季度,预计将继续保持高增速的人工智能资本支出。

图片
加码算力投入

发展大模型需要持续的AI算力投入。这些投入甚至不只是一次性支出,而是持续多年支出。因为大模型要迭代性能升级,每一代模型参数量、数据量都会更大,需要消耗更多的算力。
今年9月,多位云厂商基础设施技术人士对我们表示,万卡(1万枚AI芯片)只是大模型的入场券。目前下一代大模型的算力消耗正在朝10万卡方向演进,后续算力投入只会更高。能持续投入的厂商会逐步减少,最终只有少数几家头部厂商继续参与长跑。
以英伟达A100/A800系列AI芯片为例,单卡价格超过10万元。万卡集群仅AI芯片采购成本就超过10亿元,一座万卡智算中心基建成本超过30亿元。能承受如此高成本的企业寥寥无几。

图片

巨额算力投入已经体现在科技公司的资本支出中。随着大模型竞争加剧,拥有云计算业务的主要科技公司(如微软、亚马逊、谷歌等)都在加码AI算力的投入。这使得它们的资本支出在高速增长。
正常情况下,科技公司的资本支出增速通常在20%左右。但2024年上半年,微软、亚马逊、谷歌的资本支出分别是330亿美元、303亿美元、252亿美元,分别增长了78%、32%、91%。微软2024财年四季度(即2024年二季度)财报电话会披露称,当季190亿美元资本支出几乎全部用于算力投入。微软、亚马逊、谷歌管理层均在2024年二季度财报电话会中表示,2024年全年资本支出将维持高速增长的趋势。

图片

阿里的算力投入也在加速,增速不逊色于国际厂商。
我们统计了阿里集团2019年之后的资本支出情况。2019年一季度-2024年二季度,阿里每个季度的资本支出平均增速是15%。随着AI算力投入加快,阿里2024年上半年资本支出232.4亿元,同比增长123.2%。其中2024年一季度资本支出111.5亿元,同比增长高达220.4%。阿里近半年的资本支出增速,也达到了2019年以来的顶峰。
阿里高强度的AI算力投入正在取得初步成效。2024年二季度,阿里云营收265.5亿元,同比增长5.9%。阿里管理层在财报后的电话会议中披露,阿里云的公共云收入正在保持两位数增长,AI相关产品收入保持三位数增长。预计阿里云下半年的收入增速还将进一步提升。
在大模型竞赛中,算力资源的多寡很重要,算力效率的高低更重要。大模型在训练阶段、推理阶段都会大量消耗算力。前者主要影响模型厂商的模型生产成本,后者影响企业客户的使模型用成本。
周靖人在本次云栖大会上展示了阿里云AI基础设施的全貌。在他看来,云厂商需要通过计算、网络、存储等技术协同升级,提升计算效率。
提升算力效率,首先要提升大模型的训练效率。一个AI算力集群,一般由千卡、万卡组成。算力集群越大、芯片数量越多,故障率也会因此提升。大模型的训练是千卡、万卡的同步任务,一张卡出现故障就会影响整个集群的运作。
一位云厂商基础设施技术人士今年9月对我们表示,AI算力集群的中断时间和集群规模成正比。他提到一个公式——有效AI算力=单卡算力有效率×并行计算有效率×有效训练时间。其中每一项都是乘积关系,任何一项的表现有细微偏差,都会对整体算力利用率产生系统性影响。一般千卡集群的有效训练时长是99%,但万卡集群的有效训练时长会降低到90%,目前十万卡集群的有效训练时长甚至接近0%。
他直言,目前部分企业算力利用效率很低。一些企业在训练大模型时,算力有效利用率甚至不足50%。大量昂贵且稀有的AI算力被浪费了。
阿里云CTO(首席技术官)周靖人9月19日在云栖大会宣布,目前阿里云的万卡算力集群可以实现大于99%以上连续训练有效时长,模型算力利用率可提升20%以上,可支持单集群十万卡级别AI算力规模。
提升大模型训练效率之后,还需要持续提升大模型推理效率——这会直接影响企业使用大模型的成本。
过去两年大模型的发展遵循着Scaling Law(OpenAI在2020年提出的定律,直译为“缩放定律”)——模型性能主要与计算量、模型参数量和训练数据量三者大小相关。
一位云厂商大模型业务核心负责人提到,云厂商的核心原则是在Scaling Law的约束下提升数据质量、数量,适当降低模型参数;还可以采用MoE(Mixture of Experts,一种模型设计策略,通过混合多个专业模型,获得更好性能)架构提升模型性能、降低推理成本。落地到具体的业务策略,有两种方案。
其一,通过增加数据质量/数量、优化算法和架构的方式提升模型性能、降低模型尺寸。这可以有效减少算力消耗,提升主要应用效果,适应主流市场需求。
其二,采取更精准、细分的模型产品策略。不指望靠少数几款模型解决所有问题,而是让不同模型解决不同问题。比如,让性价比模型切经济市场,让高质量模型切高端市场。

图片
大模型再降价

云计算的算力结构正在剧变。现在消耗更多推理算力,意味着会抢占更多增量市场。阿里云在CPU为主的算力阶段曾经保持领先,它需要在GPU为主的算力阶段确保优势。
国际市场调研机构IDC预测,2022年-2027年中国通用算力年复合增速16.6%,智能算力年复合增速33.9%。2022年-2027年,智能算力内部,推理算力占比将上升到72.6%,训练算力占比会下滑到27.4%。
今年5月,中国云厂商开始了大模型推理算力价格战。字节跳动旗下云服务火山引擎、阿里云、百度智能云、腾讯云先后把大模型推理算力价格下降了90%以上。
近期,多位云厂商技术人士对我们表示,5月以前国内大模型推理算力毛利率高于60%,和国际同行基本一致。5月各大厂接连降价后,推理算力毛利率下降幅度很大
一位头部云厂商高管今年6月曾向我们表示,他在内部多轮推演和测算了降价逻辑,其中有两个矛盾点。
降价后存量收入会下降,增量收入会增长。理想情况是,增量收入能覆盖存量收入。
二是,如果同行降价更激进,要如何应对?最终结论是,现在的规模比利润更重要,可以为了预期中的长期增长放弃短期收入。
事实上,大模型推理价格下降对于处于发展早期的AI大模型产业是有意义的。
在短期内,推理算力能带来的收入并不多。一位中国云厂商技术人士解释,2024年各家模型调用收入不会超过10亿元,这在每年数百亿营收的大盘中规模有限。但未来1年-2年大模型调用次数有望有10倍以上的指数级增长。如果调用量足够大,长期收入增长将能弥补短期收入损失。
按照技术发展规律,这个过程中,AI应用会逐渐增长,算力成本会随着客户需求增长逐渐摊薄。大模型业务最终仍有机会实现正向利润,甚至很可能成为云厂商的新增长点。
今年9月之前,中国云厂商的大模型和AI创业公司OpenAI的同规格模型相比,价格普遍只有20%-50%。
以阿里的通义千问-Max、百度的ERNIE-4.0-8K、腾讯的hunyuan-pro三款旗舰模型为例,三者每百万Tokens的输出价格分别是120元、120元、100元。它们对标的OpenAI旗舰模型GPT-4-turbo每百万Tokens输出价格是210元(OpenAI官网标价是30美元,此处已按美元和人民币汇率1:7换算)。这三款国产大模型的价格仅为GPT-4-turbo的50%左右。 
一年来,阿里通义千问大模型的API(应用程序编程接口,就像水电开关,调用时会消耗Token)调用输出价格下降了97%,入门模型百万Tokens(Token是大模型的文本单位,一个Token可以是单词、标点、数字、符号等)调用价格已降至0.5元。
阿里云另一个考量是,大模型还可以提高全行业的云计算渗透率——降价对产业和自身来说,会一个双赢的策略。阿里云方面披露的信息显示,第一轮降价后,大量企业用户调用通义大模型,阿里云百联平台的付费客户数比上一个季度增长了超过200%。
目前,阿里云把大模型价格打下去的态度是坚定的。9月19日云栖大会上,周靖人再次宣布了通义三款主力模型降价。阿里云公布的数据显示,通义千问-Max输入价格降低了50%,输出价格了降低50%。通义千问-Plus输入价格降低了85%,输出价格降低了90%。通义千问-Turbo输入价格降低了85%,输出价格了降低90%。

图片

大模型推理价格降价的底线在哪里?一位数字化企业高管认为,这可能要等到“杀手级”AI应用真正爆发。
周靖人的观点是,目前大模型应用创新还处于早期。如果模型使用价格相对昂贵,会导致AI应用无法大规模落地。阿里云每一次模型降价的决策都是经过严肃研判的,是经过市场反馈后的结果。阿里云会采取持续技术创新的方式降低算力成本,把红利让利给企业客户。
阿里云副总裁张启认为,大模型的推理价格下降不应该用“价格战”的竞争思维去理解。模型降价,这就像电信运营商的提速降费。今天的手机流量资费和20年前相比,完全无法类比。电信运营商的提速降费催生了移动互联网的创新。阿里云在考虑更长远的问题——推动AI应用创新。大模型推理价格下降也会带来AI应用爆发。
AI应用的爆发在硅谷已经可以初见端倪。一位中国云厂商高管今年5月向我们提到,年初他在硅谷发现,美国AI应用创业呈现了2012年-2014年中国移动互联网初期的趋势。“AI应用创业小团队,很快取得营收和融资。中国市场未来可能会呈现这种趋势。但前提是,大模型推理价格足够低,试错门槛要足够低。”

图片
淘汰赛开始,AI生态在萌芽

更大的算力支出,更低的模型价格,更高的技术门槛。这意味着大模型的淘汰赛已经开始了——它的另一面是,AI应用生态也在萌芽。
大模型需要持续投资,要有万卡甚至十万卡的能力,还需要商业回报。在一位中国云厂商战略人士看来,很多企业不具备这样的能力。未来中国市场只会有三五家基础模型厂商。市场会逐渐出清,剩下真正有竞争力的企业。
吴泳铭在云栖大会提到,全世界先进模型竞争的投入门槛,将达到数十亿、数百亿美元的级别。一位中国云厂商技术人士今年9月对我们表示,中国云厂商需要保持每年百亿元级别的算力资本支出,按照目前的推理算力用量,几家参与价格战的头部云厂商2024年要为大模型推理算力消耗补贴超过十亿元。
多位行业人士对我们表达了同一个观点,这轮淘汰赛会持续一两年,只有3家-5家基础模型企业能继续活下去。
一位科技公司战略规划人士的观点是,阿里云在这场淘汰赛中相对从容。一是,阿里云已经实现了盈利(非美国通用会计准则标准下的盈利,剔除服务器摊销、员工股权激励等非现金因素)。阿里云主要来自公共云四大件(计算、存储、网络、数据库),低价模型会促进客户业务数据消耗,进而带动上述基础云产品的销售。
长远来看,大模型发展的理想情况是,最终依靠高性能的模型和合理的价格建立健康持久的商业闭环。一位云厂商大模型业务核心负责人认为,这个逻辑必须等淘汰赛结束之后才可能成立。至少在未来1年-2年内,很多大模型厂商的首要目标是,活过这一轮价格战。
尽管先进模型的竞争愈演愈烈,但一个更乐观的判断是,持续不断降低的算力成本和模型价格,会在潜移默化中让大模型应用生态逐渐爆发。随着模型价格持续降低,AI应用生态会逐渐繁荣。最终剩下的大模型厂商将成为最终的受益者。
周靖人对我们表示,阿里云推动大模型生态繁荣的目标没有变。未来会坚持把技术红利释放给企业用户以及开发者,推动整个AI行业发展。