行业观察|大模型之战,除了低价还战什么?

全文5407字,阅读约需16分钟,帮我划重点

划重点

01大模型市场焦点转向降低隐性成本,厂商提供更完备的能力以激发产业价值链条的正向循环。

02火山引擎总裁谭待表示,大模型降价不是价格战,而是把Token降到合理价格,模型调用需健康可持续。

03由于大模型带来新一轮AI应用创新,成本降低试错成本,但隐性成本如数据治理、人才招聘等仍需关注。

04为此,火山引擎推出相应工具或插件,如向量数据库、扣子专业版AI应用开发平台等,以降低企业使用大模型的隐性成本。

05专家认为,降低推理成本需提升模型性能、降低模型尺寸,或采用MoE架构,大模型正向循环有望逐步建立。

以上内容由腾讯混元大模型生成,仅供参考

图片

图片

下一阶段,大模型市场的焦点是厂商提供更完备的能力,为使用大模型的企业降低隐性成本,最终充分激发产业价值链条的正向循环

文|吴俊宇  

编辑|谢丽容

近半年,大模型的推理算力价格正在快速下降。

今年5月,字节跳动旗下云业务——火山引擎率先把旗下主力模型“豆包Pro-32k”的输入价格降到了0.8元/每百万Tokens(直译为“令牌”),输出价格降到了2元/每百万Tokens。当时,这两个定价不到行业均价的10%。

用户使用大模型,先输出指令,再得到输出结果。Token是大模型推理算力的计量单位。一个Token可以是单词、标点、数字、符号等字符。就像电力用“度”计费、流量用“G”计费。

降价的原因是,大模型带来了新一轮的AI(人工智能)应用创新,但创新需要降低试错成本。火山引擎总裁谭待今年3月在硅谷发现,美国的AI应用创业火热,一些小团队很快就能拿到收入和融资。这种气氛如同2012年-2014年中国移动互联网创业。谭待判断,国内也会出现类似趋势,但前提是降低模型价格。(详见《财经》5月22日文章,《字节做云三年,火山引擎迎来拐点》

火山引擎这次降价搅动了市场。几家主要云厂商随后都把旗下主力模型价格降低了90%以上。各家Token消耗量都在快速提升。字节跳动的豆包大模型9月Token消耗量已是5月降价前的10倍以上。

图片

短期内,Token消耗量快速增长,但目前却没有一家厂商能从中盈利。部分云厂商的管理层甚至焦虑“价格战打到了负毛利”。大模型推理算力原本毛利率在60%以上,但如今这部分业务由盈转亏。(详见《财经》9月18日文章,《大模型价格战,打到了负毛利》

一种担忧随之而来——大模型推理算力如果一直亏损,“价格战”的终点在哪里?

9月24日,谭待在“2024火山引擎AI创新巡展·深圳站”会后群访时对我们表示,欢迎同行降价,因为成本是创新的阻碍。这不是价格战,而是把Token降到合理价格。模型调用必须健康可持续,他有信心也有能力做到正毛利。目前,他更关注模型降价后的AI应用覆盖率。

豆包大模型是如何进行Token定价的?9月24日,火山引擎智能算法负责人、火山方舟负责人吴迪向我们复盘称,这个定价不是拍脑门,也不是对标同行,而是科学计算的结果——其中综合考虑了算力资源储备、市场未来用量、模型成本下降这三个变量。

吴迪认为,“反对降价的人,其实是对AI长期信心不足。只要有这几个变量的初始值,甚至可以测算出未来3个月-12个月的趋势。”

截至今年9月,豆包每天Token消耗量是1.3万亿。随着AI在各类应用中的渗透率不断提升,吴迪预期,2027年豆包每天Token消耗量会超过100万亿,是现在的100倍以上。推理算力收入会快速提升。

基于这个判断,云厂商要做好降价之外的其他准备。

图片

模型降费不够,还得提升能力

推理算力价格下降,要先看市场大势。

算力消耗的大盘此时在剧变。国际市场调研机构IDC预测,2022年-2027年中国通用算力(CPU中央处理器为核心的算力)年复合增速16.6%,智能算力(GPU图形处理器为核心的算力)年复合增速33.9%。2022年-2027年,智能算力内部,训练算力占比会下滑到27.4%,推理算力占比将上升到72.6%。

图片

今年9月,一家云厂商的管理层提到,2024年它们的推理算力消耗量已经超过了训练算力消耗量。

Token的降价逻辑,被认为不是软件的降价逻辑,更像电信运营商的提速降费。软件的主要成本是研发成本。企业亏损式降价竞争,会导致整个产业的潜在价值被破坏。

和谭待看法类似,一位头部云厂商高管今年9月也提到,大模型推理算力降价不该用“价格战”的竞争思维去理解。“价格战”是零和博弈,难以创造增量市场。大模型推理算力降价会做大市场蛋糕。在他看来,今天的手机流量资费和20年前相比,完全无法类比。

电信运营商从3G到4G提速降费,催生了一批新的移动APP(应用)。云厂商目前普遍在考虑更长远的问题——如何用降价催推动AI应用创新。

“现在价格不是瓶颈,关键是要把能力做好,这会是影响应用上量的重要因素”。在谭待看来,大模型只降推理价格远远不够,还要持续提升模型性能。

从“卷价格”到“卷性能”,这在火山引擎的产品策略中体现在两方面。

其一,提升大语言模型的吞吐速率。衡量吞吐速率的单位是TPM(每分钟的Token数)和RPM(每分钟请求数)。豆包大模型提供了800K的吞吐速率,这一吞吐速率处于行业前列。

简单理解,这就像3G网络下,手机只能完成收发消息、刷新闻资讯等简单工作;但在4G网络下,随着流量资费下降、网络速度提升,抖音、快手、王者荣耀等新应用会出现。

目前行业内其他模型的吞吐速率一般是100-400K(千字节)。原因是,防止服务过载或中断,并保证每个用户或组织公平调用模型。一般情况下,付费后才可以升级到800K以上的吞吐速率。

吞吐速率提升可以满足更多企业实际生产环境的需求。谭待以某科研机构的文献翻译、某汽车厂商的智能座舱、某教育公司的智能写作三个应用场景举例,三者用大模型的峰值吞吐速率分别是360K、420K、630K。提升吞吐速率,这些企业使用大模型的意愿才会提升。

其二,提供多模态(文字、图片、声音、视频等)大模型。火山引擎9月24日发布了豆包模型家族——包括视频生成模型、文生图/图生图模型、同声传译模型、语音识别/语音合成模型、声音复刻模型、音乐模型。

过去一年多,企业常用的仍是大语言模型——输入/输出的内容以文字和图片为主。这带来了数字人、知识库、客服问答、营销文案、平面设计、代码助手、智能助手等通用业务场景。

一个来自CIO(首席信息官)和CTO(首席技术官)的普遍反馈是,大语言模型会从非核心业务系统开始落地。在一些通用业务场景中,大语言模型的确带来了一定的提效作用。但大语言模型的文生文、文生图使用方式相对单一,这和2023年初大模型“横空出世”时天马行空设想的情景仍有落差。

随着视觉、声音模型开始大规模使用,企业会从中挖掘新的应用场景,更多AI应用创新的排列组合会随之出现——但这仍需要持续试错,也会经历先进入边缘业务系统,再进入核心业务系统的螺旋上升。

企业数字化转型的实际情况是,很多一线IT工程师会率先以个人身份体验新技术。2023年初大模型浪潮来临的初期,很多尝试在“整建制”的IT部门并非公司行为,而是个人行为。

吴迪对此建议,企业数字化部门可以专门组建一个开发大模型应用场景的小团队。由这个团队独立完成一些AI应用Demo(样品)。原因是,AI越强,单兵作战能力也越强。可以让有能力、有想法的人尽量去尝试。这个过程中会催生出很多意料之外的创新。

图片

降完显性成本,再降隐性成本

企业使用大模型,既有显性成本,也有隐性成本。

显性成本包括,模型推理算力成本。目前,一些企业数字化负责人的观点是,使用大模型的显性成本的确在下降,但隐性成本不得不考虑。

大模型的隐性成本涉及方方面面。比如,大模型要与现有IT系统兼容;使用大模型要提前准备数据,进行数据治理;还要招聘一批懂AI的产品经理;最后应用开发还需要付出成本。

“即使模型彻底免费,我们也必须为之付出其他隐性成本。”一位保险公司IT负责人今年9月对我们直言,使用大模型的隐性IT成本,其实远高于显性IT成本,“不能拿着锤子找钉子,什么事情都想着通过大模型去解决。而是要根据投入产出比,把大模型融入到现有的IT系统之中。”

数据治理是必要的前期准备。企业用好大模型,要给大模型“喂”高质量的行业数据。但在“喂”数据前,又要做好数据清洗、标注、整理等工作。

数据治理像是资源分类,把企业内杂乱无章的原始数据(包括文本、图片、视频等)打标分类,整理成结构化数据。再喂给大模型,让它产出符合业务需求的高质量内容。

不做好数据治理,大模型容易产生“幻觉”(大模型由于数据错误等因素胡说八道)。吴迪在和企业交流时遇到了一些非常有远见的CIO和CTO,他们一年前就开始了数据治理。因为,他们认为“不管AI未来怎么变,整理好数据都是必要的。”

数据治理,有时要引入专业数据治理公司,甚至是专业的咨询公司。行业数据治理,更是要付出高昂的人力成本。一位云厂商大模型产品负责人今年9月对我们分析,一些无法通过算法自动标注的复杂数据,需要交给专业懂行的人,靠人工标注完成。极端情况下,一条数据标注成本可能就在100元以上。

人才招聘,是另一个重要成本。但对大多数企业来说,懂大模型的人才既贵又少。

“我们这类公司里,只有懂应用的人才,缺少懂AI的人才,更缺少专业懂AI的团队”,一家国资背景的跨国联营饮料集团CIO今年5月曾对我们表示,他从1月开始开出高价招聘懂AI的人,其中包括一名数据挖掘和AI算法工程师、一名有咨询经验的AI应用产品经理。但直到5月,这两个岗位都没找到合适人选。

在他看来,如果没有真正懂AI的人才,盲目探索大模型落地,只会导致更大的资源浪费。但是组建起一支专业懂AI的团队,又需要CEO层面的支撑——因为数字化转型是“一把手工程”,深度研究大模型需要投入坚定的意志。

应用开发,企业往往是精打细算且有步骤的。一个主导思路是,从边缘场景开始小规模投入,而且必须算清投入产出比。

一家白酒企业的数字化负责人今年5月曾对我们表示,在快消、零售领域,超过15万元就是大项目。他们的数字化团队找到大模型落地场景后。要先做无成本的前期测试,只有成果显著才能说服管理层申请预算。他们一般会从单个场景试点开始开发应用,在单点看到价值转化后,才会在其他场景落地大模型。

“首先我们必须承认,隐性成本很大比例要靠企业自身解决。其次,我们还是要帮企业把环绕在大模型周边的隐性成本阶梯式降下去。”吴迪认为,降低使用大模型的隐性成本是有方法的。

他把企业CIO和CTO烦恼的问题分成了几大类,每类问题一步一步解决。火山引擎针对每类问题,都推出了相应的工具或插件。

针对数据问题,向量数据库可以在一定程度上降低企业数据治理工作。一些非结构化数据的存储、搜索、分析,可以通过火山引擎的VikingDB这类向量数据库来完成。因为,向量数据库能浏览大量非结构化数据,不需要依赖人工标注。它还具备记忆能力,可以让连续对话的内容更精简、精准。

中手游是一家游戏上市公司,旗下有一款名为《仙剑世界》的手游。这款游戏中的NPC(非玩家角色,也被称为机器人)使用了豆包大模型生成对话。为减轻模型幻觉、减少调用Token量,《仙剑世界》又继续使用了火山引擎的VikingDB用于数据存储、搜索、分析。

针对应用开发问题,火山引擎推出了扣子专业版AI应用开发平台。它采用了零代码、低代码的方式降低开发难度。企业的IT团队甚至是业务团队,都可以“搭积木”的方式拼出适合自身的轻应用。海底捞就通过扣子开发了“智能客服评价助手”,这正在帮助海底捞评估客服服务质量。

图片

还要有持续降价的空间

云厂商的大模型竞争有两大变量:一是,算力规模能否持续扩大;二是,推理成本能否持续下降。

大模型竞争正在加剧。谁的算力规模更大,谁就有坚持到最后的底牌。

2023年之前,1万枚AI芯片的数据中心是基础大模型的入场券。2024年以后,基础大模型有朝着10万枚AI芯片的方向演进的趋势。能持续投入的厂商会逐步减少,最终只有少数几家头部厂商继续参与长跑。多位行业人士对我们表达了同一个观点,国产大模型淘汰赛已经开始了。这轮淘汰赛会持续一两年,只有3家-5家基础模型企业能继续活下去。字节跳动是少数能参与这种军备竞赛的企业之一。

一个公认的事实是,模型的推理成本未来会不断下降。谁能把成本压到更低,谁就有更大的竞争优势。

AI创业公司OpenAI是降低推理成本的佼佼者,几乎每年都会对主力模型进行大幅降价,且还能在降价后保持高毛利。今年4月,OpenAI的旗舰模型GPT-4-turbo输入价格降低了61%,输出价格降低了67%。今年8月,OpenAI的主力模型GPT-4o输入价格降低了50%,输出价格降低了33%。

国际市场调研机构FutureSearch今年8月发布的研究报告称,OpenAI旗下GPT-4系列旗舰模型毛利率约为75%,GPT-4o系列主力模型毛利率约为55%。OpenAI综合毛利率至少在40%以上。

图片

模型推理算力持续降价,需要降低模型的算力消耗、提升算力的利用效率。这也是云计算的商业本质——靠技术,持续降低算力成本,榨取利润空间。

一位决定跟进新一轮降价的头部云厂商高管曾向我们分析,他们进行多轮推演测算,考虑到了两个矛盾点。

一是,降价后存量收入会下降,增量收入会增长。增量收入能否覆盖存量收入?

二是,如果同行降价更激进,要如何应对?

但最后的结论是,瞻前顾后没有用。最终结论是,现在的规模比利润更重要。

吴迪认为,人工智能如同漂浮在海面上的一座冰山。海面之上看似只有大模型,海面之下才是各个公司的硬实力。这种硬实力是,如何持续通过工程能力降低推理算力的成本。

他强调,豆包大模型降价,既不是拍脑门,也不是对标同行,而是科学计算的结果——其中综合考虑了算力资源储备情况、市场未来用量增速、模型成本下降趋势这三个变量。火山引擎之所以能有底气降价,是因为做到了三点。

其一,提升云的硬件调度效率,避免资源浪费。火山引擎可以做到每一块GPU利用率都处于较高水平。

其二,系统工程要持续优化,这里还有很大的降本空间。

其三,采用更高效率的模型结构和算法,让推理跑得更快更好。

调度效率方面,云一旦形成规模,便能依靠弹性持续降低边际成本。字节跳动本身就是推理消耗大户,火山引擎还可以把不同业务的负载混合调度,提高单卡推理效率,进而大幅降低成本。

系统工程方面,可以把原本在一台服务器上执行的推理任务,拆分成多个子任务,并在多台服务器上同时执行。通过这种方式,充分利用多台机器的计算资源,大幅提升推理速度、降低推理成本。

模型结构方面,过去两年,大模型的发展遵循着Scaling Law(OpenAI在2020年提出的定律,直译为“缩放定律”)——模型性能主要与计算量、模型参数量和训练数据量三者大小相关。因此,一种降低推理成本的思路是,通过增加数据质量/数量、优化算法和架构的方式提升模型性能、降低模型尺寸。还有一种做法是,采用MoE(Mixture of Experts,一种模型设计策略,通过混合多个专业模型,获得更好性能)的架构提升模型性能、降低推理成本。

2023年,模型公司普遍在思考怎么做大模型的参数规模。2024年,模型公司普遍在思考怎么降低降低模型推理价格。“下一步,大家要想的是如何提升模型性能,让它更易于落地。这也是我们正在做的事情。”吴迪的观点是,要在正确的时间做正确的事情,螺旋上升式地释放算力红利。

在他看来,“也许不会很快诞生下一个抖音,但AI能力会一点点渗入现有的日常应用之中。小的创新渗透到土壤深处,后面才会有新的物种成长出来。大模型的正向循环就是这样建立的。

图片

责编 | 秦李欣

题图|IC