AI 模型战局渐定,下一波红利在哪?

全文6612字,阅读约需19分钟,帮我划重点

划重点

01随着生成式AI市场的基础层逐渐稳定,微软/OpenAI、AWS/Anthropic、Meta和谷歌/DeepMind等参与者正展开激烈的竞争。

02推理层的发展成为关注焦点,新的认知架构和用户界面正在塑造AI系统的推理能力如何传递给用户并与之互动。

03然而,应用层公司仍具有竞争优势,因为它们拥有复杂的认知架构,通常包括多个基础模型,上面有某种路由机制。

04AI领域的转型正将"软件即服务"转变为"服务即软件",服务市场将以万亿美元计。

05未来,像Factory的机器人这样的多代理系统可能会开始增殖,作为对推理和社会学习过程建模的方式。

以上内容由腾讯混元大模型生成,仅供参考

大聪明:

本篇文章来自 Sequoia(红杉),作者 Sonya Huang,结论是:机会在 SaaS 和应用


另外,有朋友表示:“按红杉的观点,这波AI最大的机会在万亿美元的服务市场,而YC S24看好的AI应用65%都是偏服务型2B垂直小场景,有点不谋而合!而这些项目的逻辑在国内就几乎不成立啊🌚”,“生态不一样”


原文:


生成式 AI 市场的基础层正逐渐稳定,形成了由几个主要参与者和联盟组成的均衡格局,包括微软/OpenAI、AWS/Anthropic、Meta 以及谷歌/DeepMind。只有那些拥有强大经济引擎和大量资本的规模化参与者才能继续参与竞争。虽然这场战斗远未结束(而且在博弈论的驱动下不断升级),但市场结构本身正在 solidifying,很明显,我们将拥有越来越便宜和充足的下一个词预测(next-token predictions)能力。


随着大语言模型(LLM)市场结构的稳定,新的前沿正在出现。焦点正在转移到推理层(reasoning layer)的开发和扩展上,这里"系统 2"(System 2)思维占据主导地位。受 AlphaGo 等模型的启发,这一层旨在赋予 AI 系统以 deliberate 推理、解决问题的能力,以及在推理时进行超越快速模式匹配的认知操作。同时,新的认知架构和用户界面正在塑造这些推理能力如何传递给用户并与之互动。


这对 AI 市场的创始人意味着什么?对现有软件公司又意味着什么?作为投资者,我们认为生成式 AI 技术栈中哪一层最有前景?


在我们最新关于生成式 AI 市场状况的文章中,我们将探讨基础 LLM 层的 consolidation 如何为这些高阶推理和 agentic 能力的扩展竞赛铺平了道路,并讨论一代具有新型认知架构和用户界面的"killer apps"。


草莓

2024 年最重要的模型更新当属 OpenAI 的 o1,之前被称为 Q*,也被称为 Strawberry。这不仅重申了 OpenAI 在模型质量排行榜上的领先地位,还对现有架构进行了显著改进。更具体地说,这是第一个具有真正通用推理能力的模型,他们通过推理时计算(inference-time compute)实现了这一突破。


这意味着什么?预训练模型是在海量数据上进行下一个词的预测,它们依赖于"训练时计算"(training-time compute)。基本推理能力是规模化的一个 emergent 特性,但这种推理能力非常有限。如果我们能够直接教会模型进行更深入的推理呢?这基本上就是 Strawberry 所实现的。当我们说"推理时计算"时,我们指的是要求模型在给出回应前先停下来思考,这需要在推理阶段进行更多的计算(因此称为"推理时计算")。"停下来思考"的部分就是推理。


AlphaGo

让我们先回顾一下 2016 年 3 月在首尔发生的事情。深度学习历史上最具里程碑意义的时刻之一就发生在这里:AlphaGo 与传奇围棋大师李世石的对决。这不仅仅是一场 AI 对人类的比赛,它标志着世界见证了 AI 不再仅仅是模仿模式,而是在真正地"思考"。


是什么让 AlphaGo 与之前的游戏 AI 系统(如深蓝)不同呢?与大语言模型(LLMs)类似,AlphaGo 首先通过约 3000 万次历史棋局和自我对弈来预训练,模仿人类专家的行为。但与直接从预训练模型中给出本能反应不同,AlphaGo 会花时间停下来思考。在推理阶段,模型会对大量潜在的未来场景进行搜索或模拟,对这些场景进行评分,然后选择期望值最高的场景(或答案)作为回应。给予 AlphaGo 的思考时间越多,它的表现就越好。如果没有推理时计算,该模型无法击败顶级人类选手。但随着推理时间的增加,AlphaGo 的水平不断提升,最终超越了最优秀的人类棋手。


让我们回到 LLM 的世界。在这里复制 AlphaGo 的难点在于构建价值函数,即用于评分回应的函数。如果你在下围棋,这相对简单:你可以模拟整个游戏过程直到结束,看谁赢了,然后计算下一步棋的期望值。如果是编程,也相对直接:你可以测试代码看它是否有效。但如何评分一篇文章的初稿呢?或者一份旅行计划?亦或一份长篇文档的关键词总结?这就是当前方法在推理上的难点所在,也是为什么 Strawberry 在逻辑相关领域(如编程、数学、科学)表现相对较强,而在更开放和非结构化的领域(如写作)表现不那么突出的原因。


虽然 Strawberry 的具体实现是严格保密的,但其关键理念涉及对模型生成的思维链进行强化学习。对模型思维链的审核表明,正在发生一些根本性的、令人兴奋的事情,这实际上类似于人类的思考和推理方式。例如,o1 显示出了当遇到困难时能够回溯的能力,这是扩展推理时间的一个 emergent 特性。它还表现出能够像人类那样思考问题(例如,通过可视化球体上的点来解决几何问题),以及用新方式思考问题的能力(例如,以人类不会想到的方式解决编程竞赛中的问题)。


推动推理时计算前进的新想法层出不穷(例如,计算奖励函数的新方法,缩小生成器/验证器差距的新方法),研究团队正在努力改进模型的推理能力。换句话说,深度强化学习再次变得炙手可热,它正在实现一个全新的推理层。


快与慢的思考(系统1 vs 系统2)

从预训练的本能反应("系统 1")到更深层次的 deliberate 推理("系统 2")的飞跃是 AI 的下一个前沿。模型仅仅拥有知识是不够的,它们需要能够暂停、评估并实时推理决策。


我们可以将预训练视为系统 1 层。无论模型是在围棋中预训练了数百万步棋(AlphaGo),还是在互联网规模的文本上预训练了数 PB 的数据(LLMs),其任务都是模仿模式——无论是人类的下棋方式还是语言。但模仿,尽管强大,却不是真正的推理。它无法正确地思考复杂的新情况,尤其是那些超出样本的情况。


这就是系统 2 思维发挥作用的地方,也是最新一波 AI 研究的重点。当一个模型"停下来思考"时,它不仅仅是生成学习到的模式或基于过去数据吐出预测。它在生成一系列可能性,考虑潜在结果,并基于推理做出决策。


对于许多任务来说,系统 1 已经足够了。正如 Noam Brown 在我们最新一期《Training Data》节目中指出的,花更长时间思考不丹的首都是什么并不会有帮助——你要么知道,要么不知道。这种情况下,快速的基于模式的回忆就很有效。


但当我们面对更复杂的问题时——比如数学或生物学的突破性进展——快速、本能的反应就不够了。这些进步需要深入思考、创造性的问题解决能力,最重要的是,需要时间。AI 也是如此。要解决最具挑战性、最有意义的问题,AI 需要超越快速的 in-sample 反应,花时间进行那种定义人类进步的 thoughtful 推理。

图片
图片


新 Scaling Law,新军备竞赛

o1 论文中最重要的洞见是出现了一个新的扩展定律(scaling law)。


预训练大语言模型(LLMs)遵循一个众所周知的扩展定律:在预训练模型上投入的计算和数据越多,模型的表现就越好。


o1 论文开辟了一个全新的计算扩展维度:给模型提供的推理时间(或"测试时间")计算越多,它的推理能力就越强。


图片

来源:OpenAI o1 技术报告


如果模型能够思考数小时、数天,甚至数十年会发生什么?我们能解决黎曼猜想吗?我们能回答阿西莫夫的最后一个问题吗?


这种转变将使我们从 massive 预训练集群的世界转向推理云(inference clouds)——一种能根据任务复杂度动态扩展计算能力的环境。


赢家,会通吃吗?

随着 OpenAI、Anthropic、谷歌和 Meta 扩展它们的推理层并开发越来越强大的推理机器,会发生什么?我们会有一个主宰一切的模型吗?


生成式 AI 市场初期有一种假设,认为单一的模型公司会变得如此强大和全面,以至于会吞并所有其他应用。到目前为止,这个预测在两个方面是错误的。


首先,在模型层面存在充分的竞争,各家公司不断地在最先进(SOTA)能力上你追我赶。虽然有可能某家公司通过广泛领域的自我对弈实现 continuous 自我改进并取得突破性进展,但目前我们还没有看到这方面的证据。恰恰相反,模型层面的竞争异常激烈,自上次开发者日以来,GPT-4 的每 token 价格已经下降了 98%。


其次,除了 ChatGPT 这个显著的例外,模型基本上没有成功进入应用层成为爆款产品。现实世界是混乱的。优秀的研究人员并不想去了解每个可能的 vertical 中每个可能功能的细节和端到端工作流程。对他们来说,只做到 API 层面既有吸引力又符合经济理性,让开发者社区去处理现实世界的混乱。这对应用层来说是个好消息。


真实世界,很复杂

作为一名科学家,你计划和执行行动以达成目标的方式与作为一名软件工程师的工作方式有很大不同。更进一步说,即使是在不同公司工作的软件工程师,其工作方式也会有所不同。


随着研究实验室不断推进 horizontal 通用推理的边界,我们仍然需要特定于应用或领域的推理来提供有用的 AI 代理。混乱的现实世界需要大量特定于领域和应用的推理,这些推理无法有效地编码到通用模型中。


图片


这就引出了认知架构(cognitive architectures)的概念,即你的系统如何思考:接收用户输入并执行 action 或生成响应的代码流和模型交互流程。


以 Factory 为例,他们的每个"机器人"(droid)产品都有一个 custom 认知架构,模仿人类解决特定任务的思维方式,比如审查 pull requests 或编写并执行将服务从一个后端迁移到另一个后端的迁移计划。Factory 的机器人会分解所有依赖关系,提出相关的代码变更,添加单元测试,并让人类参与审查。然后在获得批准后,在开发环境中运行所有文件的变更,如果所有测试都通过,就合并代码。这就像人类可能的操作方式一样——通过一系列离散任务而不是一个泛化的黑箱答案来完成。


应用层创业,不 low

想象一下你想在 AI 领域创业。你会选择技术栈的哪一层?你想在基础设施层面竞争吗?祝你好运打败英伟达和 hyperscalers。你想在模型层面竞争吗?祝你好运打败 OpenAI 和马克·扎克伯格。你想在应用层面竞争吗?祝你好运打败企业 IT 部门和全球系统集成商。哦,等等。这最后一个听起来实际上是可行的!


基础模型(foundation models)很神奇,但也很混乱。主流企业无法应对黑箱、幻觉(hallucinations)和笨拙的工作流程。消费者面对空白提示不知道该问什么。这些都是应用层的机会。


两年前,许多应用层公司被嘲笑为"仅仅是 GPT-3 的包装"。如今,这些"包装"却成为了构建持久价值的少数可靠方法之一。最初的"包装"已经演变成了"认知架构"。


应用层 AI 公司不仅仅是基础模型之上的用户界面。远非如此。它们拥有复杂的认知架构,通常包括多个基础模型,上面有某种路由机制,用于 RAG(检索增强生成)的向量和/或图数据库,确保合规性的 guardrails,以及模仿人类思考工作流程推理方式的应用逻辑。


AI 的 SaaS

AI 转型正在将"软件即服务"(software-as-a-service)转变为"服务即软件"(service-as-software)。软件公司正在将人力劳动转化为软件。这意味着可寻址市场不仅仅是软件市场,而是以万亿美元计的服务市场。这种转变归功于 agentic 推理能力的发展。


"销售工作"是什么意思?Sierra 是一个很好的例子。B2C 公司将 Sierra 放在他们的网站上与客户交流。其工作目标是解决客户问题。Sierra 按解决问题的次数获得报酬。这里没有"席位"的概念。你有一项工作需要完成,Sierra 来完成它,然后按照完成情况获得相应的报酬。


这是许多 AI 公司的 true north(指导方向)。Sierra 的优势在于具有优雅的失败模式(可以升级到人工代理)。并非所有公司都如此幸运。一种新兴的模式是首先作为副驾驶(copilot)部署(human-in-the-loop),然后利用这些经验赢得作为自动驾驶(autopilot)部署的机会(无人参与)。GitHub Copilot 就是一个很好的例子。


图片


新一代的 Agent

随着生成式 AI 的推理能力逐步成熟,一类新的 agentic 应用正在涌现。


这些应用层公司呈现出什么样的形态?有趣的是,这些公司与它们的云计算前辈看起来不太一样:

  • 云计算公司瞄准软件利润池。AI 公司瞄准服务利润池。

  • 云计算公司销售软件(按席位收费)。AI 公司销售工作(按结果收费)。

  • 云计算公司喜欢自下而上发展,采用无摩擦分发模式。AI 公司越来越多地采用自上而下的方式,使用高接触、高信任的交付模式。


我们看到一批新的 agentic 应用正在知识经济的各个领域涌现。以下是一些例子:

  • Harvey:AI 律师

  • Glean:AI 工作助手

  • Factory:AI 软件工程师

  • Abridge:AI 医疗记录员

  • XBOW:AI 渗透测试员

  • Sierra:AI 客户支持代理


通过降低这些服务的边际成本——与不断下降的推理成本保持一致——这些 agentic 应用正在扩大和创造新的市场。


以 XBOW 为例。XBOW 正在构建一个 AI"渗透测试员"。"渗透测试"是对计算机系统进行的模拟网络攻击,公司进行这种测试是为了评估自己的安全系统。在生成式 AI 出现之前,公司只在有限的情况下(例如合规要求)才雇佣渗透测试员,因为人工渗透测试成本高昂:这是一项由高技能人员执行的手动任务。然而,XBOW 现在正在展示基于最新推理 LLMs 构建的自动化渗透测试,其性能可以媲美最高技能的人类渗透测试员。这扩大了渗透测试市场,为各种规模的公司开启了 continuous 渗透测试的可能性。


SaaS 生态,将面临什么?

今年早些时候,我们会见了有限合伙人。他们最关心的问题是"AI 转型会摧毁你现有的云计算公司吗?"


我们最初的默认答案是"不会"。初创公司和现有公司之间的经典战斗是一场马拉松:初创公司构建分销渠道,现有公司改进产品。拥有酷炫产品的年轻公司能否在拥有客户资源的现有公司开发出酷炫产品之前获得大量客户?鉴于 AI 的大部分魔力来自基础模型,我们的默认假设是不会——现有公司会表现得很好,因为这些基础模型对它们和初创公司同样 accessible,而且它们还有数据和分销的先发优势。初创公司的主要机会不是取代现有软件公司,而是瞄准可自动化的工作池。


但现在我们不那么确定了。回顾前面关于认知架构的讨论。将模型的原始能力转化为引人注目、可靠的端到端业务解决方案需要大量的工程工作。如果我们只是大大低估了"AI 原生"的意义呢?


20 年前,本地部署软件公司嘲笑 SaaS 的 idea。"有什么大不了的?我们也可以运行自己的服务器,通过互联网提供这些服务!"从概念上说,这确实很简单。但随之而来的是整个业务的彻底重塑。工程、产品和设计(EPD)从瀑布式开发和 PRD 转向了敏捷开发和 AB 测试。Go-to-Market(GTM)从自上而下的企业销售和商务晚宴转向了自下而上的产品主导增长(PLG)和产品分析。商业模式从高单价(ASP)和维护收入流转向了高净留存收入(NDR)和基于使用的定价。很少有本地部署公司成功完成了这种转型。


如果 AI 是一个类似的转变呢?AI 的机会会不会是销售工作是替代软件?


通过 Day.ai,我们看到了未来的一瞥。Day 是一个 AI 原生的客户关系管理(CRM)系统。系统集成商通过配置 Salesforce 以满足你的需求赚取数十亿美元。而 Day 只需要访问你的邮件和日历,以及回答一页问卷的答案,就能自动生成一个完全 tailored 到你业务的 CRM。它可能还没有所有的花里胡哨的功能,但自动生成的 CRM 无需人工输入就能保持更新的魔力已经让人们开始转向使用它了。


投资者怎么看

作为投资者,我们将注意力集中在哪里?资金正在如何部署?以下是我们的简要看法:

基础设施

这是 hyperscalers 的领域。它由博弈论行为驱动,而非微观经济学。对风险投资家来说是个糟糕的选择。

模型

这是 hyperscalers 和金融投资者的领域。Hyperscalers 正在用资产负债表换取利润表,投入的资金最终会以计算收入的形式回流到他们的云业务。金融投资者则受到"被科学震撼"偏见的影响。这些模型非常酷,这些团队令人印象深刻。管他的微观经济学!

开发者工具和基础设施软件

对战略投资者来说不太有趣,对风险投资家来说更有吸引力。在云转型期间,这一层面创造了约 15 家营收超过 10 亿美元的公司,我们预计 AI 领域也会出现类似情况。

应用

对风险投资最有吸引力的层面。在云转型期间,应用层面创造了约 20 家营收超过 10 亿美元的公司,移动转型期间又创造了约 20 家,我们预计 AI 领域也会如此。


图片


综上

在生成式 AI 的下一阶段,我们预计推理研发的影响将波及应用层。这些波澜既快速又深远。迄今为止,大多数认知架构都采用了巧妙的"去除限制"(unhobbling)技术;现在,随着这些能力被深入地烘焙到模型本身中,我们预计 agentic 应用将迅速变得更加复杂和 robust。


回到研究实验室,推理和推理时计算在可预见的未来将继续成为一个强烈的主题。既然我们有了新的扩展定律,下一轮竞赛已经开始。但对于任何特定领域,收集现实世界的数据并编码特定于领域和应用的认知架构仍然很困难。这再次是最后一公里应用提供者在解决混乱现实世界中 diverse 问题集时可能占有优势的地方。


展望未来,像 Factory 的机器人这样的多代理系统可能会开始 proliferate,作为对推理和社会学习过程建模的方式。一旦我们能够完成工作,我们就可以让工人团队完成更多的任务。


我们所有人都在热切期待生成式 AI 的"第 37 手",就像 AlphaGo 在对李世石的第二局比赛中那样——一个通用 AI 系统以某种超人的方式让我们惊讶,让我们感觉到独立思考。这并不意味着 AI"醒来"了(AlphaGo 并没有),而是我们模拟了感知、推理和行动的过程,AI 可以以真正新颖和有用的方式探索这些过程。这实际上可能就是 AGI(通用人工智能),如果是这样,它将不会是一个单一的事件,而仅仅是技术的下一个阶段。