深度 | 争议频现的LangChain创始人,现身万字访谈:应用的尝试与构建,Agent的现状与前路

全文13754字,阅读约需40分钟,帮我划重点

划重点

01LangChain的Harrison Chase认为Agent是AI的下一个风口,企业战略应关注中间光谱位置。

02他指出,Agent在定制化和硬性编码方面存在分歧,未来可能会有更优雅的架构或标准化的参考架构。

03目前,Agent在生产力方面取得了一定进展,但仍有很多提升空间,如错误率、可靠性和可扩展性等方面。

04此外,Harrison Chase认为用户体验在Agent性能方面具有重要意义,如聊天、模型预测和反思等。

05最后,他呼吁创业者大胆构建和尝试,尽早了解并参与AI领域的创新。

以上内容由腾讯混元大模型生成,仅供参考

图片

图片来源:Upslash

Z Highlights:

  • 只管去构建和尝试。尽管现在处于非常早期的阶段,还有很多东西需要去构建。比如说,GPT-5的发布可能会使一些工作失去意义,但你会在过程中学到很多。我坚信这是一项变革性技术,所以越早了解越好。

  • 特别是在实际的应用场景中,模型的推理逻辑、定制的商业逻辑或拟人化LLM做出来的心理模型要做到100%最好。在某种程度上,我认为这是你销售的关键东西。

  • 因为他们可以以非常低的成本雇用和使用这些知识和建设者。因为这些LLM正在免费提供人工智能,我认为某些关于智能商品化的言论确实是对的,更多的建设者会出现。

去年,Auto GPT和Baby AGI满足了我们的想象力,Agent们迅速成为当日的热词,然后事情突然变得平静了。Auto GPT和Baby AGI可能标志着Agent炒作周期的高峰,但是今年Agent在产品性能方面出现了一系列突破,从Klarna的客户支持AI到Cognition的Devin等。Lang Chain的Harrison Chase专注于为Agent制作编排层工具。在这次对话中,他解释了哪些改变让Agent能够提高性能并抓住了用户需求。Harrison分享了他对什么持乐观态度,他在哪里看到了Agent的潜力与他认为将被训练成模型本身的东西,讨论了他认为可能会改变Agent未来体验的全新UX。

Sonya Huang: 大家好,欢迎来到《Training Data》。今天我们邀请到了Lang Chain的创始人兼首席执行官Harrison Chase。Harrison是Agent生态系统中的传奇人物,他是第一个将LLM与工具和操作连接起来的产品设计大师。而Lang Chain是AI领域最受欢迎的Agent架构。今天我们很高兴能向Harrison请教关于Agent的现状、未来潜力和前进道路的问题。Harrison,非常感谢你的参与,欢迎来到节目。

Harrison Chase: 当然,很感谢你们邀请我。

AI Agent和Lang Chain的生态地位

Sonya Huang:所以,我们先铺垫一下,Agent是大家都想探索的话题。自从LLM浪潮开始以来,在Agent建设领域,你一直都是炙手可热的人。那么首先为大家介绍一下,什么是Agent好吗?

Harrison Chase:我认为定义Agent其实有点棘手。每个人可能对Agent都有不同的定义,我认为这很正常,因为一切与LLM、Agent相关的事物的生命周期都处于非常早期的阶段。我对Agent的理解是:当LLM决定应用的控制流时,也就是说,如果你有一个更传统的RAG链(ZP注:Retrieval-Augmented Generation是一种结合了信息检索和生成模型的技术,用于提高生成式AI模型的准确性和信息丰富性),代码执行的步骤通常是事先知道的。首先,用户可能会输入一个关键词,然后检索一些文档,生成一个答案,并将其返回给用户。这是一个非常固定的顺序。

当我判断一个应用是否Agent化时,我会看它是否把LLM放在核心的位置,让它决定它到底要做什么。所以有时候它可能会查询用户输入的关键词;其他时候,它可能只是直接响应用户;还有的时候它会查询一个关键词,得到结果,再查询另一个关键词,再查询另外两个关键词,然后响应。所以我认为Agent是让LLM决定控制流。

我认为还有一些其他可能更值得关注的事情与此相关。所以我认为“Agent经常与工具的使用方法有关”这句话很有道理。因为当LLM决定控制流时,它是通过工具来执行的。所以我认为这些事情是相辅相成的。“记忆与Agent在一定程度上相关”我认为这句话也是有道理的,因为LLM决定控制流时,它需要记住它之前做过的事情。所以工具使用方法和记忆有一定程度的关系。但对我来说,Agent是让LLM来决定你的应用程序的控制流。

Pat Grady: Harrison,我刚才听到你的很多关于决策的内容。而我一直认为Agent是一种采取行动的东西。这两件事是相辅相成的吗?Agent更多是与行动相关还是决策相关?你怎么看待这个问题?

Harrison Chase: 我认为它们是相辅相成的。我认为我们看到的很多Agent在做的事情就是——在各种目的的指导下,决定要采取什么行动。我认为采取行动最大的困难是:决定采取什么正确的行动。所以我确实认为解决了决策或者行动的问题自然会解决另一个问题。而且在你决定了行动之后,通常会有一个围绕LLM的系统,去执行那些动作,并将其反馈给Agent。所以我认为,它们是相辅相成的。

Sonya Huang: 所以,Harrison,看来Agent与那些SOP之间的主要区别在于,Agent是由LLM决定接下来要采取的步骤和行动,而SOP的步骤是被预先硬性编码和规定的。这样定义Agent你觉得是否合适?

Harrison Chase: 是的,我认为这是对的。而且对步骤执行也有不同的控制程度。举一个极端的例子,你可以选择完全由一个路由器来决定执行的步骤。它仍然可以由LLM来决定做什么,但是在SOP上这是一种非黑即白的决策。而在另一个极端,你用Agent一样的东西来做决策,这些决策中间有很多的灰色地带。所以我说“Agent是由LLM来决定接下来要采取的步骤和行动”这句话在很大程度上是正确的,尽管其中有很多细微差别和灰色地带,就像LLM领域的大多数事情一样。

图片

图片来源:Upslash

Sonya Huang: 明白了。所以这就像从完全控制到完全自主决策中间有一个决策光谱。这些都是Agent的决策光谱上有趣的事情。那你认为Lang Chain在Agent生态系统中扮演什么角色?

Harrison Chase: 我认为现在我们真正关注的是:让人们能够在这个光谱中间轻松创建一些东西。出于很多原因,我们看到决策方式是构建Agent的最佳决策方式。所以我们看到一些更自主的Agent获得了很多关注和也可以创作出更多的原型产品。而完全自主的Agent实际上容易构建,也有很多好处。但我们经常看到它们脱轨,我们发现人们想要更多受限制的Agent,但是比SOP更灵活和强大一些。

所以我们最近关注更多的是如何成为这个协调层,让上述这些Agent的创建成为可能,特别是那些位于SOP和完全自主Agent之间的东西。我可以详细讲一下我们到底在做什么。但在企业战略上,成为协调框架的一部分是我们认为Lang Chain所处的位置。

Sonya Huang: 明白了。所以从SOP,到完全自主的Agent之间,有一个光谱,你们的优势在于可以选择中间的某个地方,使人们能够构建Agent。

Harrison Chase: 是的,显然,这会随着时间的推移而改变。所以反思Lang Chain的演变是很有趣的。你知道当Lang Chain刚开始时,它实际上是SOP的组合。然后我们有了这个类,这个Agent执行类,它基本上是一个自主Agent的东西。然后我们开始在这个类中加入更多的控制。

最终,我们意识到人们想要的灵活性和控制远比我们通过那个类提供的要多。所以最近,我们在LangGraph上投入了很多,LangGraph是Lang Chain的扩展,真正目标是定制化的Agent,也是位于光谱中间的某个地方。我们的关注点随着时间的推移也在演变,因为这个领域本身也在变化。

AI Agent是下一个重大趋势吗

Sonya Huang: 太有趣了。我想最后再问一个铺垫的问题。我们的核心信念之一是:Agent是AI的下一个风口,我们作为一个行业正在从Copilots转向Agent。我想知道你是否同意这个看法,以及其原因是什么?

Harrison Chase: 是的,我基本同意这个看法。对我来说,这件事令人如此兴奋的原因是,Copilots仍然依赖于人类在任务的决策和行动中的作用。所以在某种程度上,由外部系统完成的工作量是有一个上限的。从这个意义上,Copilots有点限制。

我确实认为有一些非常有趣的思考需要围绕着:什么是正确的用户体验和人类与Agent的交互模式来进行。但我确实认为它们会更倾向于让Agent做某事,然后与您核对,而不是像Copilots那样让人类始终处于流程中。我只是认为,如果它们做得更多,它会更强大并起到杠杆作用。不过这也非常矛盾,因为你让它自己做得越多,它搞砸或脱离轨道的风险就越大。所以我认为找到这个正确的平衡点将会非常非常有趣。

Sonya Huang:我记得在2023年大约三月。有一些自主的Agent十分符合用户期待,比如BabyAGI、AutoGPT等等。我记得,他们当时在Twitter上非常火。不过,似乎Agent架构的第一次迭代没有完全达到人们的期望。我想知道你认为这是什么原因?你认为我们现在处于Agent炒作周期的哪个阶段?

Harrison Chase:是的,我认为我们要首先考虑Agent的炒作周期。我认为AutoGPT开了先河。我的意思是,它是有史以来最受欢迎的GitHub项目之一。我认为炒作周期从2023年春天到2023年夏天开始到夏末,或者2024年初,才有一点停滞或下降趋势。我认为是从2024年开始,我们才开始看到一些更现实的东西上线。比如说,在Lang Chain与Elastic合作的一些工作中,他们有一个Elastic Assistant和一个Elastic Agent正在生产。所以我们看到了Klarna客户很支持bot上线并获得了很多关注。我们看到了Devin(注:Devin是Cognition公司开发的一个自主软件工程Agent,旨在实现自动化的软件开发过程。),看到了Sierra。这些公司开始在Agent领域出现。

所以,AutoGPT非常通用且非常不受约束,但是这一风格的架构没有真正奏效的原因与炒作周期相关。我认为这让它非常令人兴奋并吸引了人们的想象力。但实际上,相比于那些人们希望自动化地提供直接业务价值的事情来说,他们希望这些Agent做的事情其实要具体得多。比如说,他们希望Agent遵循的规则更多,或者他们希望Agent以特定的方式做事情。

所以,我认为在落地过程中,我们看到的这些Agent更像是我们所说的定制的认知架构——Agent会按照你希望的方式来做事。这里面当然有一些灵活性。否则,你只是编码一些固定的SOP。但我们今天看到的大多数Agent和助手运用了一种非常有针对性的思维方式。这只是更多的工作、更多地尝试去看到什么有效,什么无效,这更难做到也需要更长的时间来构建。我认为这就是为什么这些Agent和类似的东西在一年前不存在的原因。

什么是认知架构

Sonya Huang:既然你提到了认知架构,我也喜欢你对它们的思考方式的分析,也许你能解释一下什么是认知架构?以及我们应该如何思考它们,有没有一个好的思维框架?

Harrison Chase:是的,我对认知架构的理解基本上是你的LLM应用程序的系统架构是什么。我的意思是,如果你正在构建一个应用程序,其中有一些步骤使用了算法。你用这些算法来做什么?你是用它们来生成最终答案吗?你用它们在两件不同的事情之间做选择吗?还是你有一个非常复杂的、有很多不同分支的、也许有一些循环重复的,或者都在循环中运行这个LLM的循环,这些都是不同的认知架构的变体。认知架构只是一个花哨的说法,它实际上是从用户输入到用户输出,沿途发生的LLM调用的信息数据流的过程。

我们越来越多地看到,尤其是当人们试图将Agent实际投入生产时,这个流程是针对其应用程序在其领域中的使用方式设定的。所以一开始他们可能就想做一些特定的检查,之后可能有三个具体的步骤。然后每个步骤可能都有一个循环返回的选项,或者有两个单独的子步骤。

所以越来越多的人试图在他们的应用程序中约束和引导Agent,我们看到的基本上是更多自定义和定制的任务图。而我称它为认知架构的原因是,我认为LLM在推理和思考该做什么上花费了很多能源。所以我会准备一个如何完成任务的认知心理模型,然后将那个心理模型编码到某种软件系统中,以这种方式解决这个问题。

定制和硬编码是未来的发展方向还是权宜之计

Pat Grady:那你认为定制化和硬性编码这是Agent发展的方向吗?因为我从你那里听到了两件事。一个是,Agent非常定制化。第二是,Agent的很多方面都是硬性编码的。你认为这是我们的方向吗?或者你认为这是权宜之计,在某个时候,会出现更优雅的架构或一系列标准化的参考架构?

Harrison Chase:这是一个非常非常好的问题,也是我花了很多时间思考的问题。从一方面来看,你可以提出一个论点,如果模型在执行固定的计划方面变得非常好、很可靠,那么你可以依赖这个for循环,让它在循环中运行、调用LLM、决定做什么、采取行动,然后再次循环。我只需要将约束放在提示中,模型就会直接遵循这些。毫无疑问,虽然我确实认为模型在计划和推理方面会变得更好,但我不认为它们会达到这样一种水平,这不是做事情的最佳方式。原因有很多,首先是效率问题。如果你知道你总是希望在步骤A之后执行步骤B。你可以按固定的顺序安排它,减少非确定性和计算的耗能。其次是可靠性,我们正在谈论仍然是非确定性的东西。但是尤其是在企业环境中,你可能希望更精准地预测结果,如果它在步骤B之后执行步骤A可以更精准,那么你可以直接编码它。

我认为创建这些东西会变得更容易、更简单。但是实际上,这可能是一个有争议的或者有趣的观点。把它运行在一个循环中的架构可以被视为一个非常简单但通用的认知架构,而我们在生产中看到的是,定制的、复杂的认知架构,它们处在平面坐标轴的不同位置。所以这可能是一个非常复杂的计划步骤和反思循环,或者像思维树之类的东西。我实际上认为那个象限可能会随着时间的推移消失,因为很多通用的计划和反思会被训练到模型本身中,但仍然会有一堆不是为了通用训练的,不是通用计划的,不是通用反思的,不是通用控制循环的产品,基本上永远不会在模型中的。所以我对光谱的这两个端点非常看好。

Sonya Huang:所以你的意思是,LLM可以做非常通用的Agent推理,但是不能做你需要领域特定的推理。而这就是你不能真正构建到一个通用模型中的东西。

Harrison Chas:完全正确,我认为,思考定制认知架构的一种方式是,你基本上把计划的责任从LLM转移到人类身上。而其中一些计划,你会越来越转向固定模型和提示词。但我认为它们总是需要定制化的Agent,因为在它们的计划中很多任务实际上是非常复杂的,不过我认为我们需要一段时间才能非常可靠地做到这一点。

我们同时取得了很多进展,但仍有很多提升空间

Sonya Huang:看起来在过去的六个月左右,我们在Agent方面取得了很多进展,比如,我在读一篇普林斯顿的、关于SWE的论文,他们的编码Agent现在可以解决12.5%的GitHub问题,而当时只有3.8%,而且只是用了RAG的方法。所以感觉在过去的六个月里,我们取得了很多进展,但是只是解决12.5%的问题还不足以替代一个实习生,对吧?所以感觉我们仍然有很多提升空间。我很好奇,你认为我们在通用Agent和定制化构建Agent这两方面处于什么位置?比如,他们虽然只是达到了59%的可靠性,但他们达到了客户需要的阈值,这样才能将这些Agent部署到实际的场景中呢?

Harrison Chase:是的,SWE Agent是一个相对通用的Agent,因为它的目标是在一堆不同的GitHub存储库中工作。我认为,如果你看一下Vercel的v0,那可能比12.5%可靠得多,对吧?所以我认为这表明,确实有一些定制Agent,虽然没有达到59%的可靠性,但它们正在生产中使用。所以Elastic,我认为我们公开谈论他们可能做的事情,比如说在这点上部署了多个Agent。这周是RSA会议,我认为他们在RSA会上会宣布一些新的Agent。虽然我没有确切的可靠性数据,但我认为那些Agent它们足够可靠,能够投入生产。通用Agent仍然很困难。我们需要更长的上下文窗口,更好的计划,更好的推理,帮助这些通用Agent。

专注于让你的啤酒味道更好

Sonya Huang:你之前跟我分享了Jeff Bezos一个很棒的名言,“专注于让你的啤酒味道更好。”我认为这指的是,在20世纪初,酿酒厂在试图自己发电。我认为今天很多公司也在思考一个类似的问题:你认为控制你的认知架构真的会让你的“啤酒”味道更好吗?相比于你放弃对模型的控制,只构建UI和产品呢?

Harrison Chase:我认为这可能取决于你正在构建的认知架构的类型?回到前面的一些讨论,如果你正在构建一个通用的认知架构,我不认为这会让你的啤酒味道更好。我认为模型提供商会致力于这个通用规划,我认为他们会致力于这些你可以直接尝试的、通用认知架构。另一方面,如果你的认知架构基本上是:你将你的团队对某些事情的思考方式、内部业务流程或你知道的最佳的代码开发方法或开发这种特定类型代码、应用程序的方法进行编码。那这个答案就是,是的。我认为这绝对会让你的啤酒味道更好。特别是在实际的应用场景中,模型的推理逻辑、定制的商业逻辑或拟人化LLM做出来的心理模型要做到100%最好。在某种程度上,我认为这是你销售的关键东西。我认为UX、UI和分发绝对、仍然发挥作用。但是,我在通用和定制之间划分了这个区别,定制化的方法会让你架构提高一个层次。

Pat Grady: Harrison,在我们深入探讨人们构建这些东西的细节之前,我们能快速提升一个层次吗?我们的创始人唐·瓦伦丁以问“所以呢?”这个问题而闻名。所以我的问题是,那又怎样?假设自主Agent完美运行。这对世界意味着什么?如果那发生了,生活会有什么不同吗?

Harrison Chase:我认为在高层次上,作为人类我们能专注于一系列不同类型的工作。目前很多行业有很多重复的机械性工作,这些工作中的很多将会被自动化。而Agent的目的是让我们可以在更高层次上思考这些Agent应该做什么,并可能利用它们的输出进行更多创造性工作或基于这些输出做更多高杠杆的事情,基本上就是这样。

所以我认为,你可以直接启动整个公司,外包很多你通常需要雇人的职能。这样你就可以扮演一个有市场Agent、销售Agent的公司CEO的角色。类似Agent这样的东西可以让你将很多工作外包给Agent,让你可以做很多有趣的战略思考、产品思考,这取决于你的兴趣是什么。但我认为在高层次上,这将解放我们去做我们想做的和我们擅长的事情,并自动化很多我们可能不一定想做的事情。

Agent抓住用户需求

Pat Grady:你今天有没有看到什么有趣的例子,这些Agent在生产生活中已经应用了的呢?

Harrison Chase:我的意思是,我认为市面上最大的两种类别更受欢迎,一个是全方位的用户服务,一个是写代码。我认为用户服务是一个很好的例子,比如,我认为,很多时候人们需要用户服务,我们在Lang Chain也需要用户服务。所以如果我们能雇佣Agent来做那件事,那将会非常强大。

写代码很有趣,因为我认为写代码在某些方面需要哲学上的讨论。但我认为另一方面它真的很有创造性,需要对产品的思考、定位等等。它也可能限制人们的创造力。假设我妈妈想做一个网站,她不知道如何写代码,但是有一个Agent可以做那件事,那么她可以专注于网站的想法,确定网站项目的范围,但是可以用Agent自动化地写代码。

图片

图片来源:Upslash

所以我会说,在今天用户服务正在产生很大影响。很多人也对用Agent写代码感兴趣。我不认为我们在这方面已经很成熟。但那是我指出的第二个领域,那里有很多人在做有趣的事情。

Pat Grady:你对编码的看法很有趣,这也是我们对AI非常乐观的原因之一。这种想法缩小了从构想到执行的差距,或者说从梦想到现实的差距,你可以想出一个非常有创意的、有说服力的想法,但你可能没有手头的工具来将其变为现实,而AI是为此而生的。

Harrison Chase:是的,我认为这回到了Agent的目的上。它自动化地消除了阻碍你实现想法的东西,而且我也很喜欢“从想法到现实”这个说法。Agent可以自动化地消除你不一定知道怎么做,或不想考虑但需要做的事情,帮你创造你想要创造的东西。我认为这也是我花了很多时间思考的问题之一——在生成AI和Agent时代成为一个建设者意味着什么?在今天,成为一个软件开发者意味着你要么是一个工程师,要么雇佣工程师或类似的东西,对吧?但我认为在Agent和生成式AI的时代,成为一个建设者意味着,人们能够构建比他们今天能构建的更多的东西。因为他们可以以非常非常低的成本雇用和使用这些知识和建设者。因为这些LLM正在免费提供人工智能,我认为某些关于智能商品化的言论确实是对的,更多的建设者会出现。

反思、思维链和其他技术

Sonya Huang:你提到了反思、思维链和其他技术,也许你可以说说,到目前为止,我们学到的关于这些认知架构在Agent性能方面的能力?我很好奇你认为最有前途的认知架构是什么?

Harrison Chase:是的,为什么AutoGPT这些东西没有奏效这件事情值得谈谈。因为我认为很多认知架构就是为了应对这一点。早在那时,LLM甚至不能很好地推理出第一步该做什么,以及他们应该做什么作为第一步。所以我认为像思维链这样的提示技术在这里非常有帮助,它们基本上给了LLM更多的空间来思考,并一步步思考他们应该为特定类型的每一个步骤做什么。然后,这慢慢被训练到模型中。基本上每个人都希望模型能够做到这一点。所以,你应该将其训练到模型中。

然后,我们可以参考孙宇耀一篇很棒的论文,叫做ReAct,基本上是第一个Agent认知架构。它所做的是,让LLM预测下一步的行动,但它还加入了这个推理组件。这有点类似于思维链,它加入了这个推理组件,然后把它放在一个循环中,让它在每一步之前做这个推理的事情,然后你在那儿运行它。所以,随着模型越来越多地被训练到这种推理步骤中,这个显式推理步骤实际上变得越来越不必要,就像它们有点像被训练到思维链中,那个显式推理步骤变得越来越不必要。

所以如果你今天看到人们在做类似ReAct风格的Agent,他们往往只是使用函数调用,而没有复现ReAct论文中的显式思维过程。但它仍然是原来的循环,只不过是用了ReAct论文的名字而已。那是Agent最初的很多困难。我不会完全把这些称为架构。我把这些称为提示技术。

但是,现在我们已经让它工作了,所以现在有两个主要的问题:制定计划和实现你的目标。当我思考如何做事情时,我会下意识把我要做的步骤的顺序规划好,然后会去做每一步。但是模型在制定一个好的长期计划上还有所不足。如果你让模型在循环中运行,它每一步都会执行计划的一部分,但不一定完成。所以,这实际上是要求模型首先制定一个计划,然后跟踪它的进展并继续执行。

所以我认为我们看到的一些计划认知架构是这样的:首先,我们添加一个明确的步骤,让LLM生成一个计划。然后,我们按照这个计划一步步执行。我们确保每一步都执行到位,这样就能强制模型生成并执行一个长期计划,而不是仅仅生成一个五步计划,执行第一步后就认为自己完成了。

然后,我认为另一个相关的概念是反思,就是模型是否真正做好了它的工作。比如,我可能会生成一个计划,去获取某个答案。我可能会从互联网上找到答案,但它可能完全错误,或者搜索结果不准确。我不应该直接返回这个答案,而是应该思考我是否得到了正确的答案,是否需要重新做一些事情。如果你只是让模型在循环中运行,实际上是隐含地要求模型进行这种反思。为了解决这个问题,出现了一些认知架构,它们在模型执行一个或一系列动作后,添加一个显式步骤,让模型明确地思考它是否正确地完成了任务。

所以,计划和推理可能是两种更流行的通用认知架构。虽然有很多定制的认知架构,但那些通常与具体的业务逻辑更加紧密相关。而计划和推理是通用的,我们默认越来越多的架构将被训练到模型中。尽管如此,我认为还有一个非常有趣的问题,那就是这些架构在模型中能够达到多高的水平,但那可能是一个需要长期讨论的话题。

用户体验可以影响架构的有效性

Pat Grady:Harrison,在AI Ascent上你谈到的其中一个话题是用户体验(UX)。我们通常认为用户体验和架构处在光谱的两端——架构是幕后工作,而UX是前台展示。但是现在我们处在一个有趣的世界里,比如说,UX可以让你与Devin一起回到计划过程中某个偏离轨道的点,从而增强架构的有效性。你能否简单谈谈UX在Agent或LLM中的重要性,以及你在这方面看到的一些有趣的事情?

Harrison Chase: 是的,我对UX非常着迷,我认为在这个领域有很多非常有趣的工作可以做。之所以如此重要,是因为这些LLM还不完美,还不完全可靠,容易出错。因此,聊天作为一种UX在初始交互和应用中非常强大。你可以看到模型在做什么,它会实时显示响应,你可以很容易地通过回复来纠正它,或者提出后续问题。因此,我认为聊天已经成为目前的主导的UX的形式。虽然聊天有它的缺点,通常是一个AI消息,一个人类消息。如果人类在很大程度上还是处在循环中,这就非常类似于copilot的角色。而我认为你越把人类从循环中移除,它就越能为你做更多的事情,甚至是为你工作,这非常强大也具有启发性。

然而,LLM并不完美,它们会出错。那么如何平衡这两者呢?我们看到一些有趣的想法,比如Devin为Agent提供一个非常透明的操作记录。你能够知道Agent做了什么,这是第一步。第二步可能是,能够修改它正在做的事情或者它已经做过的事情。如果你看到它在第三步出错了,你可以回到那里,给它一些新指示,或者手动编辑它的决策,然后继续执行。

另一个有趣的UX模式是像收件箱一样收集用户的想法,Agent可以在需要时联系到人类。假设你有10个Agent在后台并行运行,它们可能会不时需要向人类澄清一些事情。因此,你有一个电子邮件收件箱,Agent会发送“帮助,帮助,我这里需要帮助”之类的信息,然后你在那时帮助它。

类似的还有Agent审查的模式。我认为这对于不同类型的写作或研究的Agent非常有用。比如GPT Researcher项目就有一些非常有趣的Agent架构。在这种情况下,你可以让Agent写一个初稿,然后我来审查并留下评论。有几种不同的方式可以实现这一点。最简单的方法是我一次性留下大量评论,然后Agent去修复所有这些问题。另一个非常有趣的UX是同时协作模式。就像Google Docs一样,人类和Agent同时工作,我留下评论,Agent修复,同时我在另一个地方留下评论。这种设置和工作方式非常复杂但非常有趣。

还有一个有趣的用户体验是Agent如何从这些交互中学习。我们在谈论人类不断纠正Agent或给予反馈。如果我必须重复100次同样的反馈,那将非常令人沮丧。因此,系统的架构如何使它能够从中学习,我认为非常有趣。所有这些问题都还在探索中,我们仍处于早期阶段,这也是我们花很多时间思考的问题。

还有一个有趣的UX是Agent如何从这些交互中学习。如果人类不断纠正Agent或给予反馈时必须重复100次同样的反馈,那真的非常令人沮丧。因此,如何让系统的架构使Agent能够从中学习,这是非常有趣的问题。这些问题还在探索中,我们仍处于早期阶段,这也是我们花很多时间思考的问题。

业务以外的需求

Pat Grady:Harrison,实际上你在开发者社区中非常活跃,密切关注社区中发生的事情以及开发者遇到的问题。你可能不知道,但你在开发者社区中的关注程度和参与度几乎是传奇。这些问题中有一些是Lang Chain需要解决的,你们正构建业务来解决这些问题。但我想你也会遇到许多超出你们当前业务范围的问题。所以我很好奇,在使用LLM或构建AI时遇到的各种问题中,有哪些是你们目前没有直接解决的,但是如果你有另一个业务,可能会去解决的有趣问题?

Harrison Chase:是的,我认为两个明显的领域是模型层和数据库层。我们没有构建向量数据库,但考虑合适的存储方式非常有趣。我们没有构建基础模型,也没有进行模型的微调。虽然我们希望做数据管理,但我们不构建微调基础设施。这些方面有像Fireworks这样的公司在做,我认为这些非常有趣,属于当前开发者遇到的问题。

我确实认为还有第二个问题,就是如果Agent成为未来,那么还会出现哪些基础设施问题?因为目前Agent还远没有达到足够可靠的程度,以至于能够形成一个完整的Agent产业经济。说实话,现在判断哪些问题我们会解决,哪些不会,还为时过早。

但是,我认为像Agent的身份验证、权限管理、支付等问题将会出现。实际上,有一个非常酷的初创公司正在研究Agent支付的相反方向,即Agent可以付钱给人类去做事情。所以,如果Agent变得普遍,那么我们需要什么样的工具和基础设施,这是非常有趣的一个问题,这与开发者社区构建LLM应用的需求有点不同。LLM应用已经成熟,而Agent技术才刚刚起步,还不完全成熟。因此,我认为这些公司在成熟度上是不同的。

Sonya Huang:你提到微调,说明你们不会涉足这个领域。但是提示和认知架构与微调几乎是相互替代的。你如何看待当前人们使用提示与微调的现状,以及它们的发展趋势呢?

Harrison Chase:我认为微调和认知架构并不是相互替代的。实际上,我认为它们在许多方面是互补的。当你有更多定制的认知架构时,你要求每个Agent、每个节点或系统的每个部分执行的任务范围会变得明确。而这对于微调来说实际上非常有趣。

LangSmith和LangGraph

Sonya Huang:那么,能谈谈LangSmith和LangGraph吗?Pat刚才问了你们没有解决的问题,我好奇你们解决了哪些问题?特别是关于管理状态和控制Agent相关的问题,你们的产品是如何解决这些问题的?

Harrison Chase:我们可以稍微回顾一下Lang Chain最初推出的时候,我认为开源项目确实解决了一些问题。其中一个主要问题是标准化不同组件的接口。这让我们可以与各种模型、矢量存储、工具、数据库等进行了大量集成,这是Lang Chain的重要价值所在,也是人们使用Lang Chain的原因之一。

在Lang Chain中,还有许多高层接口,可以轻松使用现成的RAG或SQL、Q&A等功能。此外,在低层次运行时,用于动态构建链条或有向图(DAGs),也就是有向流。我认为这种区分非常重要,因为当我们谈论LangGraph及其存在的原因时,它的本质是解决一个略有不同的编排问题,也就是你希望这些可定制的循环和可控的流程仍然处于编排空间内。我将“链条”和这些循环区分开来,以便更好地理解它们的用途。

Harrison Chase:我认为,在使用LangGraph时,当循环开始时,会出现许多其他问题,其中一个主要问题是持久层,它可以帮你恢复,并让它们在后台以异步方式运行。因此,我们越来越多地考虑这些长时间运行的循环和人类在循环中应用的部署问题,我们会开始解决这些问题。

LangSmith贯穿其中,我们从公司成立之初就一直在研究它。它基本上用于LLM应用的可观察性和测试。从一开始我们就注意到,我们将LLM放在系统中心但是LLM是非确定性的。因此你必须有良好的可观察性和测试,以便有信心将其投入生产。因此我们开始构建LangSmith。它可以与Lang Chain一起工作,也可以独立工作。还有一些其他功能,如提示集线器,用于管理提示,以及人类注释,用于进行人类审核。我认为这是非常重要的,因为LLM是非确定性的,所以可观察性变得更加重要,测试也变得更难。而且你需要人类更频繁地审查结果,而不仅仅是像软件测试那样。LangSmith的许多工具和路由功能在这些方面都能提供帮助。

可观察性工具与新的架构方法

Pat Grady:实际上,关于这个问题,Harrison,你是否有一个经验法则,来判断现有的可观察性、测试、现有的任何适用于其他系统的方法,是否也适用于LLM?以及LLM有多大的不同,是否需要一个新产品或新的架构、新的方法来解决这个问题呢?

Harrison Chase:是的,我在测试和可观察性方面思考了很多。我觉得这里显然需要一些新的东西。也许是因为在多步骤应用中,你需要一个观察层的应用来辅助你获得对产品的见解。我认为像Datadog这样的产品有很好的监控功能,但对于特定的追踪,可能无法像LangSmith那样容易获得见解。我认为很多人花时间查看特定的追踪,因为他们试图调试其中的问题,因为使用LLM时会发生很多非确定性的情况。因此,在可观察性方面,总感觉需要构建一些新的东西。

Harrison Chase:测试非常有趣,我对此想了很多。我认为有两个新的独特之处。一个是成对比较的想法。当我进行软件测试时,通常不进行结果比较,大多数情况下是通过或失败。如果我在进行比较,可能是比较延迟峰值之类的东西,但不一定是两个单独的单元测试的成对比较。然而,如果我们看一些LLM的评估,主要被信任的评估是LLMSYS那种竞技场风格的评估,你需要并排评判两个项目。所以我认为这种成对比较非常重要,并且与传统软件测试有很大不同。

另一个方面取决于你如何设置评估,你可能在任何时候都不会有100%的通过率。因此,跟踪它的进展,确保你在改进或至少没有倒退,这一点非常重要。我认为这与软件测试不同,因为在软件测试中,你通常希望所有测试都通过。

Harrison Chase:第三个部分是人类在循环中的作用。我认为我们仍然需要人类查看结果。也许“查看”这个词不太准确,因为有很多缺点,比如人需要花费大量时间查看这些内容。但是,这通常比完全依赖自动化系统更可靠。如果你与软件测试相比,软件可以测试2是否等于2,就像我通过看它来判断2是否等于2一样好。因此,如何让人类参与到这个测试过程中也非常有趣。

快速问答环节

Pat Grady:我有几个非常常见的问题要问你。

Harrison Chase:好啊,我喜欢常见的问题。

Pat Grady:在AI领域中,你最钦佩谁?

Harrison Chase:这是个好问题。我认为OpenAI在过去一年半中的成就非常令人印象深刻,所以我钦佩Sam和那里的每一个人。Logan在那里的时候也做得很好,他把这些概念带给大众。Sam显然为很多事情作出了巨大贡献。还有一些不太知名的人,比如David Dohan,他是一位出色的研究员,他早期做了一些模型级联的研究论文,在Lang Chain早期我与他交流过,他对我思考方式的影响非常大。我还钦佩Mark Zuckerberg和Facebook在开源方面的努力,特别是Llama项目。

Pat Grady:说到这一点,有没有哪位CEO或领导者是你模仿的对象,或者你从中学到了很多关于领导风格的东西?

Harrison Chase:这是个好问题。我认为自己更倾向于产品导向型CEO,所以观看Zuckerberg的工作很有趣。Brian Chesky在Sequoia Base Camp上的演讲也让我印象深刻,他对产品和公司建设的思考方式让我很钦佩。Brian通常是我回答这个问题的首选。

Pat Grady:对于试图构建AI的创业者或未来将要创业的人,你有什么建议?

Harrison Chase:只管去构建和尝试。尽管现在处于非常早期的阶段,还有很多东西需要去构建。比如说,GPT-5的发布可能会使一些工作失去意义,但你会在过程中学到很多。我坚信这是一项变革性技术,所以越早了解越好。

Pat Grady:关于这一点,我记得在2023年初的第一次AI Ascent会议上,你一直在写代码。那时候我们刚开始了解你。我记得你整天都在写代码,演讲你也在听,但一直在写代码。所以,你对于“只管去构建”这个建议是身体力行的。

Harrison Chase:那天OpenAI发布了插件之类的东西,所以有很多事情要忙。所以在这方面让你失望了,对不起。我认为我今年在Sequoia Ascent我没有这样做。

Sonya Huang:感谢你的参与,我们非常感激。

原文:LangChain’s Harrison Chase on Building the Orchestration Layer for AI Agents

https://www.sequoiacap.com/podcast/training-data-harrison-chase/

编译:Joy,金融系在读,对风投、AI、前沿硬科技感兴趣

-----------END-----------

🚀 我们正在招募新一期的实习生

图片

🚀 我们正在寻找有创造力的00后创业者

图片

图片

图片

关于Z Potentials

图片