生成式AI有望在未来几年彻底改变各种工作。未来,我们中的许多人会发现,我们的职业成功会取决于我们从ChatGPT等大语言模型(LLM)中获得最佳输出,以及与之一起学习和成长的能力。要在这个与AI合作的新时代脱颖而出,多数人将需要我们称为“融合技能”(fusion skills),即智能审问(intelligent interrogation)、判断整合(judgment integration)和互惠互学(reciprocal apprenticing)中的一种或多种技能。
智能审问涉及以能够产生更好推理和结果的方式提示LLM(或通俗来说,给他们指令),也就是用AI思考的能力,例如金融服务公司的客服可能会用它寻找复杂问题的答案回复客户,药理学家用它协助研究药物化合物和分子相互作用,营销人员用来挖掘数据集找到最优的零售定价。
判断整合是指当生成式AI模型不确定该怎么做,或者在推理中缺少必要的商业或道德背景时,引入人的判断。这样做的目的是让人机交互的结果更加值得信赖。判断整合需要我们知道介入的时间、地方和方式,其有效性是通过AI输出的可靠性、准确性和可解释性来衡量的。
互惠互学方面,你可以通过将丰富的数据和组织知识融入给出的提示,帮助AI了解业务任务和需求,从而训练AI成为合作创造者。这是一种根据公司具体业务背景定制生成式AI的技能,这样它就可以得出理想的结果。这样做时,你自己也能学会如何训练AI来应对更复杂的挑战。曾经只有数据科学家和搭建架构的数据分析师才需要这种能力,现在互惠互学在非技术岗位上变得越来越重要。
为什么你需要系统地发展这些思考、建立信任和定制的新技能?实证研究一致表明,临时指令——今天大多数员工提示LLM的方式——会导致不可靠或糟糕的结果,尤其是在复杂的推理任务中。从客户服务、市场营销、物流到研发等,各个职能部门中都是如此。对我们所有人来说,在工作中更加严格地使用生成式AI至关重要。本文将介绍如何做到这一点。
聪明提问
面对LLM这样大规模且复杂,又基于大量数据进行训练,由概率而非人类逻辑驱动的系统,如何提高其输出?可以尝试以下几种方式。
细分思考步骤。引导生成式AI时,需要将它应该遵循的过程分解为不同的组成部分,然后努力优化每一步——就像第一波科学管理在工业制造中做的那样。然而,AI生成的流程不是流水线,而是一个思维链,是通过这个链来寻求结果。研究表明,以这种方式指导生成式AI工具分解推理任务时,它们的性能会显著提高。正如最早探索思维链推理的 OpenAI研究员Jason Wei所证明的,这在处理棘手问题时尤为明显。
事实上,在LLM的指令中加入“让我们一步一步思考 ”这样简单的话,就可以在从数学到战略推理的一系列任务中,将其输出的准确性提高三倍以上。假设你的生成式AI提示是“我的部门有50万美元的预算,已经在设备上花费了20%,并为新员工分配了30%。预算刚增加了5万美元,我们还有多少预算?让我们一步步思考。”该模型将提出“最初,你的部门有50万美元,在设备上花费了20%,即10万美元,剩下40万美元,为新员工分配了30%,即15万美元,这将预算降至25万美元。最后,你最近获得了5万美元的预算增加,则剩下30万美元。”虽然大多数人可以心算出这类数学题,但问题是LLM(工作速度更快)可以详细说明他们在更复杂的定量问题上做了哪些工作,例如找到销售代表在几个城市间的最短路线。这就创建了一个可追溯的推理链,而不是在黑箱处理后吐出一个答案,这样就可以验证结果的准确性。
分阶段培训LLM。对于需要职业和领域知识的复杂任务的人机协作,例如法律、医学、科学研发或库存管理,可以分阶段为工作引入AI,以产生更好结果。
例如,麻省理工学院研究人员泰勒·罗斯(Tyler D. Ross)和阿什温·戈皮纳特(Ashwin Gopinath)最近探索了开发能够整合各种实验数据,并生成可测试假设的“AI科学家”的可能性。他们发现,当研究人员将复杂任务分解为一系列子任务以供模型学习时,ChatGPT 3.5-Turbo可以进行微调以学习DNA的结构生物物理学。在库存管理等非科学领域,子任务阶段可能包括需求预测、库存数据收集、重新订购预测、订单数量评估和绩效评估。对于每个连续的子任务,管理人员都要利用自身领域的专业知识和信息,对模型进行训练、测试和验证。
用LLM进行创造性探索。从战略设计到新产品开发,许多工作流程都是开放式和迭代的。要在这些活动中充分发挥人机交互的作用,就要引导机器将通往解决方案的多种潜在路径可视化,并以不那么线性和二元对立的方式给出回复。
正如研究员菲利普·肖内格(Philipp Schoenegger)、菲利普·特特洛克(Philip Tetlock)及其同事最近展示的,这种智能提问可以提高LLM对复杂金融和政治事件的准确预测能力。他们将人类预测员与GPT-4助手配对,这些助手已经准备好了丰富详细的提示,成为了“超级预测员”,可以指出可能结果的概率和不确定性的范围,并提供支持和反对每种结果的论据。研究人员发现,这些助手做出的预测(从某日的道琼斯运输业平均指数的收盘值,到2023年12月通过地中海进入欧洲的移民数量),比未被提示的 LLM 所做的预测准确率高出 43%。
纳入个人判断
将专家和道德以及人为洞察纳入这个等式,对于生成式AI的输出至关重要,这些输出将会值得信赖、准确、可解释,并会对社会产生积极影响。以下是部分可以使用的技术:
整合检索增强生成(RAG)。LLM不仅可能产生偏差幻觉,它们接受训练所依据的信息和数据集往往都是多年前的。与LLM合作时,人们经常需要判断输出中可靠、相关和最新信息的重要程度。如果是这样,你可以使用RAG将权威知识库中的信息添加到现成的LLM训练源中,这样有助于排除虚假、过时和有误的信息。例如,制药研究人员可能会使用RAG检索人类基因组数据库、科学期刊上最新发布的文章、涵盖临床前研究的数据库和FDA指南。要进行相关设置,我们通常需要IT团队的帮助,他们可以说出它是否已经或可以集成到我们的工作流程中,额外提升工作质量。
保护隐私并避免偏向。如果要在AI提示中使用机密数据或专有信息,那么只能使用公司防火墙内经公司批准的模型,绝对不能使用开源或公共LLM。在公司政策允许的情况下,如果LLM应用程序编程接口的服务条款规定不会保留私人信息用于模型训练,就可以使用私人信息。
注意你的提示中可能包含的偏向。例如,一位金融分析师要求LLM解释“昨天的季度报告如何预示着该公司将迎来五年的增长周期”,这就显示出了近因偏差(recency bias),即在预测未来事件时偏重最新信息的倾向。
LLM供应商正在想办法帮助用户解决这些问题。微软和谷歌正在添加功能,帮助用户检查有害的提示和回复。Salesforce开发了AI架构,可以在组织提示时覆盖所有机密客户数据;防止此类数据与第三方LLM共享;对有毒、偏见和隐私等风险进行评分;并收集有关改进提示模板的反馈意见。不过,归根结底,最重要的还是你,这一循环中人的判断。
核实可疑输出。对幻觉和错误保持高度警惕,根据目前的研究,即使有大量数据工程和其他干预措施,幻觉和错误依然难以避免。正如加州大学伯克利分校研究员安真宇(Jinwoo Ahn)和申奎承(Kyuseung Shin)指出的,遇到看起来不对劲的输出时,LLM用户经常会条件反射地让模型进行反复尝试,进而逐渐降低了回复质量。研究人员建议,相反,我们可以确定AI出错的步骤,并让单独的LLM执行这一步,首先将其分解为较小的单个问题,然后使用输出来调整第一个LLM。想象一下,一位科学家使用OpenAI的ChatGPT通过一系列逐步计算帮助开发一种新聚合物。在思维链中的任何一点发现错误时,她可以要求Anthropic开发的大语言模型Claude将该步骤分解成更小的子问题,并解释其推理。然后,她可以将这些信息输入ChatGPT并要求其完善答案。从本质上讲,这种技术将思维链原则应用在了纠正我们判断有误的输出上。
将AI变成学徒
随着LLM规模和复杂性的增加,它们可能会表现出“涌现性质”(Emergent properties),比如高级推理,即它们没有受过训练,但在你提供上下文数据或知识后,这些技能就会出现。为了推动这一技能的发展,我们可以采取以下步骤。
为模型提供“思维演示”。在给LLM提出一个要解决的问题之前,可以先让它以某种方式进行思考。例如,你可以教它“从少到多”的推理方法,向AI展示如何将一个复杂难题分解成几个更小、更简单的难题,先解决难度最小的问题,将答案作为解决下一个问题的基础,以此类推。谷歌DeepMind的Denny Zhou及其同事已经证明,“从最少到最多”的方法可以将AI输出的准确率从16%提高到99%。
想象一位需要构思新系列的健身服装品牌的营销经理,他可以把这个问题分解成以下几步:
1. 受众。找出可以成为潜在客户的健身爱好者——这是一项相对容易的任务,特别是对于一个根据公司客户数据训练的模型。
2. 消息传递。在之前确定受众的基础上,强调性能、舒适度和风格的信息。这是一个更具挑战性和创造性的问题。
3. 渠道。选择社交媒体、健身博客和网红伙伴,这些人会将信息传递给受众。
4.资源。根据渠道的选择分配预算(这往往是所有组织中最有争议的问题)。
训练LLM学习新流程。你可以通过让它在提示的上下文中浏览一组示例,教会AI如何执行任务。这叫作“上下文学习”(in-context learning),这样你就可以调整预训练的LLM,如GPT-4、Claude和Llama,而跳过调整参数这一偶尔费时费力的过程。例如,研究人员在《自然》杂志发文称,他们利用放射学报告、病人提问、进展记录和医患对话的例子给出提示,向LLM演示了如何总结医疗信息。之后他们发现,81%的LLM生成的摘要会等同或优于人类生成的摘要。
当用户从使用简单的问题或指令开始,逐渐以越来越复杂和细微的方式描述任务时,互惠学习随之产生。用户可以添加上下文,调整措辞,看看模型如何回复,进行测试,直到得出理想结果。
获得新的融合技能
要广泛掌握生成式AI,不仅需要企业的大量投资,还需要个人的主动性、学习和努力。虽然少数公司正在提供相关培训,但大多数公司还没有制定出健全的计划。事实上,2024年对七千名专业人士的调查中,我们发现,虽然94%的人表示他们准备学习与生成式AI合作的新技能,但只有5%的人表示,自己的雇主正在积极开展大规模的员工培训。因此,我们中的许多人还是要自力更生,跟上LLM的快速发展,以及将高水平研究转化为各种工作和行业实践的步伐。
接下来:获得为实际工作流程和多模态大型语言模型(MLLMs)进行思想链提示的技能,这些模型集成了不同类型的数据,如文本、音频、视频和图像,同时还提供了这些格式的输出。一组研究人员发现,思想链提示将MLLMs的性能最高提高到了100%。早期采用者已经在测试这些方法,不过还不够成熟,无法广泛采用。
AI革命不是正在到来,而是已经到来。领先的公司正在利用这项技术重新构想跨行业、跨职能和跨岗位的流程。生成式AI大大提高了标准,要求我们用AI思考,保证我们信任它,并不断对其进行量身定制,来使自己表现得更好。尽管生成式AI是在人与机器间建立更多共生关系的延伸,但它在技术史上也是独一无二的。没有任何一项重大创新能以这样的速度发展。知识工作的变革速度之快、力度之大,甚至超出了我们许多人的想象。做好准备,未来商业的驱动力将不仅是生成式AI,更是懂得如何最有效使用这一工具的人。
关键词:AI
詹姆斯·威尔逊(H. James Wilson)保罗·多尔蒂 (Paul R.Daugherty)| 文
詹姆斯·威尔逊是埃森哲研究部全球技术研究与思想领导力董事总经理。保罗·多尔蒂是埃森哲首席技术和创新官。他们是《人+机器:重新想象AI时代的工作》(Human + Machine: Reimagining Work in the Age of AI,《哈佛商业评论》出版社,全新补充版,2024)的合著者。
飞书、DeepL | 译 孙燕 | 编辑