扒了扒钉钉 AI 助理市场,发现它真的有点卷

图片
图片系钉钉AI助理生成
人均专属AI助理时代来了?
大部分人对大模型的印象还停留在聊聊天,把玩一阵也就丢在一旁,因为确实不知道能用大模型做什么,当OpenAI推出了GPT Store之后,业内公认,GPT Store是大模型生态构建的核心,AI Agent(智能体)也被认为是距离用户最近且主流的大模型使用方式。
那么问题来了,有多少人用上了AI Agent?有多少人想用却找不到合适的AI Agent?有多少人希望能自己构建一个专属版AI Agent?
钛媒体App观察到,国内外大厂都推出了自己的AI Agent构建平台,也不乏已经开源的平台,基本功能都大同小异,这条赛道还没实实在在地挣钱,就开始卷起来了。
就算是GPT Store,在经历了最初的火热之后,也难免陷入到窘境——大量AI Agent重复且质量低,还存在内容侵权和数据安全风险,开发者用得不顺手也挣不到钱,AI应用商店的模式还没有跑通。
AI Agent方向是确定的,路途是曲折的,总得有人先去趟路,风险和机会是一张底牌的两面。4月18日,钉钉 AI 助理市场(AI Agent Store)正式上线,钛媒体也第一时间上手测试。
AI助理,得离用户场景够近
进入钉钉AI助理商店界面,直观能看到各种琳琅满目的AI助理,大致可分为三类:钉钉官方出品的Al助理,生态伙伴和开发者构建的Al助理,个体用户创造的Al助理。
对于刚刚起步的AI Agent Store,首先得做到“有”,然后就是不断地优化。常规的AI助理都能在商店中找到,钉钉将大量AI助理分门别类,供君挑选。
与其他大模型厂商不同的是,单纯的大模型厂商普遍缺乏贴近用户的使用场景,AI助理也就离用户不够近。钉钉的优势在于,大量用户每天使用钉钉工作,也就诞生了和行业场景紧密相关的AI助理。
钉钉将其分为四大类,角色AI助理——每个人的生活娱乐、办公小助手,可与大模型对话,实时搜索、问答特定领域的信息。
专业AI助理——在大语言模型基础上,完成专业知识或行业知识训练的AI助理,例如建筑AI领域的AI助手“小筑”,学习了建筑行业的专业知识,用户让它找文件、看资讯、查找专业政策,并支持用户上传设计线稿图,快速生成建筑效果图。
多任务处理AI助理——如杭州市公安局搭建的公安政务服务助手,不仅能够解答政务服务,如从居住证申领到出入境业务办理的一站式服务,还打通了多项应用,可以根据对话的需求,添加个人日程或者填写意见收集表等操作;
跨应用AI助理——由用友薪酬、墨见、携程商旅等SaaS服务商提供的超过30个AI助理,不仅具备问答、专业知识等能力,还打通了原有SaaS应用。
2024年1月9日,钉钉更新至7.5版本,并且全量上线AI Agent产品“AI助理”,到4月18日,首批超过200个AI助理亮相,绝对数量不算多,但体验效果还不错,可能也是严进严出的策略,以及离用户够近的场景优势。
钛媒体App先挑选了一个工作类常用AI助理——PPT制作师,并让AI助理帮我制作了一份“关于AI助理”的PPT(真不是套娃),限定在6页内,以免大模型太过发散。
图片
于是,PPT大纲很快就制作出来,基本逻辑都没什么问题,照着做就能做个大概,而且具体的内容方向也给出了建议,比起原来从零开始做PPT能轻松不少。
但这距离我们的成品还有一段距离,以第一张PPT为例,我们按照AI助理输出的内容作为prompt提示词,直接让AI助理输出图片。
图片
AI助理给出了图片,说明其具备多模态能力。当然,此时AI助理又给出了新的建议,在图片底部加上名字和日期,并选择与主题色调相协调的深灰色或金属质感的颜色,字体大小适中且清晰可辨,排列整齐,置于幻灯片底部边缘附近。
当我把这些继续作为prompt提示词,试图让AI助理直接给出成品时——AI助理拒绝了我,看来有些操作还需要自己上手。
图片
请输入图说
为了进一步测试AI助理处理上下文的记忆能力,钛媒体给出了新的测试题目,“在第三页PPT加入不同厂商在AI Agent领域的对比”,看看AI助理是否能记住前边的对话,并且能够借助外部信息来完善PPT,结果还是比较可靠。
图片
请输入图说
随后钛媒体又测试了多个不同类型的助理,例如小红书账号定位大师,我给出的问题是——“编辑一条小红书,主题内容是钉钉上线AI助理这件事,要求结合行业趋势和钉钉的优势,普通人也能听懂,字数不超过五百字,给出适合小红书风格的标题”。
图片
说真的,想的还蛮周到,基本只需要再按照个人的风格和喜好,稍加修改就可以发布,省了不少事。
再如短视频脚本助手,我给出的问题是——“我要拍摄一个代码大赛的短视频,画面要体现大赛的紧张和刺激,从赛前、赛中和赛后都要有镜头,三部分时长分别为30秒、90秒、30秒,可以给我具体的短视频脚本么?”
图片
受限于篇幅我们截取了一部分,AI助手从拍摄要求、背景、服装和分镜脚本给出了较为详细的回答,依然是稍加修改可以拿来用的程度。
随后我们又测试了一款法律助理“通义法睿”,问题是“小明离职三年,发现前公司没有按照实发工资缴纳公积金,他应该怎么办?”
图片
虽然问题有些粗糙,但AI助理给的答案也较为完整,提供了条例依据,以及先做什么、再做什么的具体操作。
结合多款AI助理的测试结果可以得出结论,大部分AI助理能够理解给出的指令,并且提供较为详细的建议,在“胡说八道”和“幻觉”这两个问题方面有了改进。
值得一提的是,prompt提示词写的越具体,AI助理给出的答案也就更精准,比如“我想做个代码大赛的短视频文案”,AI助手也不知道要什么内容,答案也就可能不符合我们的需求。
钉钉AI助理市场还提供了“钉钉官方客服”“钉钉AI助理答疑”,在使用过程中可以边问边做,能解答大部分的问题。
当前AI助理的能力集中在总结、创作、数据分析、工具增强等方面,但是,AI助理目前的执行力还比较有限,一是穿透到个人的信息,给出个性化的信息和建议,这涉及到数据安全问题,还需要谨慎;二是,一些需要一系列操作才能完成的事,AI助理现在的能力还有些单薄。
实际上,这也是目前AI Agent正在努力的方向,要改变“语言的巨人,行动的矮子”的形象。
撸个“速记整理师”,“能好怎”?
钉钉AI 助理市场琳琅满目,但都是别人做的,自己能做么,好做么,怎么做?
首先,我们进入到创作AI助理界面,其中需要我们设置的内容包括名称、头像、人物设定、语言风格和欢迎语等,按照提示一步步填写即可。我将其设置为“速记整理师”,也是码字人的高频需求。
然后我们可以选择特定知识库、文档或上传文件,对 AI 助理进行训练,当然大模型本身就有一定的泛化能力,上传内容可以做到更精确地训练。
图片
接着是为“速记整理师”配置需要的 AI 能力,可直接选择官方能力,或者配置自定义能力,配置官方能力只需要点选,自定义能力则需要一些编程基础。
AI助理市场连接了钉钉积累的SaaS应用、低代码应用生态,并通过开放能力连接企业自建系统、外部第三方平台,创造AI助理的门槛大幅降低。
据悉,官方能力包括钉钉助手、每日小结、待办、日程、智能创作等;
第三方能力接入能力目前已预置天气查询、地图查询(高德能力)、病症查询、药品查询、汇率查询、1688搜索、淘宝搜索、论文检索(arXiv网站)、OCR识别(车牌照、驾驶证、行驶证、银行卡、身份证、火车票、发票) 等三方工具。 
图片
结合我们创作的“速记整理师”来看,基本能力可以一键实现,但要想达到个人专属AI助理的高阶能力,需要更多内容“投喂”,也需要规划行动能力,才能实现更好的效果,要靠专业开发者实现。
据了解,钉钉AI助理已支持拟人操作、工作流、自定义能力三种开发方式。
“拟人操作”可让AI学习并模拟人来操作应用。用户给AI演示一遍,不需任何代码,AI助理就能学习用户的操作流程,并模拟该操作流程。此外,拟人操作支持泛化能力,不需再次学习就能举一反三,处理同类型操作。“工作流”则针对解决复杂性、多环节任务,通过对AI执行流程进行编排,实现自动、逐步完成多环节操作,使得AI助理能够执行复杂的批量任务。工作流提供多类组件,包括网页访问请求、API接口调用,建日程、发消息等钉钉功能,以及钉钉所有连接器的选择。针对专业开发者的高阶需求,“自定义能力”也支持代码开发,完成对企业存量应用的调用,或钉钉外的视频、资讯、电商等各类第三方平台连接。比如,企业创建的差旅AI助理,可以根据指令在第三方平台完成差旅订机票、酒店、行程安排等工作。
制作好的AI助理支持权限配置,创建时可以选择助理的可见与可使用范围,最小支持分配到特定人员,可以一键保存、发布到应用商店,也可以转发给特定人使用。
参照苹果和安卓应用商店,专业开发者开发,个人用户使用,大模型能够让更多的人参与到开发过程,AI Agent的分层需求,还在动态调整和满足的过程中。
总结
AI Agent还处于产业发展的早期,不要期盼AI助理无所不能,要明确助理定位,从单点出发提升效率,再逐步丰富它的工作。保证自己既不落后也不担心过于超前。话说回来,要是AI助理啥都能干,那“人”也太没有门槛了。
AI助理的功能越是强大,越会落在千千万万个用户场景里,哪怕是同类AI助理的某个差别,可能都会带来巨大效果和效率差异。
感知、记忆、规划和行动能力,决定了一个AI Agent能否满足需求,前三者相对较为完善,行动能力将决定AI助理的价值。
如果把大模型比喻成大脑,那么钉钉其实有相对齐全的“五感”和“四肢”,钉钉平台有大量的场景和经验,未来AI助理的丰富程度、价值厚度、分成机制等因素,是AI Agent商店的关键要素。
AI助理不要在低层次的竞争中“卷”,例如钉钉没有卷数量,而是卷质量,固然前期难度更大,但后期可能会有更大的回报。平台厂商有各自的优势,短期内将是群雄并起,快速演进的过程,大家都在试图塑造AI助理——应用场景的正循环。