AI手机第一个杀手级应用，是“AI读屏”？

锌产业

2024-10-27 09:01发布于北京科技领域创作者

作者 | 山竹

出品 | 锌产业

经过一年多的摇旗呐喊，AI手机终于还是在2024年完成了对智能手机的替代。

至少在概念上，几大主流手机厂商今年在传播口径上都已经陆续完成了向AI手机的转变，就连苹果也高调选择了与OpenAI联姻。

即便如此，对于大多数消费者来说，依然没有弄明白「AI手机」和「智能手机」究竟有何不同。

关于AI手机，我今年看到最多、也是最直接的AI功能是「AI读屏」：

手机搭载的智能体像人类一样识别出手机屏幕上的内容，然后一步一步按人类的思维逻辑完成常见的诸如线上购物、朋友圈点赞评论等功能。

与智能手机中的AI不同的是：

这样的AI有了明显的“思维链”，实现逻辑更为复杂。

与智能手机时代的功能设计逻辑不同的是：

这次，「AI读屏」功能的后台执行逻辑，被手机厂商在手机屏幕上完整呈现了出来。

对于大多数普通消费者来说，人工智能的自动化能力第一次被具象化，带来的是最直接的视觉冲击。

‍那么，这样的“读屏术”在技术上是如何实现的？

微软谷歌神仙过招，端侧AI雏形初显

大模型炸场后，微软和谷歌的往来过招，成了这场旷世之争的看点，AI手机的“读屏术”正是在这样的神仙过招中逐渐成形。

2023年2月8日，微软New Bing（Bing AI）发布，这是微软与OpenAI联手后，借生成式AI面向搜索引擎发起的新一轮冲击，New Bing在ChatGPT加持下，曾斩获不小市场热度，也一度把谷歌吓得不轻。

面对被视为ChatGPT版的New Bing，谷歌随后祭出了自己的Bard。

Bard是由谷歌内部早在2021年就已经对外发布、同样是基于Transformer架构的LaMDA提供支持，但当时还是一个实验性的聊天机器人。

这是谷歌和微软在生成式AI领域第一次正面较量，双方的这次较量，让搜索引擎这一互联网老产品，有了一些Chat新花样。

不过，此时的生成式AI，还没有对端侧造成直接冲击。

真正的冲击，是在微软Copilot发布后。

2023年3月16日，微软对外官宣，正式为Microsoft 365应用加持Copilot服务（Microsoft 365 Copilot），在将生成式AI叠加到办公软件后，真正的内容生成魔力开始成为生产力工具的一部分。

大模型由此也在企业办公软件领域形成了一股潮流，开启了抢滩登陆模式。

就谷歌和微软两大科技巨头而言，为了做出生成式AI技术模式下的杀手级应用，他们动用了生态力量——分别将Windows生态和安卓生态面向大模型全面打开。

这之后，二者的大模型之争开始下沉到端侧。

经过大概半年试错和打磨后，谷歌和微软分别在端侧拿出了自己的“关键作品”：

谷歌是在2023年10月发布的pixel 8系列手机上增加了一个名为Circle to Search的功能。

有了这一功能，只要你对着手机屏幕上的图片圈出你想了解的产品，谷歌AI就可以自动搜索出这一产品的相关信息和出处。

这一功能后来也被三星拿去作为Galaxy AI的主打功能，对外宣传推广。

实际上，在这一功能出现之前谷歌对Bard进行过一次升级，更新后的Bard可以从Gmail、Docs、谷歌地图、YouTube等应用中总结信息，也是在那时，个人本地知识库开始被谷歌用于深度检索（也就是RAG），并由此衍生出为用户提供出行建议、日程安排等功能的个人助理。

Circle to Search自然是承袭了这一能力。

微软则是在2024年5月20日AI PC发布会上官宣发布了Recall功能。

这一功能是通过微软Copilot，帮助用户根据记忆点或时间线来跳回到此前某个时间点电脑上显示的原始内容。

实际上，除了这两位AI大佬外，当初为了拿下苹果的大模型订单并获得新一轮融资，OpenAI发布了GPT-4o，并秀了一波视觉识别的功能。

通过手机摄像头，让GPT-4o解写在纸上的数学题，甚至识别出现在镜头前用户的情绪。

检索增强生成（RAG）和包括语言、视觉在内的多模态大模型技术的成熟，以及大模型在端侧的下沉和应用，让AI读屏功能在手机上出现成了顺理成章。

「AI读屏」工作流

2024年的手机圈，AI读屏功能正在迅速成为标配。

仅以这周手机圈密集的发布会上对外公布的信息来看：

先有华为在鸿蒙发布会上对外发布的小艺圈选功能（类似谷歌的Circle to Search），又有荣耀在更新新系统时对外发布演示的“一句话点咖啡”功能。

在OPPO Find X8系列发布会上，OPPO更为直接地上新了「一键问屏」功能。

或许是因为是针对手机系统的发布会，荣耀虽然请了沈腾作为公司的AI大使，还做了主题为“AI就是一句话的事儿”广告，但并没有针对这一功能给出明确的诸如「AI读屏」或「一键问屏」这样的命名。

不过，荣耀CEO赵明倒是在发布会上讲明白了「AI读屏」功能的具体工作流。

在赵明的介绍中，AI读屏的工作流可以分为三步（以“帮我点杯喝的吧，我有些困了”语音指令为例）：

第一步，模糊意图理解。

手机内置的智能体将语音指令进行拆分理解，分析用户意图是“困了”想点杯解困的“喝的”，筛选出可能选项（咖啡、绿茶、凉茶等）。

第二步，复杂任务规划。

首先智能体根据手机时间信息、定位信息，识别出最终配送地址；

然后智能体根据手机已有的本地个人知识库中收集到的你的日常饮食习惯，得出你希望点单的咖啡的品牌、甜度、是否加冰等信息（如果是新手机，这一步会卡壳，就需要用户手动点选）；

最终智能体确认具体的点单信息并自动填充配送地址。

第三步，任务自动执行。

首先智能体识别出手机屏幕上的本地生活服务APP（例如美团），并搜索咖啡品牌（例如瑞幸）；

其次识别并理解屏幕上的关键信息，进入外卖点单页面（例如瑞幸的幸运送）；

然后根据已经规划出的用户点单内容（例如大杯少冰正常糖拿铁），在屏幕上一步一步进行类人的点选操作；

最后进入到结算页面，用户接管，由用户并选择是否用优惠券、是否确认下单。

如果说ChatGPT在全球形成的热潮让大家意识到了生成式AI、大模型的颠覆性，那么作为一个更聪明的聊天机器人，它首先带来的是又一次交互模式的改变。

AI读屏就是人类和手机交互模式改变的一个重要体现。

当AI开始接管你的手机

如果结合微软、谷歌大模型之争来看，AI读屏背后的技术逻辑，和微软的Recall、谷歌的Circle to Search，以及OpenAI的GPT-4o有着诸多相似之处。

从技术实现原理上来看，包括OpenAI的GPT、Anthropic的Claude、谷歌Gemini、阿里通义千问在内的所有主流大模型，都能做出AI读屏功能。

实际上，就在手机圈纷纷押注AI读屏功能时，在本周与三星中国官宣了战略合作的智谱AI在2024中国计算机大会（CNCC 2024）上发布了AutoGLM。

什么是AutoGLM？

智谱AI的大模型是以GLM做得命名，AutoGLM也就是拥有自主能力的大模型，有媒体将它解读为是学会了使用工具的大模型，但本质上就是在手机上实现了AI读屏功能。

从官方公布的信息来看，这一模型目前是以App中的一个功能模块对外呈现（只支持安卓手机，现在还在内测阶段），并没有与手机底层系统强关联，也不挑手机品牌。

如果说在这套流程中，手机厂商的地位有何独特之处的话，那应该是平台和数据了。

作为手机这一超级硬件的主导者，手机厂商不仅掌握着平台入口，更有强大的系统集成能力。

这就意味着决定端侧智能体智能程度的本地个人知识库，以及端侧智能体的微调、优化能力，对几大手机厂商的软件团队有很强的依赖性。

实际上，早在10月22日，OpenAI的头号死敌Anthropic就对外官宣发布了Claude 3.5 Sonnet，在这次版本更新中，Anthropic加入了一个独特的功能是”computer use“。

这个computer use，其实就是PC版本的AI读屏，它可以读取你PC的屏幕，并根据你给出的一段话的任务指令，自动完成诸如搜旅游攻略、写程序代码等功能。

不过，在Anthropic官方的描述中，在OSWorld（评估 AI 模型像人类一样使用计算机的能力）上，Claude 3.5 Sonnet的得分为14.9%，远未达到人类平均水平，人类平均得分是70%-75%。

要想提高模型准确度，本地个人知识库也就成了必须。

在过去这短短一周里，这么多AI巨头和手机厂商都瞄准了AI读屏功能在猛攻，显然是将这一功能视为了AI手机的杀手级应用。

AI读屏，确实最能体现AI手机的“AI”与智能手机的“AI”的本质区别，也是各大手机厂商的机会。

对于像我们这样的普通消费者来说，未来，AI不只会接管你的手机，甚至还会接管你的PC，乃至更多电子设备。

而这样的UI Agent，其实还不是端侧智能体的终极形态。

更多科技产业技术、故事、趋势，欢迎关注我们👇

查看原图 109K