AI 时代,语音会成为主流交互方式吗

图片

语音交互正在成为我们生活中的一部分。

十年前,如果让你开口和手机对话。你会觉得非常违和。

十年后,我们现在每天都会对着手机讲话,而且是和它交流的那种。

其实五年前我接触过一个新产品,全智能电饭煲,产品方称用户可以与电饭煲对话,告诉它什么时候煮好饭。我当时脑子里出现过一万个疑问,“它煮饭,谁放米?” “我为什么要和一个电饭煲说话?” “我疯了吧我”......

图片
使用豆包 AI 生成,提示词:人类、语音、电饭煲、人工智能、对话

换到今天,虽然交互会有一些差异,但我已经习惯了在家叫智能音箱开电视、设置扫地机器人工作时间。你不得不承认,当年 4G 的滚滚洪流来临时,主打发送语音的微信抓住了移动互联网的红利,但飞信却在那之后没落,是有原因的。

小拇指的手茧见证了一次人与手机交互方式的转变,语音则是在努力抢夺人机交互方式的话语权。

从键盘到触屏,再跳出屏幕

在 iPhone 风靡全球之前,市场上并不缺乏触屏手机。

Nokia、Motorola、BlackBerry 等等企业将实体按键的手机做得登峰造极,也铸就了手机历史上最璀璨的一个篇章。

图片

精密的实体按键是手机的标配。实体按键无疑有着非常明显的优势:精确、可盲打、可替换。这些优势如今依然在其它设备上有所体现。即使现在的品牌试图将手机打造成纯粹的 unibody 的产品,也跳不出实体按键的束缚。

只是苹果将触屏的优点无限放大,为它匹配了自然的操作逻辑——左滑右滑上滑下滑,当然你也可以点击,甚至向屏幕下重重地按下去。苹果为这块触摸屏赋予了符合直觉的、丰富的操作方式。

尽管大家都觉得 iPhone 是触屏手机的开创者,但它花了近 3 年时间优化系统,让这个彼时的异类更加好用。

某种程度上来说,人类是懒惰的,科技的发展也促使人类更加懒惰。因此用户自然会选择省力的、不费脑子的那条路——就跟如今短视频如此风靡一样。

站在交互逻辑的角度,触屏跳脱出了硬件固定的位置,让手指可以随心所欲地在屏幕上进行操作。就像 PC 时代,鼠标刚出现时,用户能够完成“所见即所得”的操作一样。而软件所需要做的,就是为这块屏幕匹配一个合理的操作 UI。

图片

屏幕越来越大,则是另一个趋势。人们总是会追求更大的屏幕,甚至更多的屏幕。凯文凯利在他的著作《必然》当中提到过“屏读”,即任意表面都可以是屏幕,屏幕会越来越多。现在来看,预言正在成真。

充斥于我们生活里的科技产品,屏幕越来越多,就连智能汽车也在比拼谁的屏幕大、谁的屏幕多。于是到这里新的问题出现了,当屏幕越来越多、越来越大的时候,我们应该如何与它们进行交互?

烽烟传讯,声音远控

人与屏幕的交互范围受人体影响,即你的手掌有多大,就能覆盖多大面积的手机屏幕——乔布斯曾说手机的黄金尺寸是 3.5 英寸不是没有道理,那是正常人手掌尺寸能覆盖整个屏幕的大小。

在真实场景中,手臂与屏幕的距离也决定你是否能直接进行操作。虽然你与电视能够用遥控器进行操作,但智能音箱不可能都配上一个遥控器。

远距离通信,古代有烽烟传讯,今天有智能语音,尤其是 AI 时代。

语音交互的优点显而易见。你在家可以声控智能家居,上车可以声控智能汽车,躺在床上,你也可以向手机发出一堆语音指令。这符合科技发展规律,毕竟人就是这样变懒的。

图片

其次,语音对话是最基本的交流方式。文字出现之前,人类就有了丰富的语言系统。在即时通讯软件高度发展的今天,你甚至可以不懂打字就能和千里之外的亲戚朋友聊天。

过去我们之所以会觉得与手机“对话”奇怪,是由于没有对象感。但是今天,即时通讯软件让我们习惯了对着手机发出对话信息,如 ChatGPT 一样的 AI 语音助手又发展出了聊天技能,人与手机进行对话已经成为了现实。

从技术的角度来说,加入 AI 的自然语义识别正逐渐变得更加拟人化,AI 语音助手能够接收、结合背景、分析你所说的全部话语,并给出相应的答案。随着技术的进步,端侧运算能力增强,从语音指令发出再到设备给出答案,时间间隔将会越来越小,无限接近人与人的自然对话。

这样才不会出现你在发布会上,对着电脑喊计算表格,半天出不来结果的情况。

语音,最低成本的交互方式

语音交互技术其实已经有了数十年的发展历史,从简单的单词识别到现在的复杂语境识别,甚至做出推测,从技术角度来看,语音已经做好了登上前台的准备。

而对于用户来说,语音是最低成本的交互方式。它符合直觉,即时响应,没有学习门槛。在人机交互领域,它也能实现跨设备、跨系统、跨距离的交互,几乎无处不在。

在 AI 时代真正来临前,德勤就已经发布过《德勤交互式人工智能白皮书:交互式人工智能正在重塑人机交互》,报告中称“随着技术的进一步发展,预计语音交互将在更多领域展现其价值,成为人机交互的重要方式”。

迈过了对话违和感、技术门槛以及普及率三大关之后,语音交互无疑具有极大的潜力,去改变我们与设备、机器交互的方式,尤其是手机。苹果从 Siri 到 Apple Intelligence 描绘出了一张硕大的 AI Phone 蓝图,而另一边国产厂商也在奋起追赶,HarmonyOS NEXT、ColorOS 15、OriginOS 5 等等系统,都将推出属于更好用的 AI 语音助手和聊天机器人。

从键盘到触屏,再到跨空间的高效语音交互,人机交互的时代即将翻篇。

而我在这一页的最后,依旧用文字询问了 ChatGPT 和豆包,它们认为语音是否能成为 AI 时代的主流交互方式,它们都给出了肯定的答案。


图片
** 头图由豆包 AI 生成,提示词:手机、人类、对话、斜45度角