IDC最新报告:阿里语音AI登顶中国No.1

乾明 发自 凹非寺

量子位 报道 | 公众号 QbitAI

没错,阿里并非先发的语音AI,现在中国市场份额第一。

7月14日(周二),IDC发布《中国AI云服务市场半年度研究报告》显示,阿里语音AI以44%的市场份额,超过百度云、腾讯云、华为云、AWS、微软Azure等云服务厂商,成为第一。

从IDC报告的具体内容来看,阿里语音AI这个No.1,得益于其在智能语音、对话式AI、机器学习三大领域的实力:

智能语音领域产品数量、市场份额、API调用量三项第一;对话式AI领域市场份额、API调用量两项第一;机器学习领域获得市场份额第一。

这还只是现状。

IDC还预测,2020年中国人工智能市场规模将会接近20亿美元,巨大的市场规模,作为市场领导者,阿里将会有更多的表现空间。

然而,对于这样的一份成绩单,阿里巴巴达摩院语音实验室负责人鄢志杰,并不“感冒”。

在他看来,IDC报告中的数字并不重要,更值得关注的是背后的趋势:语音AI技术的商业价值,已经在市场上得到了初步体现。

他说,阿里巴巴之所以有这样的成绩,不仅仅有过去5、6年时间的技术积累为基础,还在于AI上云的过程中,找到了“落地”秘诀。

中国No.1的语音AI,如何后发先至?

相比90时代就搞语音的玩家,阿里的语音AI之路,不算早。

阿里开始大力度、严肃地研发语音AI技术,起于2014年底,标志性事件是“神秘部门”iDST(数据科学与技术研究院)成立。

在此之前,相关的研究只是零散地分布在各个业务线之中。

2015年,鄢志杰在微软亚洲研究院工作7年后,加入阿里iDST,负责语音技术的研发工作。

当时,语音AI技术主要用于阿里内部业务,比如淘宝、天猫的等电商体系客服中心的需求。

因为之前没有研究积累,鄢志杰需要带队从0到1,为阿里打造一个能用、好用的语音AI系统。

虽然困难,但也好在没有“历史包袱”,他可以放开手去做。

在阿里丰富的应用场景下,阿里语音AI的后发优势显现出来。

比如2016年开始备受关注的latency-controlled BLSTM(LC-BLSTM) 模型,从学界到阿里率先实现落地,只用了几个月的时间。

而且不仅仅只有单纯的落地,还有面向应用的优化。

在阿里版本的LC-BLSTM模型中,不仅降低了传统BLSTM模型延迟严重的问题,精度同样不差。

相关论文也得到了学术界的认可,在2017年经过同行评审,发表在了IEEE旗下ICASSP(声学语音和信号处理国际会议)上。

之后,阿里语音AI进一步发展,不断涌现出新的研究成果,被ICASSP、DSP等语音领域国际顶尖会议收录。

2019年2月28日,MIT将阿里巴巴语音AI技术评为2019年“全球十大突破性技术”。

MIT认为,阿里巴巴已拥有比谷歌更好的AI语音技术,可以完成复杂的人类对话功能,甚至可读懂人类的潜在意图。

阿里巴巴也是唯一上榜的中国科技公司,其他的突破技术分别是“肠道显微胶囊”、“定制癌症疫苗”、“人造肉汉堡”、“可穿戴心电仪”、“无下水道卫生间”等等。

突破仍在继续。2019年7月,阿里发布新一代语音合成技术KAN-TTS,首次将该数字提高到97%以上。

阿里达摩院介绍,KAN-TTS已经实现主流场景风格声音的全覆盖,可针对通用场景、客服场景、童声场景、英文场景和方言场景,提供41种高品质的声音,例如温柔、甜蜜、严厉等风格。

而且还具备多方言、重口音语音识别,全双工语音交互,智能语音流式响应等技术能力。

鄢志杰说,它已经能够实现拟人程度更高的交互效果,整个过程几乎听不出是AI在跟人交互。

想要推动技术落地,技术强是根本,但找到商业价值和模式更加重要。

在鄢志杰看来,这是阿里语音AI技术发展到现在最难的一个点,也是其能够得到市场认可的关键。

自学习,阿里语音AI的落地秘诀

2017年初,阿里开始推动AI技术上云对外输出,语音AI作为阿里内部广泛应用且成熟的技术,成为“先锋”。

语音AI上云后,阿里对外输出的第一个项目,是为浙江高院提供庭审速记能力。

拿下行业头部用户,是推动AI技术落地时最常用的一种手段。

其不仅能够产生“标杆效应”,吸引更多的人采用技术,而且还能在这个过程中,快速汲取行业Know—How,来完善技术方案,更好地复制到其他相似场景中。

目前,阿里智能庭审语音识别覆盖超过全国20个省的8000间线下法院,覆盖率近50%。互联网庭审覆盖15000余间线上法庭,覆盖率超过90%。

IDC报告也给出了分析称,通过前期的行业布局,阿里云在法院、呼叫中心、电信运营商领域的客户认知度也处于第一位,领先其它云服务厂商。

不过,这样的AI落地模式也存在弊端——依赖项目推进,不仅需要大量的人力资源,效率并不高。

如何找到一种更高效的落地方式,是整个行业都面临的挑战。

同样是在2017年,阿里语音AI团队在与客户共创的时候受到启发,基于“定制AI”打造出了语音自学习平台,面向没有技术研发实力的客户提供语音原子能力、行业模型等服务。

鄢志杰将其形容为“傻瓜相机”式的产品。

阿里提供针对声学模型和语言学模型的定制训练流程,用户在安全环境中灌注行业数据,可以在完全不了解语音语言算法的情况下,快速、便捷地定制自己的语音模型。

在落地过程中,也展现出了效力。比如疫情期间,湖北的智能疫情机器人使用阿里语音AI自学习平台,湖北口音语音识别率从62.5%提升至94.4%。

IDC在报告中总结称,语音语义领域,用户重视的是服务,能不能满足客户的个性化需求十分重要。

阿里语音AI能够实现大面积落地,在法院、呼叫中心、电信运营商领域的客户认知度处于第一位,拥有教育、金融、互联网、交通、餐饮、通信、医疗等各行各业5万家客户,秘诀正在于此。

现在,鄢志杰正在致力于将语音AI技术拓展到更多的场景中,供给无处不在的智能语音。

在他看来,整个语音AI的价值才刚刚开始呈现,市场还处于早期发展阶段,未来将会有更大的发挥空间和价值。

比如,如果在强噪音、多人交互的情况下,实现更高准确率的识别,比如语音和NLP技术的结合,实现语音翻译、语音摘要技术等等。

而且随着新基建机遇到来,语音AI与云结合,还会有更大的前景。

被集成,阿里的“基建式”打法

2020年4月20日,阿里云宣布未来3年规划:再投2000亿,用于云操作系统、服务器、芯片、网络等重大核心技术研发攻坚和面向未来的数据中心建设。

阿里到底如何做?具体做什么?想要达到什么样的效果?阿里语音AI无疑给出了直观体现。

一方面基于阿里达摩院,从未来商业价值出发,提升技术层面上的能力,进行前瞻性研发布局。

另一方面在于阿里云平台的能力建设,供应更强的算力,为技术对外输出提供坚实支撑。

再往底层芯片上面,平头哥也在积极布局,前不久已经实现含光800商用,通过阿里云对外输出。

……

一系列动作背后,也不难发现阿里的目标所向——打造基础设施,供应给有需求的客户,甘愿被集成,帮助他们来打造成落地的应用,服务更多人。

鄢志杰说,阿里内部有一个口号是“达摩院技术零时差上云”。阿里语音AI技术,就是其交出的答卷之一。

1999年,阿里巴巴在杭州成立之时,定下了公司的使命:让天下没有难做的生意。

这也成为了阿里孵化出淘宝、支付宝、天猫、菜鸟等等一系列产品的出发点,打造出了辐射数亿人的阿里经济体。

现在,经济发展的驱动力逐步发生改变,AI、大数据为核心的新兴技术,在“生意”中变得越来越关键。

阿里巴巴,同样正在用自己的行动践行使命:让天下没有难得到的技术。