有一群人正在教AI说苏州话

日前,全国人大代表、南京市人大常委会主任龙翔提交了一份关于深入推进汉语方言传承工作的建议。他认为,长三角地区城市化快速发展带来的大规模人口流动,缩小和降低了方言使用范围和使用率,或是导致长三角方言渐失活力乃至逐步萎缩的主因之一。

龙翔指出,以南京为例,统计显示南京话在家庭生活中使用比例最高,达62.8%;而在日常工作中使用的比例最低,仅为39.8%。与此同时,南京暂住人口每增长1%,普通话使用率约增长2.3%;人口内部流动还使南京原下关区特有的、具有区域特色的读音近乎消失。

方言承载着地域文化内涵,更是人们乡情的根系。然而,在经济社会高速发展的今时今日,方言却在我们的日常生活中渐行渐远。如何留住正在远去的方言?一家长三角企业如今正利用人工智能技术,“教”AI说苏州话。此前,一项面向全国的本土出生人群方言使用情况的调查显示,包括上海、苏州、杭州、宁波、温州在内的多个长三角城市,6到20岁人群能够熟练使用各自方言的比例在全国普遍偏低,其中垫底的苏州仅为2.2%。

人工智能+长三角方言能有啥效果?

复制方言

在去年于芜湖举办的首届长三角一体化发展高层论坛上,科大讯飞董事长刘庆峰的发言带着皖南口音,被快速精准地识别成文字,并同步放到了大屏幕上。看来,方言和口音不是语言识别技术的障碍。总部设在安徽合肥的科大讯飞目前对保护方言的解决方案是“复制方言”。科大讯飞消费者输入法业务部总经理程坤这样解释讯飞方面的构想:“我们的目标是利用人工智能技术,不断提升方言语音识别、合成和翻译的能力。一旦能够实现这几点,也就意味着一门方言被完整地‘拷贝’下来了。即使有朝一日这门方言无人再使用,也能够实现数据留档,并翻译成主流的通行语言。”

联合国教科文组织的统计数据显示,世界范围内,每两周就有一种语言消失。为方言留档,确实意义重大。然而,虽然2017年科大讯飞就在苏州成立了分支机构,但是人工智能的苏州话,还是得有人“教”。

程坤说,“教”AI说方言,是一个手把手、一字一句教学的过程。首要任务是要进行大规模的数据采集,采集的数据在经过标注后,便可以形成语料库。然后利用语料库,结合机器学习技术,训练方言识别模型:“语料库里有很多方言音频,每一条音频有对应的文本。而所谓的教学过程,简单来说就是告诉AI,这段音频对应的是这段文字。如此反复,AI最终就能‘学会’这门方言。”

教AI说方言,数据采集是最吃功夫的部分。据程坤介绍,传统的做法是实地前往各个方言地区,通过与当地人的面对面交流,收集当地方言中特有的词汇、俚语等音频数据。采集完成后,数据标注工作同样大量依赖人力。程坤说:“工作人员首先要对音频的质量进行判断,剔除音频质量不好的数据,然后将保留下来的数据转写成文字。”

应用前景

由于方言所对应文字相当一部分没有统一标准,因此在进行标注前,“教材编纂”团队需要制定方言用字规范。他们会大量参考官方文献,逐一进行确认。对于在文献中找不到的文字,则需再调研当地人的用字习惯,选出接受度最高的作为该方言词语的对应用字。

“想要让人工智能真正学会一门方言,始终离不开方言母语者的实际参与。开发方言输入法,也是为了能够创造更多的方言应用场景,为语料库的数据录入创造条件。”程坤坦言,如何让更多的方言母语者参与到语料库的建设和数据标准的工作中,是“教”AI说方言的一大难点。

5月18日,讯飞方面与苏州博物馆的一次跨界合作,或可视作为AI寻找更多民间“方言老师”的尝试:在第44个国际博物馆日,双方合作推出一款微信小程序,用户可以用苏州话讲述苏博馆藏文物的历史,并进行上传和分享。而用户上传的这些苏州话音频,在经过筛选和标注后,将成为AI“学习”苏州话的“教材”。

程坤表示,苏州话是吴方言中重要的一支和典型代表,因此苏州话的保护极具标杆意义。另一方面,苏州话近年来的活力不容乐观,尤其在青少年中的使用率下降可谓断崖式。程坤说:“讯飞输入法跨界联动苏州博物馆,借助方言讲述文物历史的形式,是希望激发大众参与方言传承和保护的热情,就像保护以苏州话为载体的昆曲、评弹、苏剧那样,增强苏州市民对苏州话的认同感和自豪感。”

如果说讯飞与苏博的此次合作尚是一次“应景”之举,那么方言语音识别输入在日常生活中的应用则更值得期待。当操着各自方言的长三角人拿着手机用语音进行输入时,远在云端的AI的“教材”也在不断地被充实。这也意味着,仅仅是对着手机的麦克风说几句乡音,就已经切实参与到了方言保护的工作中。随着越来越多的人在日常生活中参与到“教材编纂”的工作中,AI掌握一口正宗吴侬软语的日子或许为期不远,未来智能语音识别也将应用到更多的生活场景中去。