“乡村振兴”“乡愁”等词汇登上新版语料库

新京报讯(记者 周怀宗)日前,南京农业大学黄水清教授团队推出的新版现代汉语通用语料库——新时代人民日报分词语料。黄水清教授介绍,新版“语料库”是对北京大学1998年1月人民日报语料库的补充,此外,该语料库将对学界公布,供学术研究用,并且后续还将不断补充最新语料,以促进语料资源的开放和共享。

新京报记者获悉,相对于20年前的语料库,新语料库出现了很多变化,其中“乡愁”“乡村振兴”“扶贫”“精准扶贫”等出现在人民日报上的频率大为增加,如“乡村振兴”在1998年1月全月中,出现次数为0次,2018年1月,全月出现次数为393次。

1998年、2015年、2016年、2017年、2018年1月份,四个词在《人民日报》全部文章中出现的频次。受访者供图

什么是“语料库”

何谓“语料库”?黄水清介绍,“语料库”是真实语言素材的汇集,“语言有很多种,口头语言、书面语言等。所谓真实语言,就是在现实中,实际有人说过、有人写过的词汇和句子。”

语料库并非简单收集真实语言素材,黄水清说,“如果只是把一堆真实语言素材放在一起,那是没什么意义的。收集之后,还要进行标注,所谓标注,就是按照不同的需求对相应的语言单位添加标记。比如标注名词、动词,比如把方言与普通话、中文与英文对应的段落、句子、词汇对照起来。不同需求的使用者,可以根据自己的需要寻找适用的语料库。”

作为现代汉语通用语料,北京大学计算语言研究所发布的“1998年人民日报语料”无论在学界和业界都有巨大的影响力。但是随着时间的推移,该语料库在词汇的时效性、完备性和覆盖度上均需要进行更新和补充。“这也是我们做这个新的语料库的初衷。这次发布的语料库,都是精标的。标注有两种形式,一种是机器标注,一种是人工标注。目前的技术条件下,人工标注的精准度要高于机器标注,所以人工标注也被称为精标”。

“语料库”是干什么的

收集和整理现实中使用过的真实语言素材,有什么用途?黄水清介绍说,“当前主要用于机器学习,当然也包括当前流行的深度学习”。

“随着人工智能的发展,机器学习的对象越来越重要。”黄水清说,“举例来说,像自动驾驶,理想的方法是输入驾驶的操作方式、交规、地图等,它就能实现自动驾驶了,但现在技术还达不到,这样的情况下,就会选择另一种技术方案,找一些优秀的司机,让机器跟着人学。语言也是如此,理想的策略,是给它输入语法、语义、语用,它就具备了语言理解和生成的能力,但同样做不到。这时候,基于真实语言的语料库,就有用处了,机器能从语料库中学到语言能力,相当于跟优秀司机学驾驶能力。我们选择《人民日报》刊发的文章作为原始语料,一方面是因为《人民日报》的文章都是规范的现代汉语,思想内容与同时期的中央精神高度一致,另一方面也为了延续前人的成果,有利于开展持续性的研究”。

据介绍,新版语料库已收录近年来共9个月的《人民日报》刊发的所有文章,全部为人工标注精加工语料。

新版语料库有哪些变化

相对于1998年的语料库,新版语料库有哪些变化呢?

“我们发现,20年前的语料和现在的语料还是有一些明显的区别,有些东西变化很大。从总体上看,词语、句子都变长了。具体来看,有些词汇、句子的语境发生了变化。机器如果还是按照20年前的语料库学习,很可能学的就是错的”,黄水清说。

记者注意到,和乡村相关的词汇,近年来出现的频次大为增加。黄水清介绍,“随着脱贫攻坚、乡村振兴等工作的推进,相应的概念越来越多地出现在主流媒体的话语中。我们统计了1998年1月、2015年1月、2016年1月、2017年1月、2018年1月乡愁、乡村振兴、扶贫、精准扶贫几个词汇在人民日报中出现的次数。在1998年,几个词汇出现的次数分别是1次、0次、407次、0次。到2018年,几个词出现的次数分别是44次、393次、1176次、137次。”

新京报记者 周怀宗

编辑 张树婧 校对 李立军