新智元报道
来源:fifteen.ai
编辑:白峰
最近 reddit 上一个文本转语音的 app 火了,它是一家叫做 fifteen.ai 的公司推出的,与传统的深度神经网络文本转语音模型不同,它不需要大量的原始语音数据。
少量训练数据即可生成高保真音频
这个文本语音转换工具,可用于生成各种文本的 44.1 kHz 语音。语音是使用多种音频合成算法和经过定制的深度神经网络实时生成的,这些神经网络是在很少的可用数据上进行训练的(每个角色 30 到 120 分钟之间的纯净音频)。该项目表明,克隆声音所需的音频数量显著减少的同时还能保持角色的情感。
该工具生成的音频文件的采样率为 44100 Hz,而大多数基于深度学习的文本转语音实现,所使用的采样率为16,000 Hz。所以用它产生的音频,声谱会更详细(更高质量的音频),同时缺陷也更明显。你可以使用其他的音频编辑工具(例如 Audacity)将生成的音频降采样为较低的采样率,让音频显得更像人类,尽管这样做会使音频听起来相对模糊。
如何利用这个工具制作自己的音频
将来我们会对这个工具进行改进,改进之前有个折衷的方法,你可以多生成几次,由于神经网络的不确定性,每次生成的音频都会有些差异,你可以选择自己最满意的。
当然在这么小的语料上训练的模型也是有缺陷的,有些单词可能发音不准确,其实这也很好理解,即使是人,在遇到生词的时候也不一定能准确发音,而传统的深度模型通常有 40 个小时或者更多的语料,所以错误率会低一些。但是这款工具对那些缺乏足够语料的人来说,还是很实用的。
另外作者提到一些 tricks,可以帮忙提高模型的泛化能力。像故意添加一些拼写错误,标点符号,又或是故意扭曲发音,以提高模型的适用性。
“不要指望第一次尝试就会得到完美的音频。要生成令你满意的发音和语调,可能需要不断去尝试。”
我们可以利用这个工具的网页版,生成自己的音频,随机选择一段或者自己输入一段文本,稍等一会点击播放按钮就可以播放了,赶快去试一下吧!
参考链接:
https://fifteen.ai