亚马逊Alexa：训练TTS系统合成语音多扬声器比单扬声器更自然

黄元章553333 2019-04-27

展开全文

亚马逊Alexa：训练TTS系统合成语音多扬声器比单扬声器更自然

智东西（公众号：zhidxcom）编 | 王小溪

导语：亚马逊Alexa部门的科学家在一项新研究发现，用多个扬声器数据训练的AI语音合成系统TTS合成的语音会更自然。

智东西4月26日消息，据外媒报道，亚马逊Alexa部门的科学家在一项新研究发现，用多个扬声器数据训练的AI TTS（Text To Speech，文本转语音）系统要比在单个扬声器模型上训练更多样本产生更自然的语音。而且，前者模型整体上更“稳定”：它减少了系统少词、发出“嘟”声的频率，也避免了系统连续重复单音时出现卡顿的情况。

该研究将于下月在布莱顿举行的声学、语音和信号处理国际会议上展示。

随着复杂的自然语言处理的出现，TTS系统变得越来越高效。以Google的Tacotron 2为例，它可以仅基于频谱图构建语音模型。不过，这些“神经TTS”（NTTS）方法的一个缺点是它们需要比传统方法更多的数据。

Alexa Speech应用科学家Jakub Lachowicz在博客文章中写道：“最近研究表明，用不同扬声器数据训练NTTS系统时，所需要的数据更少，而产生的结果会更好。”

亚马逊Alexa：训练TTS系统合成语音多扬声器比单扬声器更自然

正如Lachowicz所解释的那样，NTTS系统通常由两个神经网络组成。第一个将文本的语音转换为梅尔频谱图；第二个网络是声码器，将梅尔频谱图转换为更细粒度的音频信号。

在对70名听众的测试中，研究人员发现，用来自七个不同扬声器的5000个语音数据训练出的模型比用来自单个扬声器的15,000个语音数据训练出的模型合成了更自然的语音。

在一个测试中，研究者向听众展示了人类讲话的现场录音，和用2种TTS模型合成的语音，并询问他们两段语音是否相同。结果，NTTS系统在多个扬声器上训练效果与在单个扬声器上训练效果表现一样。更不可思议的是，研究者们也没有观察到用不同性别的人类语音和同一性别人类语音训练出的模型在自然性方面存在任何统计学差异。

最后，研究者还发现在多个扬声器上训练的模型比在单个扬声器上训练的模型更稳定。NTTS系统有时会丢失单词，发出嘟声，它们会在重复单个声音时卡住。而多扬声器模型比单扬声器模型更少地表现出这些误差。

Lachowicz指出，用超过15,000个训练样本训练的时候，单扬声器NTTS模型将开始优于多扬声器模型。可以肯定的是，Alexa当前语音的NTTS版本训练所用的样本已经过超过15,000个。但混合模型可以使开发人员更容易获得合成声音。

他认为，在多个扬声器中训练NTTS系统可以用更少的数据产生更好的结果。这表明以后不需要录音者花好几天在录音棚中录音，便能使扬声器提供各种可定制的语音风格。

Lachowicz博文地址：https://developer.amazon.com/zh/blogs/alexa/post/83dd06f2-d7d6-4a55-8b4f-1c443c1e483c/training-speech-synthesizers-on-data-from-multiple-speakers-improves-performance-stability

文章来自：Venturebea