Facebook 的 AI，已经可以用比尔·盖茨的声音说话

gyjian 2019-06-12

展开全文

机器语音系统一直有点令人失望：即使是最好的文本语音转换系统也摆脱不了机械的特性，缺乏人类说话时的基本语调变化。斯蒂芬·霍金使用的语音系统就是一个很好的例子。

但近年来，机器学习取得了巨大进步，也改善了机器语音系统的一些缺点。

最近，Facebook 人工智能研究中心的 Sean Vasquez 和 Mike Lewis 发现了一种可以克服从文本到语音系统转换限制，完全由机器生成而且音频片段极其逼真的方法。这一系统被称为 MelNet，它不仅可以复制人类的语调，而且可以用与真人相同的声音。于是，研究小组开始训练该系统，让它模仿出比尔·盖茨等人的说话。这项工作让人类和电脑之间更真实的互动成为可能，不仅如此，它的逼真程度，很可能引发虚假音频内容骗术的新问题。

图丨比尔·盖茨（来源：麻省理工科技评论）

现实中的文本—语音转换系统进展缓慢并非是因为缺乏尝试。许多团队一直在尝试训练深度学习算法，利用大型音频数据库重现真实的语音模式。

Vasquez 和 Lewis 说，这种方法的问题在于使用的数据类型。到目前为止，大多数工作都集中在音频波形记录上。这些音频波形显示了声音的振幅如何随时间而变化，它每秒记录的音频包含数万个时间步长。

这些波形能在许多不同的尺度上显示出特定模式。例如，在几秒钟的讲话中，波形反映了与单词序列相关的特征模式。但是在微秒级的片段中，波形显示了与声音的音高和音色相关的特征。在其他尺度上，波形反映了说话人的语调、音素结构等。

另一种方法是将波形在一个时间步长和下一个时间步长之间的关联性考虑进来。所以，在给定的时间范围内，一个单词开头的声音与后面的声音是有关联的。

深度学习系统理应善于学习这些类型的关联性，并对它们进行复制。但问题出在不同时间尺度的关联性上，深度学习系统只能在有限的时间尺度上研究这些关联性。这是因为深度学习使用了一种叫做反向传播的学习过程，这种学习过程不断地重新连接网络，根据所看到的示例改进其性能。

重复率限制了系统学习关联性的时间尺度。因此，深度学习网络可以学习长时间或短时间内音频波形的关联性，但不能同时兼顾两者。这就是为什么它们在复制语音方面表现如此糟糕的原因。

Vasquez 和 Lewis 则有不同的方法。他们使用声谱图而不是音频波形来训练他们的深度学习网络。声谱图记录了整个音频频谱及其随时间的变化。所以当波形捕捉到随时间变化的一个参数，例如振幅时，光谱图则捕捉到了不同频率范围内的振幅变化。

这意味着音频信息被更密集地打包到了这种类型的数据中。研究者认为：声谱图的时间轴比波形的时间轴紧凑几个数量级，这意味着在波形中跨越数万个时间步长的依赖关系只跨越声谱图中的数百个时间步长。

这使得深度学习系统更容易获得关联性。他们说：“这使得我们的声谱模型能够在数秒内产生一致的无条件语音和音乐样本。”