【原】谷歌新研究：语音自动补齐功能可掩盖视频通话中的小故障

西当源 2020-04-07

展开全文

随着我们许多人现在依赖视频电话进行面对面的交流，断断续续的联系比以往任何时候都更令人沮丧。一种模仿单个讲话者说话方式的人工智能可以用生成的语音片段填补小的空白，从而消除这些缺陷。该技术由谷歌的一个团队开发，目前正用于谷歌的视频通话应用Duo。

是什么问题?当你在线通话时，你的声音会被切成许多小块，以数据包的形式在互联网上快速传输。信息包到达另一端时常常混乱不堪，软件不得不重新排序。但有时信息包根本就没有到达，这就造成了对话中的小故障和间隙。这是在最好的情况下发生的。根据谷歌报告，99%的Duo调用必须处理混乱的或丢失的数据包。其中十分之一的通话会丢失超过8%的音频。

语音生成:为了解决这个问题，谷歌团队构建了一个由DeepMind开发的神经网络，它可以从文本生成真实的语音。这种新的神经网络被称为WaveNetEQ，它会对100个记录了48种不同语言的人的声音进行大量训练，直到它能够根据人们说话的常见模式自动完成一小段语音。因为Duo是端到端加密的，人工智能运行在设备上，而不是云上。在通话过程中，WaveNetEQ能够学习说话人的声音特征，并生成与说话人的风格和内容相匹配的音频片段。当包丢失时，AI生成的语音会插入到它的位置。

目前，人工智能只能生成音节，而不能生成完整的单词或短语。但谷歌在网上发布的短样本显示，结果可能非常逼真。在一个例子中，人工智能将单词“trouble”的第二个音节替换为一个完全模仿男性说话者的声音。