分享

使用 VoiceFilter-Lite 改进设备上的语音识别

 雨夜的博客 2021-10-08

视频介绍:使用 VoiceFilter-Lite 改进设备上的语音识别

语音辅助技术使用户能够使用语音命令与他们的设备进行交互,依靠准确的语音识别来确保对特定用户的响应。但在许多现实世界的用例中,此类技术的输入往往由重叠语音组成,这对许多语音识别算法提出了巨大挑战。2018 年,我们发布了VoiceFilter 系统,该系统利用 Google 的Voice Match通过允许人们注册他们的声音来个性化与辅助技术的交互。

虽然 VoiceFilter 方法非常成功,实现了比传统方法更好的失真比(SDR),但高效的设备上流式语音识别需要解决模型大小、CPU 和内存限制等限制,以及电池使用注意事项和延迟最小化。

在“ VoiceFilter-Lite:用于设备上语音识别的流式目标语音分离”中,我们介绍了用于设备上使用的VoiceFilter的更新,它可以通过利用所选说话者的注册语音来显着改善重叠语音中的语音识别。重要的是,该模型可以轻松地与现有的设备上语音识别应用程序集成,即使互联网连接不可用,用户也可以在极其嘈杂的条件下访问语音辅助功能。我们的实验表明,2.2MB 的 VoiceFilter-Lite 模型在重叠语音上将词错误率(WER)提高了 25.1% 。

改进设备上的语音识别

虽然最初的 VoiceFilter 系统在将目标说话者的语音信号与其他重叠源分离方面非常成功,但其模型大小、计算成本和延迟对于移动设备上的语音识别是不可行的。

新的VoiceFilter-Lite系统经过精心设计,以适应设备上的应用程序。VoiceFilter-Lite 不处理音频波形,而是采用与语音识别模型(stacked log Mel- filterbanks)完全相同的输入特征,并通过实时过滤掉不属于目标说话者的成分来直接增强这些特征。再加上对网络拓扑的多项优化,运行时操作的数量大大减少。使用TensorFlow Lite库对神经网络进行量化后,模型大小仅为 2.2 MB,适合大多数设备端应用。

为了训练 VoiceFilter-Lite 模型,嘈杂语音的滤波器组与表示目标说话者身份的嵌入向量(即d-vector)一起作为网络输入。网络预测一个掩码,该掩码与输入元素相乘以产生增强的滤波器组。定义损失函数以最小化增强滤波器组与训练期间来自干净语音的滤波器组之间的差异。

file

VoiceFilter-Lite 是一种即插即用模型,如果扬声器没有注册他们的声音,它允许实现它的应用程序轻松绕过它。这也意味着语音识别模型和VoiceFilter-Lite模型可以分开训练和更新,大大降低了部署过程中的工程复杂度。

file

应对过度抑制的挑战

当语音分离模型用于改进语音识别时,可能会出现两种类型的错误: 抑制不足,即模型未能从信号中滤除噪声成分;和过度抑制,当模型无法保留有用的信号时,导致一些单词从识别的文本中删除。过度抑制尤其成问题,因为现代语音识别模型通常已经用广泛的增强数据(例如房间模拟和SpecAugment)进行了训练,因此对抑制不足更加鲁棒。

VoiceFilter-Lite 通过两种新颖的方法解决了过度抑制问题。首先,它在训练过程中使用了非对称损失,因此模型对过度抑制的容忍度低于抑制不足。其次,它在运行时预测噪声的类型,并根据这个预测自适应地调整抑制强度。

file

通过这两种解决方案,VoiceFilter-Lite 模型在其他场景的流式语音识别上保留了出色的性能,例如在安静或各种噪声条件下的单扬声器语音,同时仍然对重叠语音提供了显着的改进。从我们的实验中,我们观察到在将 2.2MB VoiceFilter-Lite 模型应用于加性重叠语音后,单词错误率提高了 25.1%。对于混响重叠语音,这是模拟智能家居扬声器等远场设备的一项更具挑战性的任务,我们还观察到使用 VoiceFilter-Lite 将单词错误率提高了 14.7%。

未来工作

虽然 VoiceFilter-Lite 对各种设备上的语音应用程序显示出了巨大的希望,但我们也在探索其他几个方向,以使 VoiceFilter-Lite 更有用。首先,我们当前的模型仅使用英语语音进行训练和评估。我们很高兴采用相同的技术来改进更多语言的语音识别。其次,我们希望在 VoiceFilter-Lite 的训练过程中直接优化语音识别损失,这可能会在重叠语音之外进一步改进语音识别。


更新说明:优先更新微信公众号“雨夜的博客”,后更新博客,之后才会陆续分发到各个平台,如果先提前了解更多,请关注微信公众号“雨夜的博客”。


博客来源:雨夜的博客

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多