分享

LEAF:可学习的音频分类前端

 雨夜的博客 2021-09-25

视频介绍:LEAF:可学习的音频分类前端

在过去几年中,开发用于音频理解的机器学习 (ML) 模型取得了巨大进步。利用从数据中学习参数的能力,该领域已逐渐从复合的、手工制作的系统转变为当今用于识别语音、理解音乐或对鸟类叫声等动物发声进行分类的深度神经分类器。然而,与可以从原始像素中学习的计算机视觉模型不同,用于音频分类的深度神经网络很少从原始音频波形中进行训练。相反,他们依赖于 mel 滤波器组形式的预处理数据——手工制作的mel 缩放 频谱图 旨在复制人类听觉反应的某些方面。

尽管为 ML 任务建模 mel 滤波器组在历史上是成功的,但它受到固定特征的固有偏差的限制:即使使用固定的 mel 尺度和对数压缩通常效果很好,但我们不能保证它们提供最好的表示为了手头的任务。特别是,即使匹配人类感知为某些应用领域提供了良好的归纳偏差,例如语音识别或音乐理解,但这些偏差可能对模仿人耳不重要的领域有害,例如识别鲸鱼叫声. 因此,为了实现最佳性能,梅尔滤波器组应该针对感兴趣的任务进行定制,这是一个繁琐的过程,需要根据专家领域知识进行迭代工作。因此,标准 mel 滤波器组在实践中用于大多数音频分类任务,即使它们不是最理想的。此外,虽然研究人员已经提出了 ML 系统来解决这些问题,例如时域滤波器组、SincNet和Wavegram,但它们的性能仍无法与传统的 mel 滤波器组相匹敌。

在ICLR 2021接受的“ LEAF,一个完全可学习的音频分类前端”中,我们提出了一种为音频理解任务制作可学习频谱图的替代方法。LEarnable Audio Frontend (LEAF) 是一种神经网络,可以初始化为近似 mel 滤波器组,然后与任何音频分类器联合训练以适应手头的任务,同时只需向完整模型添加少量参数。我们表明,在广泛的音频信号和分类任务(包括语音、音乐和鸟鸣)中,LEAF 频谱图提高了固定 mel 滤波器组和先前提出的可学习系统的分类性能。我们已经在TensorFlow 2 中实现了代码并通过以下方式将其发布到社区我们的 GitHub 存储库。

Mel 滤波器组:模仿人类对声音

的感知创建 mel 滤波器组的传统方法的第一步是通过开窗捕捉声音的时间变化,即将信号切割成具有固定持续时间的短段。然后,通过一组固定频率滤波器传递窗口段来执行滤波,复制人类对音高的对数灵敏度。因为我们对低频的变化比高频更敏感,梅尔滤波器组更重视声音的低频范围。最后,音频信号被压缩以模拟耳朵对响度的对数敏感性——声音需要将其功率增加一倍,人才能感知到 3分贝的增加。

LEAF 松散地遵循这种传统的 mel 滤波器组生成方法,但将每个固定操作(即,过滤层、窗口层和压缩函数)替换为学习的对应物。LEAF 的输出是类似于 mel 滤波器组的时频表示(频谱图),但完全可学习。因此,例如,当 mel 滤波器组使用固定的音调比例时,LEAF 学习最适合感兴趣任务的比例。任何可以使用 mel 滤波器组作为输入特征进行训练的模型,也可以在 LEAF 频谱图上进行训练。

file

虽然 LEAF 可以随机初始化,但它也可以以近似 mel 滤波器组的方式初始化,这已被证明是一个更好的起点。然后,可以用任何分类器训练 LEAF 以适应感兴趣的任务。

file

固定特征的参数有效替代方案

用可训练系统替换不涉及可学习参数的固定特征的潜在缺点是,它可以显着增加要优化的参数数量。为了避免这个问题,LEAF 使用Gabor卷积层,每个过滤器只有两个参数,而不是标准卷积层典型的 ~400 个参数。这样,即使与小分类器(例如EfficientNetB0 )配对时,LEAF 模型也仅占总参数的 0.01%。

file

性能

我们将 LEAF 应用于各种音频分类任务,包括识别语音命令、说话人识别、声学场景识别、识别乐器和寻找鸟鸣。平均而言,LEAF 优于 mel 滤波器组和以前的可学习前端,例如时域滤波器组、SincNet和Wavegram. 特别是,LEAF 在不同任务中实现了 76.9% 的平均准确率,而 mel 滤波器组的平均准确率为 73.9%。此外,我们表明 LEAF 可以在多任务设置中进行训练,这样单个 LEAF 参数化就可以在所有这些任务中很好地工作。最后,当与大型音频分类器结合使用时,LEAF 在具有挑战性的AudioSet 基准测试中达到了最先进的性能,d-prime得分为 2.74 。 file

结论

音频理解任务的范围不断扩大,从通过语音诊断痴呆症到检测来自水下麦克风的座头鲸叫声。使 mel 滤波器组适应每项新任务可能需要大量的手动调整和实验。在这种情况下,LEAF 为这些固定特征提供了替代品,可以训练这些特征以适应感兴趣的任务,只需最少的任务特定调整。因此,我们相信 LEAF 可以加速新音频理解任务模型的开发。

更新说明:优先更新微信公众号“雨夜的博客”,后更新博客,之后才会陆续分发到各个平台,如果先提前了解更多,请关注微信公众号“雨夜的博客”。

博客来源:雨夜的博客

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多