【原】LEAF：可学习的音频分类前端

雨夜的博客 2021-09-25

展开全文

视频介绍：LEAF：可学习的音频分类前端

在过去几年中，开发用于音频理解的机器学习 (ML) 模型取得了巨大进步。利用从数据中学习参数的能力，该领域已逐渐从复合的、手工制作的系统转变为当今用于识别语音、理解音乐或对鸟类叫声等动物发声进行分类的深度神经分类器。然而，与可以从原始像素中学习的计算机视觉模型不同，用于音频分类的深度神经网络很少从原始音频波形中进行训练。相反，他们依赖于 mel 滤波器组形式的预处理数据——手工制作的mel 缩放频谱图旨在复制人类听觉反应的某些方面。

尽管为 ML 任务建模 mel 滤波器组在历史上是成功的，但它受到固定特征的固有偏差的限制：即使使用固定的 mel 尺度和对数压缩通常效果很好，但我们不能保证它们提供最好的表示为了手头的任务。特别是，即使匹配人类感知为某些应用领域提供了良好的归纳偏差，例如语音识别或音乐理解，但这些偏差可能对模仿人耳不重要的领域有害，例如识别鲸鱼叫声. 因此，为了实现最佳性能，梅尔滤波器组应该针对感兴趣的任务进行定制，这是一个繁琐的过程，需要根据专家领域知识进行迭代工作。因此，标准 mel 滤波器组在实践中用于大多数音频分类任务，即使它们不是最理想的。此外，虽然研究人员已经提出了 ML 系统来解决这些问题，例如时域滤波器组、SincNet和Wavegram，但它们的性能仍无法与传统的 mel 滤波器组相匹敌。

在ICLR 2021接受的“ LEAF，一个完全可学习的音频分类前端”中，我们提出了一种为音频理解任务制作可学习频谱图的替代方法。LEarnable Audio Frontend (LEAF) 是一种神经网络，可以初始化为近似 mel 滤波器组，然后与任何音频分类器联合训练以适应手头的任务，同时只需向完整模型添加少量参数。我们表明，在广泛的音频信号和分类任务（包括语音、音乐和鸟鸣）中，LEAF 频谱图提高了固定 mel 滤波器组和先前提出的可学习系统的分类性能。我们已经在TensorFlow 2 中实现了代码并通过以下方式将其发布到社区我们的 GitHub 存储库。

Mel 滤波器组：模仿人类对声音

的感知创建 mel 滤波器组的传统方法的第一步是通过开窗捕捉声音的时间变化，即将信号切割成具有固定持续时间的短段。然后，通过一组固定频率滤波器传递窗口段来执行滤波，复制人类对音高的对数灵敏度。因为我们对低频的变化比高频更敏感，梅尔滤波器组更重视声音的低频范围。最后，音频信号被压缩以模拟耳朵对响度的对数敏感性——声音需要将其功率增加一倍，人才能感知到 3分贝的增加。

LEAF 松散地遵循这种传统的 mel 滤波器组生成方法，但将每个固定操作（即，过滤层、窗口层和压缩函数）替换为学习的对应物。LEAF 的输出是类似于 mel 滤波器组的时频表示（频谱图），但完全可学习。因此，例如，当 mel 滤波器组使用固定的音调比例时，LEAF 学习最适合感兴趣任务的比例。任何可以使用 mel 滤波器组作为输入特征进行训练的模型，也可以在 LEAF 频谱图上进行训练。

file

虽然 LEAF 可以随机初始化，但它也可以以近似 mel 滤波器组的方式初始化，这已被证明是一个更好的起点。然后，可以用任何分类器训练 LEAF 以适应感兴趣的任务。

file

固定特征的参数有效替代方案

用可训练系统替换不涉及可学习参数的固定特征的潜在缺点是，它可以显着增加要优化的参数数量。为了避免这个问题，LEAF 使用Gabor卷积层，每个过滤器只有两个参数，而不是标准卷积层典型的 ~400 个参数。这样，即使与小分类器（例如EfficientNetB0 ）配对时，LEAF 模型也仅占总参数的 0.01%。

file

性能

我们将 LEAF 应用于各种音频分类任务，包括识别语音命令、说话人识别、声学场景识别、识别乐器和寻找鸟鸣。平均而言，LEAF 优于 mel 滤波器组和以前的可学习前端，例如时域滤波器组、SincNet和Wavegram. 特别是，LEAF 在不同任务中实现了 76.9% 的平均准确率，而 mel 滤波器组的平均准确率为 73.9%。此外，我们表明 LEAF 可以在多任务设置中进行训练，这样单个 LEAF 参数化就可以在所有这些任务中很好地工作。最后，当与大型音频分类器结合使用时，LEAF 在具有挑战性的AudioSet 基准测试中达到了最先进的性能，d-prime得分为 2.74 。 file

结论

音频理解任务的范围不断扩大，从通过语音诊断痴呆症到检测来自水下麦克风的座头鲸叫声。使 mel 滤波器组适应每项新任务可能需要大量的手动调整和实验。在这种情况下，LEAF 为这些固定特征提供了替代品，可以训练这些特征以适应感兴趣的任务，只需最少的任务特定调整。因此，我们相信 LEAF 可以加速新音频理解任务模型的开发。

更新说明：优先更新微信公众号“雨夜的博客”，后更新博客，之后才会陆续分发到各个平台，如果先提前了解更多，请关注微信公众号“雨夜的博客”。

博客来源：雨夜的博客