分享

Meta研究人员利用人工智能解码脑电语音信号(全文解读)

 脑机接口社区 2022-10-25 发布于北京

最近,Meta团队提出一种通过非侵入式脑磁(电)图(magneto- or electro- encephalography, M/EEG)解码语言的方法。具体地,首先使用深度学习方法对语音输入和对应的脑电(磁)图信号进行解码,得到深层次的特征表示;然后,应用对比学习策略匹配两种模态的潜在特征表示;最终,在四个公共数据集上评估了该模型,该模型可以从3s的MEG信号中识别相应的语音段进行识别,TOP-10的准确率高达72.5%(TOP-1的正确率为44%),在EEG信号的TOP-10准确率为19.1% (允许测试集中存在训练集中不存在的短语)。

补充知识TOP-10准确率:

一个训练完毕的网络进行分类任务时,假设要分类的数目有50类,输入一张图片,网络会依次输出这50个类别的概率,当所有样本测试完成后,那么:

TOP-10准确率是指在测试样本的50个分类概率中,取前面10个最大的分类概率,如果正确的标签在前10分类概率中,则分类成功。

TOP-10正确率=(所有测试样本中正确标签包含在前十个分类概率中的个数)/(总的测试图片数)×100%

 1   方法概述

非侵入的大脑活动记录方式(M/EEG)容易受到噪声的污染,这会使得其在跨试次和跨受试的数据分布差异大。之前研究者们的方法是首先利用专业知识提取手工特征,再输入至特定的解码器进行训练(每个模型只训练一个受试者的数据)。

本文不同于先前的研究,提出了端到端(无需手工特征)的单一结构(跨受试)和使用数据驱动方法从健康受试者听故事和/或句子时非侵入式的M/EEG记录中解码语音。为此,该模型设计了一个’Subject Layer’并且使用对比学习策略匹配语音和M/EEG模态。

模型的总体结构如图1所示,3s长的语音信号通过预训练的自监督模型wav2vec提取深层次的特征,M/EEG使用一个Subject Block和卷积神经网络(CNN)堆叠的结构得到深层次的特征,然后使用对比损失CLIP最大限度的对正这两种特征表示。并且,在测试语音中会存在训练时不存在的单词,因此该模型可以是’Zero-shot’的。因此,该模型比标准分类方法(解码器只能预测在训练期间学习的类别)更通用。

补充知识Zero-shot learning:

Zero-shot learning指的是模型之前没有这个类别的训练样本。但是模型已学习到一个映射X->Y。如果这个映射足够好的话,模型就可以处理未知类。虽然模型不知道未知类是什么,但是模型评估未知类与各个已知类的相似度。

 2   方法详解

2.1 神经解码

我们观察到,这种直接回归方法面临挑战:当存在语音时,解码预测似乎由不可区分的宽带分量主导(图2.B)。这一挑战激发了我们的三个主要贡献:引入对比损失、预训练深度语音表示和专用大脑解码器。

2.2 大脑解码模块

如图2-E所示,主要包括三个子模块:M/EEG传感器上的空间注意层;受试者特定的1x1卷积,旨在利用受试者间的差异;堆叠的卷积block。

2.3 对比损失

从语音与M/EEG的绝对差异损失(实际差异很大,网络难以学习),变成了M/EEG与所有潜在语音片段的相对差异损失(网络更容易学习)。

2.4 语音模块

Mel谱图是语音的低水平表示,因此不太可能与丰富的皮层表示相匹配。因此,重点关注使用wav2vec 2.0获得的解码结果。wav2vec 2.0是一种由卷积和Transformer构成的预训练网络用于变换原始波形,以预测其自身潜在表示的掩蔽部分。在实验中,使用了wav2vec2-large-xlsr-531模型,它已经在53种不同语言的56k小时语音上进行了预训练。详细代码可参见:

https://github.com/pytorch/fairseq/blob/main/examples/wav2vec

 3   实验设置

M/EEG通常被认为是从相对较低的频率范围捕获神经信号,将所有大脑记录重新采样到120 Hz,然后将数据分为训练、验证和测试部分,按照70%、20%和10%的比例。我们将“样本”定义为大脑记录的3s窗口及其相关的语音表示。我们确保在拆分中没有相同的句子,并检查每个句子是否由唯一的说话者发音。M/EEG数据可能会出现较大的伪影,如眼球运动或电磁环境的变化。为了限制其影响,我们采用了“基线校正”(即,我们减去每个输入通道在前0.5秒的平均值)。对于Mel谱图,我们使用了120个Mel频带,使用在16kHz采样的音频,帧大小为512个样本,跳跃长度为128个样本的归一化STFT。

表1 四个公共数据集的具体信息

我们在四个公共数据集上测试了我们的方法,其中两个基于MEG记录,两个基于EEG。我们概述了表1中数据集的主要特征,包括训练和测试段的数量以及两个部分的词汇大小。对于所有数据集,健康成年志愿者被动地听语音(伴随一些记忆或理解问题,以确保参与者注意力集中),同时用MEG或EEG记录他们的大脑活动。

一个训练epoch内伴随着使用Adam的1200次更新,学习率为3*10−4和批量大小为128。当10个epoch的验证集上没有观察到改进时,我们停止训练,并基于有效损失保持最佳模型。对于Mel谱图的直接回归,我们使用MSE损失。我们使用两个具有16GB内存的V100 GPU。

 4   实验结果

4.1 从M/EEG记录中解码语音的准确性

表2语句级的TOP-10准确率

我们的模型预测了1000多个可能段中的正确段,MEG数据集的Top-10准确率分别为72%和67%(TOP-1准确率为44%和36%)。对于超过一半的样本,真实音频段在解码器的预测中排名第一或第二。相比之下,预测词汇表上均匀分布的模型(“随机模型”)在相同的MEG数据集上仅达到2%的TOP-10准确率。EEG数据集的解码性能较低:我们的模型达到19%和31%的TOP-10准确率,这些分数比随机模型高四倍。

表3 消融实验结果(语句级TOP-10)

我们的消融强调了以下重要性:(1)对比损失,(2)使用深度语音表征和(3)大量参与者的组合。首先,当使用模型输出按余弦相似性对候选片段进行排序时,经过训练以预测具有回归目标的Mel谱图的模型(表2中的“基础模型”)在数据集上平均达到10%的TOP-10准确率,即比我们的模型低近五倍。

第二,预测具有对比损失的Mel谱图比基本模型提高了3倍,并通过使用wav2vec 2.0作为语音表示获得了16%的增加。我们验证了wav2vec 2.0的潜在表示比使用对比学习的端到端学习提供了更高的解码性能,如表2上的深度Mel模型的结果所示。

第三,为了测试我们的模型是否有效地利用了个体间变异性,我们在不同数量的受试者上进行了训练,并计算了前10%受试者的准确率。随着模型在两个MEG数据集上训练更多对象,解码性能提高。另一个消融实验加强了从多个受试者学习的能力:对所有受试者进行训练,但没有受试者特定层,导致四个数据集的平均准确率下降17%。

最后,其他设计选择对我们模型的性能产生了适度但显著的影响。当去除跳跃连接、空间注意力模块、初始或最终卷积层时,性能系统性降低。

论文信息:decoding speech from non-invasive brain recordings


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多