【原】Nature子刊 | Meta AI 寻求非侵入式方法实现从大脑活动中解码语音

脑机接口社区 2023-11-29 发布于北京

展开全文

Meta AI公司的研究人员最近开发出了一种很有前途的非侵入式方法，可以从人的大脑活动中解码语音，这可以让无法说话的人通过计算机界面传达自己的想法。他们在《Nature Machine Intelligence》杂志上提出的这一方法融合了成像技术和机器学习。

Meta公司的科学家Jean Remi King告诉医学快报记者：“在中风或脑部疾病之后，许多病人都会丧失说话的能力。在过去几年中，神经假体的开发取得了重大进展：这种装置通常植入患者的运动皮层，通过AI可以控制计算机界面。不过，这种仍然需要进行脑部手术，因此这还是存在风险的”。

除了需要外科手术外，大多数建议的语音解码方法都依赖于植入电极，而确保这些电极在很长时间内(几个月或几年内)正常工作是一项挑战。

是否有一种非侵入式方法来替代借助类似植入物实现的功能？

King和他的同事们探索了一种解码语音表征的替代性非侵入性途径。

King解释说：“我们没有使用颅内电极，而是直接采用了脑磁图技术。这是一种依靠无创设备的成像技术，每秒可拍摄一千多张大脑活动快照。由于这些大脑信号非常难以解读，因此我们训练一个AI系统将其解码为语音片段。”

方法概述

该系统由两个关键模块组成，分别被称为"大脑模块"和"语音模块"。研究人员利用该系统训练它分析脑磁图图像，根据图像中记录的大脑活动预测语音。

图1 方法模型

非侵入的大脑活动记录方式(M/EEG)容易受到噪声的污染，这会使得其在跨试次和跨受试的数据分布差异大。之前研究者们的方法是首先利用专业知识提取手工特征，再输入至特定的解码器进行训练(每个模型只训练一个受试者的数据)。

本文不同于先前的研究，提出了端到端(无需手工特征)的单一结构(跨受试)和使用数据驱动方法从健康受试者听故事和/或句子时非侵入式的M/EEG记录中解码语音。为此，该模型设计了一个’Subject Layer’并且使用对比学习策略匹配语音和M/EEG模态。

模型的总体结构如图1所示，3s长的语音信号通过预训练的自监督模型wav2vec提取深层次的特征，M/EEG使用一个Subject Block和卷积神经网络(CNN)堆叠的结构得到深层次的特征，然后使用对比损失CLIP最大限度的对正这两种特征表示。并且，在测试语音中会存在训练时不存在的单词，因此该模型可以是’Zero-shot’的。因此，该模型比标准分类方法(解码器只能预测在训练期间学习的类别)更通用。