分享

Meta AI开发可解码大脑语音的模型,助力脑损伤患者更好与人交流,有望创造计算机交互新方式

 江海博览 2022-09-03 发布于浙江
图片

据了解,每年遭受创伤性脑损伤的人数近 7000 万人,他们大都无法再通过语音,甚至手势与他人进行交流。

因此,从大脑活动中直接解码语言成为医疗保健和神经科学中期待已久的目标。这样,不需要人开口说话,就能了解他/她想要表达的意思。

近日,Meta AI 的让-雷米·金(Jean-Remi King)等研究人员开发出一种 AI 模型,可以根据大脑活动的无创记录解码语音。相关论文也以《从非侵入性大脑记录解码语音》(Decoding speech from non-invasive brain recordings)为题提交到 arXiv 上。

图片

(来源:Meta AI)

“大脑中控制嘴的部分和涉及理解和形成语言的部分是分开的。我们一直在将 AI 和大脑方面的知识结合在一起做研究,以帮助那些遭受创伤性神经损伤的人们。金告诉媒体。他还提到,虽然常见的磁共振成像和计算机断层扫描等装置也能产生详细的大脑图像,但其显示的是结构而非大脑活动。

目前,从大脑活动中解码语音的大多数进展,依赖于侵入性大脑记录技术,例如立体定向脑电图和脑皮层电图。但相较于无创方法,它们需要打开头骨并将电极直接放在大脑本身上,对人有一定风险和危害性。

而不需要任何手术的方法,如脑电图、脑磁图等非侵入性技术,可从外部扫描并观察人脑活动。使用这些方法解码语音更安全、更具可扩展性,并能让更多人获益。

不过,非侵入性录音往往是“嘈杂的,并且由于每个人大脑的差异与记录期间传感器的位置等多种原因,不同人的会话录制可能会有很大差异。

为解决这个问题,Meta AI 的研究人员转向机器学习算法来帮助“清理噪声。他们使用的模型称为 wave2vec 2.0,这是该团队在 2020 年研发的开源自监督学习 AI 工具,可用于从嘈杂的音频中识别正确的语音。

他们使用该模型来辨别志愿者大脑中的语音表示。结果表明,对于我们日常使用的大部分单词,模型的识别准确率可达 73%。

具体来说,研究人员专注于脑电图和脑磁图两种非侵入性技术,他们在这两种方式的四个开源录音上,对 wave2vec 2.0 进行了训练。训练数据集包括来自 169 名健康志愿者,在听有声读物和孤立句子(英语和荷兰语)时,大脑活动的 150 多个小时的录音。

该团队还将这些脑电图和脑磁图的记录输入到一个“大脑模型中,该模型由一个带有残差连接的标准深度卷积网络组成。

在实践中,分析大脑数据通常需要一个复杂的工程管道,用于重新调整模板大脑上的大脑信号。

本次研究里,研究者还设计了一个新的主题嵌入层,该层经过端到端训练,可以将所有大脑记录对齐到一个公共空间中。

即为了从非侵入性大脑信号中解码语音,研究人员训练了一个具有对比学习的模型,以对齐语音及其相应的大脑活动。两者保持一致,就能轻易找出“大脑模型输出所对应的语音。

值得一提的是,Meta AI 在之前工作中,使用 wav2vec 2.0 证明了该算法可生成与大脑相似的语音表示。如下图所示。

图片

▲图 | wav2vec 2.0(左)的激活映射到大脑(右)以响应相同的语音(来源:Meta AI)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多