【原】科学家利用脑机接口让患者正常发声

脑机接口社区 2021-07-01

展开全文

说话在我们看来似乎是一项很简单、毫不费力的活动，但它却是我们执行的最复杂的动作之一。它要求声道的发音结构(嘴唇、舌头、喉和下颌)进行精确、动态的肌肉协调。当中风、肌萎缩侧索硬化症或其他神经系统疾病导致语言障碍时，失去沟通能力可能是毁灭性的。在《Nature》杂志的一篇论文中，Anumanchipalli等人[1]发布了一项突破性的脑机接口技术，该脑机接口让我们更接近恢复语音功能。

脑机接口旨在通过直接从大脑“读取”他们的意图并利用该信息控制外部设备或者帮助瘫痪者恢复肢体运动。用于交流的BCI的发展主要集中在大脑控制的打字上[2]，使瘫痪的人每分钟最多打字8个单词[3]。虽然将该功能恢复到这个水平可以改善严重交流障碍患者的生活，但基于打字的BCI不太可能实现自然语音的流畅交流【即平均每分钟150个单词】。Anumanchipalli等人开发出一种方法，该方法使用深度学习方法从大脑信号中生成口语句子。

研究人员与五名接受颅内监测的志愿者进行了合作，作为癫痫治疗的一部分，电极被用于监测大脑活动。研究人员使用了一种名为高密度大脑皮层电描记术(high-density electrocorticography)的技术来追踪志愿者说几百句话时控制语言和发音器官运动的大脑区域的活动。为了重建语音，Anumanchipalli等人并没有将大脑信号直接转换成音频信号，而是使用了一种两阶段解码方法，他们首先将神经信号转换成声道发音器官的运动表示，然后将解码后的动作转换为口语句子(图1)。这两种转换都使用了循环神经网络，该人工神经网络在处理和转换具有复杂时间结构的数据时特别有效。

图1 | 脑机接口语音合成。(a)先前研究采用了一种方法，即使用电皮层成像（ECoG）设备监测大脑与语音相关区域中的神经信号，并尝试使用一种称为循环神经网络(RNN)将这些信号直接解码为合成语音。(b) Anumanchipalli等人[1]开发的方法，其中RNN用于两个步骤解码。其中一个解码步骤是将神经信号转换成声带发音器(红色)的运动-涉及语音产生的解剖结构(嘴唇，舌头，喉和下颌)。在第一个解码步骤中进行训练数据，这些数据是作者将每个人的声道运动与其神经活动相关联的数据。由于Anumanchipalli等人不能直接测量每个人的声道运动，他们利用RNN来估计这些运动，它是基于以前收集大量的声道运动数据和语音记录数据[4]。该RNN产生的声道运动估计足以训练第一个解码器。第二个解码步骤将这些估计的运动转换成合成语音。Anumanchipalli及其同事的两步解码方法所产生的口语句子的失真明显小于直接译码方法。

了解脑信号与声道发音器的运动之间的关系具有非常大的挑战，因为在医院中与癫痫患者一起工作时很难直接测量这些运动。相反，作者使用了他们先前开发的一个模型所提供的信息[4]，该模型使用人工神经网络将记录的语音转换为产生该语音的声道发音的运动。该模型不是特定于某个受试者的。相反，它是使用从以前的参与者那里收集到的大量数据建立的。通过包括一个模型，该模型可以根据录制的语音来估算声道运动，从而使作者可以将大脑活动映射到声道运动上，而无需直接自己测量运动。

一些研究已经使用深度学习方法从大脑信号中重建音频信号[5,6]。其中包括令人兴奋的BCI方法，该方法利用神经网络直接从控制语音的大脑区域合成口语单词(大多是单音节的)[6]。相比之下，Anumanchipalli及其同事将解码方法分为两个阶段(一个阶段是解码声道发音器官的运动，另一个阶段是合成语音)，根据他们之前的观察，与语言相关的大脑区域的活动与发声发音器的运动的关系比与说话过程中产生的声学信号的关系更密切。

作者的两阶段方法所产生的声音失真比直接解码声音特征要少得多。如果可以使用跨越多种语音条件的海量数据集，则直接合成可能会匹配或胜过两阶段解码方法。但是，由于实际存在的数据集限制，具有解码的中间阶段会将有关声道发音器正常运动功能的信息带入模型，并限制了必须评估的神经网络模型的可能参数。这种方法似乎使神经网络能够实现更高的性能。最终，模仿正常运动功能的“仿生”方法可能在复制自然语音典型的高速，高精度交流方面发挥关键作用。

在BCI研究中，包括语音BCI这一新兴领域，开发和采用允许跨研究进行有意义比较的稳健度量是一个挑战。例如，重构原始语音的误差等指标可能与BCI的功能性能没有什么对应关系;也就是说，听者能否理解合成的语音。为了解决这个问题，Anumanchipalli等人从语音工程领域为人类听众开发了易于复制的语音可理解性度量。研究人员在众包市场亚马逊土耳其机器人(Amazon Mechanical Turk)上招募了一些用户，让他们从合成语音中识别单词或句子。与重构误差或以前使用的自动可理解度测量不同，这种方法直接测量对人类听众的语音可理解度，而不需要与原始的口语进行比较。

Anumanchipalli及其同事的研究结果为语音合成BCI概念提供了有力的证明，无论是在音频重建的准确性方面，还是在听者对产生的单词和句子进行分类的能力方面。然而，在临床上可行的语音BCI的道路上仍然存在许多挑战。重构语音的清晰度仍然远远低于自然语音。是否可以通过收集更大的数据集和继续开发底层计算方法来进一步改进BCI还有待观察。使用神经接口记录的大脑活动比使用皮质电图记录，可能会获得额外的改善。例如，在脑机接口研究的其他领域，皮质内微电极阵列通常比皮质电图记录具有更高的性能[3,7]。

目前所有语音解码方法的另一个局限性是需要使用发声语音训练解码器。因此，基于这些方法的BCI不能直接应用于不会说话的人。但Anumanchipalli及其同事表明，尽管语音解码的准确性大大降低，但是当志愿者模仿语音而不发出声音时，语音合成仍然是可能的。那些不能再产生语音相关动作的人是否能够使用语音合成BCI是未来研究的一个问题。值得注意的是，在首次开展BCI控制健康手臂和手部运动的概念验证研究之后，关于这种BCI在瘫痪患者中的适用性也提出了类似的问题。随后的临床试验证明，使用这些BCI[8,9]可以实现人类的快速交流、机械臂控制以及恢复瘫痪肢体的感觉和运动。

考虑到人类的言语产生无法直接在动物身上进行研究，因此在过去十年中，该研究领域的快速进展-从探索与言语相关的大脑区域组织的开创性临床研究[10]到概念验证的言语合成BCIs[6]-确实令人瞩目。这些成就证明了将神经外科医师，神经学家，工程师，神经科学家，临床工作人员，语言学家和计算机科学家相结合的多学科协作团队的力量。如果没有深度学习和人工神经网络的出现，最新的严谨结果也不可能出现的，深度学习和人工神经网络已在神经科学和神经工程学中广泛应用[11-13]。

最后，这些概念验证证明，在不能说话的个体中语音合成，结合BCI在上肢瘫痪患者中的快速进展，认为应该强烈考虑涉及语言障碍患者的临床研究。随着不断的进步，我们希望语言障碍患者能够重新获得自由表达自己想法的能力，并与周围的世界重新建立联系。

参考文献

1.Anumanchipalli, G. K., Chartier, J. &Chang, E. F. Nature 568, 493–498 (2019).

2.Wolpaw, J. R., Birbaumer, N., McFarland,D. J., Pfurtscheller, G. & Vaughan, T. M. Clin. Neurophysiol. 113, 767–791(2002).

3.Pandarinath, C. et al. eLife 6, e18554(2017).

4.Chartier, J., Anumanchipalli, G. K.,Johnson, K. & Chang, E. F. Neuron 98, 1042–1054 (2018).

5.Akbari, H., Khalighinejad, B., Herrero,J. L., Mehta, A. D. & Mesgarani, N. Sci. Rep. 9, 874 (2019).

6.Angrick, M. et al. J. Neural Eng.https:///10.1088/1741-2552/ab0c59 (2019).

7.Gilja, V. et al. Nature Med. 21,1142–1145 (2015).

8.Hochberg, L. R. et al. Nature 442,164–171 (2006).

9.Collinger, J. L., Gaunt, R. A. &Schwartz, A. B. Curr. Opin. Biomed. Eng. 8, 84–92 (2018).

10.Bouchard, K. E., Mesgarani, N., Johnson,K. & Chang, E. F. Nature 495, 327–332 (2013).