AI读脑成真，延迟仅0.25秒！Meta里程碑新研究：MEG实时解码大脑图像，LeCun转赞

天承办公室 2023-10-20 发布于北京

展开全文

新智元报道

编辑：润贝果

【新智元导读】Meta AI研发新成果，利用脑电信号将人类大脑活动解码并可视化。这项研究开辟了一条前所未有的新途径，能够帮助科学界了解图像如何在大脑中表示，进一步揭示人类智能的其他方面。

AI读心术成了！？

今天LeCun转发了Meta AI最新的突破：AI已经能够实时解码大脑活动中的图像感知！

这项研究是由FAIR-Paris 与巴黎文理大学（PSL）巴黎高师（ENS）合作完成，是在利用脑磁图（MEG）信号重建视觉和语音输入方面取得的一个新的里程碑。

论文地址：https://ai./static-resource/image-decoding

Meta使用脑磁图（MEG）这种非侵入性神经成像技术，每秒进行数千次大脑活动扫描，并开发了一个AI系统，能够几乎实时地解码大脑中的视觉表征。

这个系统可以实时部署，根据大脑活动重建大脑在每个瞬间感知和处理的图像。

可以说，这项研究开辟了一条前所未有的新途径，能够帮助科学界了解图像如何在大脑中表示，从而进一步揭示人类智能的其他方面。

从长远来看，它还可能作为临床环境中的非侵入性脑机接口的基础，帮助那些在遭受脑损伤后失去说话能力的人与外界沟通。

具体来说，Meta开发了一个由图像编码器、大脑编码器和图像解码器组成的系统。

图像编码器在大脑之外独立构建一组丰富的图像表示。然后，大脑编码器学习将 MEG 信号与这些构建出来的图像进行嵌入对齐。

最后，图像解码器根据这些大脑表征生成可信的图像。

Meta首先比较了各种预训练图像模块的解码性能，发现大脑信号与计算机视觉AI系统（如 DINOv2）的一致性非常强。

这个研究结果证实了自监督学习能让AI系统学习类似大脑的表征方式——算法中的人工神经元往往会像大脑的物理神经元一样被激活，来响应相同的图像。

这种AI系统和大脑功能的协调一致性，可以让AI生成与人类在扫描仪中看到的图像高度相似的图像。

基于这个原理，Meta在一个公开的MEG数据集上训练出了这个系统。

Meta认为，虽然功能性磁共振成像 (fMRI) 可以更好地解码图像，但MEG解码器可以实时生成结果，连续解码大脑活动，生成连续而且几乎是实时的图像流。

这对于帮助那些因为大脑损伤而不能与外界沟通的患者，与外界进行实时交流是非常关键的。

前置知识，什么是脑磁图（MEG）？

脑磁图 (MEG) 是一种功能性神经成像技术，通过使用非常灵敏的磁力计记录大脑中自然发生的电流产生的磁场来绘制大脑活动图。

SQUID（超导量子干涉装置）阵列是目前最常见的磁力计，而 SERF（无自旋交换弛豫）磁力计正在被研究用于未来的MEG机器。

MEG 的应用包括感知和认知大脑过程的基础研究、手术切除前定位受病理影响的区域、确定大脑各个部分的功能以及神经反馈。这可以应用于临床环境中以查找异常位置，也可以应用于实验环境中以简单地测量大脑活动。

科恩博士在麻省理工学院的屏蔽室，使用 SQUID 测试了第一个MEG

AI读脑的技术架构

作者提出了多模态的训练pipeline：

（1）首先将MEG活动与经过预训练的图像特征进行对齐；

（2）从MEG信号流中生成图像

图1：（A）方法，冻住预训练模型（B）处理方案，与图像生成不同，图像检索可以在对齐的次空间中进行，但要求在检索集中有正样本图像。

作者提到，这个系统有两大贡献：

MEG 解码器可实现 (1) 高性能图像检索和图像生成，

(2) 为解释大脑视觉处理提供新方法。这表明提出的方法有能力真正推广到新的视觉理念，并为「自由形式（free-form）」视觉解码铺平道路。

总之，研究结果为在实验室和临床中对视觉表征进行实时解码，开创了一个大有可为的方向。

方法（Method）

1. 问题描述

作者研究的目的是，让一群健康的参与者看一系列自然图像，使用MEG记录他们的大脑活动，然后从时序的信号中解码图像，而解码器依赖的是生成模型。

2. 训练目标

作者提出的pipeline有多个部分，因此使用多目标优化策略，在图像检索时，使用得是CLIP Loss。

为了评估生成图像的质量，使用MSE Loss，

最后，作者使用带权重的凸组合方式，将CLIP和MSE损失组合起来，进而完成训练目标。

3. 脑模型

作者使用卷积神经网络架构去提取特征，在此基础之上，添加了时序聚合层，以减少维度，节约计算开销。

4. 图像模型

对于图像的特征编码，作者探讨了VGG-19、CLIP及其变体，以及Transformer结构。

5. 生成模型

为了能够公平的和fMRI结果进行比较，作者和其他论文一样使用了预训练模型，再在此任务上进行训练。

6. 训练的计算资源消耗

夸模态检索任务是在大约63,000个图像上训练的，验证集大约15,800张图像。使用了一张32GB 内存的Volta GPU。

7. 评估方法

作者为了评估方法的有效性，使用了检索指标relative median rank，top-5 accuracy，生成指标PixCorr、SSIM、SwAV。同时，为了对MEG解码性能进行公平评估，作者利用了数据集中的重复图像演示，在评估指标之前对预测值取平均值。

8. 数据集：

THINGS数据集

作者在THINGS-MEG数据集上测试方法。四名参与者（平均年龄为 23.25 岁）接受了 12 次 MEG 训练，在训练过程中，他们看到了从THING 数据集中选取的 22,448 幅图像。在此基础上，向他们展示了一组从THINGS数据库中选取的图像，用这些图片来扩大检索规模，并提高检索能力，进而提高方法的鲁棒性。

结果

机器学习被认为是理解大脑反应的有效模型

面对自然图像表示，哪些模型能提供最强大的解码性能？

为了回答这个问题，Meta采用线性岭回归模型（linear Ridge regression models），在给定对于每张图像的扁平化MEG响应的条件下预测到16种不同的潜在视觉表示，并比较了检索性能。如下表所示。

所有的图像嵌入都展现了高于随机水平的检索性能，但监督和文本/图像对齐模型（如 VGG, CLIP）获得了最高的检索分数。

机器学习被视为学习大脑反应的有效工具

Meta随后将这些线性基线与在相同任务上训练的深度卷积网络结构进行比较——在MEG窗口中检索匹配的图像。

使用深度模型使性能比线性基线提高了7倍（如下图2）。

多种图像嵌入类型都展现出良好的检索性能，其中 VGG-19（监督学习）、CLIP-Vision（文本/图像对齐）和DINOv2（自监督学习）的前五准确率分别为：70.33 ± 2.80%、68.66 ± 2.84%、68.00 ± 2.86%（计算了平均图像度量的标准误差）。

从「大」测试集设置可以得出类似的结论，虽然性能较低，但解码不仅依赖于图像类别，还需要区分同一类别的多张图像。代表性的检索示例如下图。

时间分辨率级别的图像检索

为了进一步研究视觉表征在大脑中展开的可能性，作者在250ms的滑动窗口上做了分析：