【原】EEG分类实验block设计的危险与陷阱

思影科技 2021-02-14

展开全文

最近的一篇论文声称对观看ImageNet刺激的受试者所诱发的大脑加工采用脑电(EEG)测量进行分类，并利用从这种加工中得到的表征来构造一种新的对象分类器。这篇论文，连同一系列后续论文，声称在各种各样的计算机视觉任务上取得了成功的结果，包括对象分类、迁移学习和生成图像，这些图像描述了人类的感知和思想，使用的是通过EEG测量的来自大脑衍生的表征。我们的新实验和分析表明，它们的结果在很大程度上取决于它们所使用的block设计，其中某一类型的所有刺激都被一起呈现，而快速事件设计失败，其中不同类型的刺激被随机混合呈现。block设计是基于block-水平的时间相关性对任意的大脑状态进行分类，这种时间相关性存在于所有EEG数据中，而不是基于刺激相关的活动。因为他们测试集中的每个试次都来自于相同的block，与相应训练集中的许多试次相同，因此他们的block设计导致对数据的任意时间伪迹进行分类，而不是对刺激相关的活动进行分类。这将使在多篇发表的论文中对这些数据进行的所有后续分析无效，并对所有报告的结果提出质疑。我们进一步表明，用随机代码构造的新对象分类器的性能与用从EEG数据中提取的表征构造的新对象分类器一样好或更好，这表明用从EEG数据中提取的表征构造的分类器的性能并不受益于从大脑获得的表征。总之，我们的结果说明了所有神经影像学数据中存在的时间自相关关系对分类实验的深远影响。此外，我们的结果校准了所涉及任务的潜在难度，并对过度乐观但不正确的相反主张提出了警告。本文发表在IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE杂志。（可添加微信号siyingyxf或18983979082获取原文）。

关键词：对象分类，EEG，神经成像

思影曾做过多期关于脑电机器学习相关的文章解读。可点击以下链接浏览，增进理解：

Current Biology：视觉想象和视觉感知共享Alpha频带中的神

利用脑电连通性特征和卷积神经网络的情绪分类

脑电研究：通过神经活动和视觉特征的多模态学习

JAMA Psychiatry：使用机器学习的方法探究焦虑和创伤性障

Nature neuroscience：利用encoder-decoder模型实现皮层活

脑电信号处理的机器学习

ANNALS of Neurology：中风恢复过程中脑机接口可促进运动

Nature Biotechnology: EEG特征预测重度抑郁症的抗抑郁药反应

BMC Medicine：自闭症谱系障碍静息态EEG信号的定量递归

SCIENCE ROBOTICS：非侵入式神经成像可增强机器控制

Lancet Neurology：一种供四肢瘫痪患者使用硬膜外无线脑机

Lancet经典：植物人意识状态的床边检测

NATURE子刊：出生第一年的纵向EEG power能识别孤独症谱

EEG机器学习：急性脑损伤临床无反应患者脑

STROKE:用于慢性中风患者运动康复的动力外骨骼的健侧脑-机

PNAS:基于脑电在线神经反馈调节唤醒程度可以改善个体

帕金森病认知图谱的EEG机器学习

BRAIN：机器学习：基于EEG的跨中心、跨方案的意识

脑机接口训练可持久地恢复中风病人的上肢运动功能

1. 引言

在神经影像学界，无论实验刺激如何，fMRI和EEG时间序列在短和长范围内都表现出时间自相关。因此，为了避免将block效应与实验效应混淆，神经科学研究采用了将每个实验条件分布在多个block上的设计，或使用时间抖动的刺激来破坏时间相关结构，以及在单个试次上使用刺激随机分配的快速事件设计。然而，尽管使用机器学习技术应用于神经影像数据的研究激增，据我们所知，EEG/fMRI时间相关性对分类问题的影响尚未得到机器学习领域的检验。这里，我们通过全面分析最近的一篇论文所提出的看似令人印象深刻的主张，并通过一系列精心设计的其他实验来阐明这些问题，说明了这种时间相关性在EEG数据中的深远影响，以及坚持严格的实验设计的重要性。

最近的一篇论文声称(学习)对人类受试者观察ImageNet图像的EEG数据分类，并使用学习的分类器来训练纯计算机视觉模型。在该文中，ImageNet的图像作为刺激呈现给受试者，而长短记忆模型(long short-term memory, LSTM)与全连接层和ReLU层相结合，经过训练可以预测其类别。ReLU层的输出用于反映人类对感知的神经编码。然后，将现有对象分类器的输出回归到感知的这种所谓的人类神经编码，以使计算机视觉系统产生相同的感知编码。

该论文提出了三项具体声明：

1.我们提出了一种深度学习方法来分类由视觉对象刺激诱发的EEG数据，无论是在处理对象类的数量上还是在分类精度上都优于最先进的方法。

2.我们提出了由EEG信号驱动的第一个计算机视觉方法，即第一个使用直接从涉及视觉场景分析的人类神经过程中提取的视觉描述符的自动分类方法。

3.我们将公开发布最大的EEG数据集用于视觉对象分析，并提供相关的源代码和经过训练的模型。

特别是对声明1又做了进一步说明：

i. 他们的方法对比以前对EEG信号进行分类的方法，可以对大量不同类别的对象进行分类。

ii.他们的方法在分类EEG信号方面比先前的工作获得了更高的精度(82.9%)。

这篇论文进一步将其所谓的结果描述为：

在本文中，我们希望在经典的BCI方法方面迈出一大步，即我们的目标是探索一种新的和直接的人类参与形式(基于人类的计算策略的新愿景)，用于自动化视觉分类。其基本思想是通过将EEG信号分类-读懂大脑-然后将图像投影到这样的流形中，使机器能够执行自动视觉分类-将人类的视觉能力转移到机器上来学习视觉类别的大脑信号鉴别流形。将目标类别相关的EEG信号解码纳入计算机视觉方法的影响是巨大的。首先，识别基于EEG的视觉分类鉴别特征可以提供对人类视觉感知系统的有意义的见解。因此，它将大大提高基于BCI的应用程序的性能，并使一种新形式的基于大脑的图像标记成为可能。其次，有效地将图像投影到一个新的基于生物的流形中，将从根本上改变对象分类器的开发方式(主要是在特征提取方面)。

在这里，我们报告了许多实验和分析，这些研究和分析使这些结果和主张受到质疑。具体来说，我们发现所使用的分类器广泛地(如果不是唯一的话)使用长期的静态大脑活动，这种活动的持续时间远远超过单个刺激的持续时间。由于本文采用了block设计，其中给定类别的所有刺激都连续地呈现给一个受试者，因此所使用的分类器倾向于对该block期间的大脑活动进行分类，这似乎与刺激类别在很大程度上是不相关的。由于分类器依赖于EEG信号中的直流和非常低的频率(VLF)成分，而这些成分反映了在在block期间的任意的长期静态的大脑状态，而不是动态的大脑活动，从而加剧了这种情况。由于所使用的测试集中的每个试次来自与相应训练集中的许多试次相同的block，报告的高分类精度是由于对数据的任意时间伪迹进行分类而不是与刺激相关的活动。当用快速事件设计重复实验时，不同类别的刺激被随机混合，分类准确率下降到随机。因此，这使得在多篇发表的论文中提出的所有结果和主张值得怀疑。我们的实验表明，潜在的任务比表面上看起来要困难得多，而且远远超出了目前的技术水平。这表明，鉴于广泛发表的说法是过于乐观且不正确的。最后，在第6节中，我们仔细检查了122篇最近的论文，这些论文对EEG数据进行了分类，并发现很大一部分在这里描述的方式上是有问题的。

2. 概述

在第3节中，我们报告了一组全面的实验和分析，以充分理解Spampinato等人报告的结果和声明。 (下称OP₁，“原始文件”)。我们首先总结我们的发现：

a：在3.3节中，除了基于OP₁使用的LSTM（长短记忆模型）的分类器之外，我们还使用许多不同的分类器重新分析OP₁收集的EEG数据。结果表明，与LSTM不同，使用其他分类器尤其是对时间敏感的分类器，可以获得更好的效果。当我们进一步重新分析OP₁收集的具有较短时间窗口(像单个时间样本一样短)，具有随机时间偏移的EEG数据，并且有一组的通道减少时，我们用这些不同的分类器获得了更好的结果。这表明OP₁收集的数据缺乏反映有益于分类的感知过程的时间和详细的空间信息。

b: 在3.4节中，我们使用相同的刺激、呈现顺序和时间设置复制OP₁的数据收集工作，记录96个具有更精细量化(24位与16位)和更高时间采样率(4096Hz与1kHz)的通道。我们使用OP₁使用的原始block设计来实现这一点，其中给定类的所有刺激都被呈现在一起，并且使用快速事件设计。我们还收集了数据的block和快速事件设计，除了ImageNet中描绘物体的原始静态图像刺激，还有好莱坞中描绘活动课程的短视频剪辑。

c：在3.5节中，我们在新数据上进行了第3.3节所有的分析。对于通过block设计收集的数据，我们使用一个分类器，较长的窗口和大量的通道在图像和视频刺激上均获得了中等良好的分类精度。但是，我们使用所有其他分类器，较短的窗口和少量通道会获得较差的分类精度。我们进一步发现，所有分类器都可以通过快速事件设计收集的数据产生随机水平的表现。

d：OP₁声明他们的数据分析包括带通和陷波滤波。因此，第3.5节中的分析采用了这样的滤波，去除了直流和低频分量。由于OP₁的作者在电子邮件(第4.1节)中向我们指出，他们没有执行带通滤波，因此在第3.6节中，我们也重复了没有进行带通滤波的数据分析。保留DC和VLF分量使我们能够用block设计收集的数据复制OP₁发布的数据的结果。然而，我们仍然有机会通过快速事件设计收集数据。

e：OP₁所采用的block设计以及它们的分割具有这样的性质，即每个测试集中的每个试次都来自于一个block，包含了相应训练集中的许多试次。在第3.7节中，我们进行了四项新的分析。在第一个新的分析中，我们使用新的拆分对OP₁发布的数据进行重复分析，其中每个测试集中的试次来自不包含相应训练集中试次的block。分类准确率下降到随机水平。在第二个新的分析中，我们尝试对我们用block设计收集的数据进行受试者内跨block分类。由于我们记录了来自同一受试者的图像和视频刺激的block设计的三个独立的run，两个具有相同的刺激呈现顺序，一个具有不同的刺激呈现顺序，因此我们能够进行交叉block分析，其中测试集中的试次来自与相应训练集中的试次不同的block。我们首先尝试在具有相同刺激呈现顺序的block之间进行交叉block分类。当数据未经带通滤波器预处理时，分类精度急剧下降。此外，当数据已经用带通滤波器预处理时，分类精度偶然下降。最后，当试图在具有不同刺激呈现顺序的block之间进行交叉block分类时，即使数据没有用带通滤波器预处理，分类精度也会下降。在第三个新的分析中，我们对快速事件设计收集的新数据重复分析，其中标签被替换为与block而不是刺激相关的任意标签。分类精度从偶然上升到远远高于偶然的水平，达到OP₁收集的数据所获得的精度。在第四个新的分析中，我们首先对数据应用各种高通滤波器，然后对OP₁发布的数据重新运行OP₁发布的代码。分类准确率从大约93%下降到大约32%。总的来说，这些证明了OP₁报告的高分类准确性是由于对于一个block相关联的长期大脑活动进行分类，即使当该block包含不同类别的刺激，而不是与对该类别刺激的感知相关联的大脑活动。他们进一步证明，由于缺乏带通滤波，信号中DC和低频分量的存在会加剧这种情况。这反驳了声明1和3。

f：在第3.8节和第3.9节中，我们重复了Spampinato等人进行的回归和迁移学习分析，但有一点扭曲。我们用随机码本代替EEG编码，如果不是更好的话，也能得到相同的结果。这表明OP₁进行的回归和迁移学习分析并没有从大脑启发或大脑衍生的表征中获益，反驳了声明2。

3. 实验

我们在第5节和第7节的发现得到了以下实验和分析的支持。

3.1 OP₁数据收集

OP₁采用了以下实验方案。他们选择了40个对象类别，每个对象类别有50张图片。这些被作为刺激呈现给6名接受EEG检查的人类受试者。采用了block设计。每个受试者看到40个方block，每个方block包含50个图像刺激。每张图片只出现一次。一个block中的所有50个刺激都是同一类的图像。所有受试者都看到了完全相同的2000幅图像。我们不知道不同的受试者是否以不同的顺序看到了类别或者一个类别中的图像。作者向我们提供了一个受试者的图像呈现顺序。每幅图像呈现0.5秒。block被10秒的空白分开。从128个通道以1kHz和16位分辨率采集了大约40 × (50 × 0.5 s + 10 s) = 1400s的EEG数据。

3.2 OP₁数据分析

OP₁报告说，EEG数据是通过应用二阶带通巴特沃斯滤波器(低截止频率14Hz，高截止频率71Hz)和陷波滤波器(49–51Hz)进行预处理的。带通频带包括β(15–31Hz)和γ(32–70Hz)频带，因为它们传达了与视觉感知相关的认知过程的信息。所有6名受试者的数据被汇集在一起，分成大约0.5秒的试次，并分成6个训练/验证/测试组。每个分割的每个部分包含所有6个受试和所有受试的所有类别的数据。数据在训练和分类前进行z变换。从刺激开始的40ms开始，在每个试次的440ms窗口中施加LSTM，结合全连接层和ReLU层。评估了各种不同的架构参数，其中最好的达到了85.4%的验证准确性和82.9%的测试准确性。OP₁声称，对于数量明显更多的类别，这比以前报道的所有关于EEG数据的分类实验的分类精度高得多。

3.3 OP₁数据的再分析

我们询问分类能力的显著提高是由于OP₁采用的分类器架构，还是由于他们的实验协议和数据收集过程的某些方面。OP₁已经公开发布了他们的代码和数据。这使我们能够验证他们发布的结果，并使用不同的分类器重新分析他们的数据来研究这个问题。发布的代码产生(略好于)发布数据的发布精度。

OP₁已经发布了Python和Matlab格式的数据。这两种格式都是在分段之后。这里报告的所有结果都是用Python格式的数据生成的，这些数据在处理前进行了z变换。详见第4节。

我们用四种不同的分类器(表1)重新分析了OP₁数据：一个k近邻分类器(k-NN)，一个支持向量机(SVM)，一个多层感知器(MLP)，和一个1D卷积神经网络(CNN)。k近邻分类器使用的是欧几里德距离，在128×440=56320与每个试次相关的元素向量。SVM采用了应用于数据的线性核，该数据在时间上被下采样到500Hz，即128×220=28160元素向量。MLP采用了两个全连接层，在第一个全连接层之后有一个sigmoid激活函数，用交叉熵损失训练，应用于128×440=56320个元素向量，有128个隐藏单元。1D CNN(图1)独立处理了128个通道中的每一个，8个1D CNNs长度为32，步幅为1。八个1D CNNs中的每一个的128个应用共享相同的参数。每个的输出由一个ELU处理。这产生了长度为440-3+1=409和128×8=1024个时间点特征。然后，通过将每个时间点映射到一个40个元素的向量的全连接层来进行处理。参数在所有时间点共享。然后，通过沿时间轴平均汇集，对40个通道中的每个通道进行独立处理，内核长度为128，步长为64。这产生了具有5个时间点的40个特征的特征映射。接着是具有40个输出的全连接层。训练在交叉熵损失的情况下进行。对于LSTM，试次的时间EEG样本被一个接一个地作为输入提供给分类器。对于1D CNN，一个矩阵的行是通道，列是试次的时间EEG样本，该矩阵被作为分类器的输入。对于其他分类器，试次的所有时间EEG样本被连接并作为单个输入向量呈现。

图1 我们的1D CNN曾经处理过EEG数据

表1 验证集、测试集和OP₁使用的所有六个分割的分类精度平均值，包括软件发布的数据(LSTM与全连接层和ReLU层的组合)和四个新分类器:最近邻分类器、SVM分类器、MLP分类器和1D CNN分类器

在这里，以及在所有的表格中，星号值通过二项式cmf表示上述几率(p<0.005)。

表1中的结果表明，OP₁所采用的分类器架构没有什么特别之处。它不仅使用基于LSTM的分类器或1D CNN试图对信号的时间特性进行建模，还使用没有特定时间结构的SVM。此外，虽然其他方法，如也缺乏时间结构的k-NN和MLP没有产生同样高的精度，但它们产生的精度远远高于随机，远远高于OP₁引用的文献中报告的任何结果。

由于分类器对信号的时间平移敏感，因此可以获得较高的精度，我们询问分类精度是否依赖于此。为此，我们对所有5个分类器进行了训练和测试，试次窗口的长度在200ms、100ms、50ms和1ms之间变化(表2)。5在所有情况下，试次窗口都是在逐个试次的基础上从刺激开始的随机偏移处开始的。请注意，在刺激中随机选择的时间样本在分类准确性上没有反映出大脑的时间处理。

表2 不同试次窗口长度的分类精度，从刺激开始随机时间偏移，在验证集、测试集和OP₁使用的所有六个分割中平均，所有五个分类器的数据

早先的一份报告对OP₁进行了类似的数据收集工作，用32个通道而不是128个通道。在相同的类别、刺激、实验方案和分类结构上，这种努力产生了相当低的分类准确率(约40%)。考虑到这里分析的分类器似乎不依赖于大脑处理的时间性质，我们检验了它们在多大程度上依赖于通道的数量。为此，我们对数据集进行了特征选择，即通道选择，以训练和测试不同大小的通道子集。对于C类分类任务，通道v的Fisher得分，其中每个C类都有n_c示例，计算如下：

其中

和

是每类每个通道的均值和方差，

是每个通道的均值。我们选择了训练集上Fisher变换最高的m个通道，针对不同的m，并针对不同的窗口长度在该通道子集上重复训练和测试(表3)。我们观察到，要获得高精度，不需要全部128个通道。当使用少于32个通道时，精度会有所下降，但在少至8个通道的EEG数据上，可以获得比随机更高的精度和比OP₁引用的所有先前报告的分类实验更高的精度。此外，使用相同数量(32)的通道，可以获得比Spampinato等人更高的精度，而使用更少数量(8)的通道，可以获得相同的精度。虽然通道选择的空间布局可能与具有较少电极帽的电极布置不一致，但是我们接下来讨论为什么我们认为能够利用如此极端的空间和时间下采样来准确地分类OP₁数据是重要的。

表3 不同通道数的分类精度，验证集、测试集和OP₁使用的所有六种分割的平均值，所有五种分类器和不同试次窗口长度的数据，从刺激开始随机时间偏移

如果您对脑电，机器学习等感兴趣，欢迎浏览思影科技课程及服务（可添加微信号siyingyxf或18983979082咨询）：

第二届脑电机器学习数据处理班（南京，4.6-11）

第十二届脑电数据处理入门班（南京，3.19-24）

第八届脑电信号数据处理提高班（南京，3.29-4.3)

第九届眼动数据处理班（上海，4.6-11）

第二十五届脑电数据处理中级班（上海，3.17-22）

第十一届近红外脑功能数据处理班（上海，4.13-18)

第二十六届脑电数据处理中级班（重庆，4.9-14)

第十四届脑影像机器学习班（重庆，3.12-17）

第一届任务态功能磁共振提高班（3.9-14）

思影科技EEG/ERP数据处理业务

思影科技脑电机器学习数据处理业务

思影数据处理服务五：近红外脑功能数据处理

思影数据处理服务六：脑磁图（MEG）数据处理

思影科技眼动数据处理服务

BIOSEMI脑电系统介绍

3.4 新数据收集

上述分析表明，OP₁获得的准确性不是由于分析架构，而是由于实验方案(block设计、刺激、刺激时序和呈现顺序)或数据收集工作(使用他们的实验室仪器——cap和采集硬件)。我们想知道准确是因为前者还是后者。为此，我们重复了数据收集工作。我们收集了六名受试者的数据。对于每一种，我们收集了四种数据。前两个使用了与OP₁相同的40个对象类别和2000个图像刺激。后两个使用了12个活动类别和来自好莱坞的视频剪辑子集，如Siskind所述。剪辑子集被选择为平衡的，每个类别有32个剪辑，在时间上被裁剪为以所描绘的活动类别为中心的统一的4秒持续时间，并且被转码为统一的空间和时间分辨率。我们重复我们对图像和视频刺激的所有实验和分析，以研究出现的问题是特定于对物体感知(名词)进行分类的任务，还是也出现在对活动感知(动词)进行分类的任务中。

每组刺激用两种不同的范式收集数据。其中一个范例使用了block设计，给定类别的所有刺激一起显示在一个block中。另一个范例使用快速事件设计，刺激以随机顺序呈现。

对于受试者1，我们收集了一次block数据，从而收集了四个记录：一个图像block、一个图像快速事件、一个视频block和一个视频快速事件。对于受试者2–5，我们收集了两次block数据，两次都具有相同的刺激呈现顺序，因此每个受试者收集了六个记录：两个图像block、两个视频block、一个图像快速事件和一个视频快速事件。对于受试者6，我们收集了三次block数据，前两次具有相同的刺激呈现顺序，第三次具有不同的顺序。这种交替的顺序改变了类被呈现为block的顺序和类内刺激被呈现在block内的顺序。因此，对于受试者6，我们收集了八个记录：三个图像block、三个视频block、一个图像快速事件和一个视频快速事件。受试者1的数据分两次收集(每次一个上限)，一次针对图像刺激，一次针对视频刺激。每一个剩余受试者的数据都是在一个单独的时间段内收集的，每个时间段有一个上限。因为所有对我们数据的分析都在受试者范围内，并且只在图像或视频上进行，所以没有必要进行比对。

图像刺激的block设计采用与OP₁相同的设计：40个block，每个block由50个刺激组成，每个block呈现0.5秒，每个block后10秒空白。除了受试者6的第三次试运行外，所有受试者的类别和刺激的呈现顺序与OP₁收集的数据相同。

图像刺激的快速事件设计也使用了40个block，每个block由50个刺激组成，每个block呈现0.5秒，每个block后有10秒的空白，只是每个block包含来自不同类别的随机选择的图像。在后一种情况下，不同的block可以包含不同类别的不同数量的图像，条件是在整个实验中，2000个图像中的每一个都只显示一次。

视频刺激的block设计从8秒的固定空白开始，接着是12个block，在每个block中连续呈现32个剪辑，每个持续4秒，在每个block之后有10秒的固定空白。大约12×(32×4s+10s)=1656s的EEG数据。对于block设计，block内的所有刺激属于同一类。除了受试者6的第三个block之外，所有类别的呈现顺序和每个类别中的刺激都是相同的。

视频刺激的快速事件设计也采用了12个block，每个block由32个刺激组成，每个block呈现4秒，每个block后有10秒的空白，只是每个block包含来自不同类别的随机选择的剪辑。在后一种情况下，不同的block可以包含不同类别的不同数量的剪辑，但有一个限制，即在整个实验中，384个剪辑中的每一个都只显示一次。

与OP₁的数据收集工作不同，OP₁将每个记录分为四个350 s的片段，我们的36个记录中的每一个都是在一个片段中收集的。EEG数据是使用BioEmi有源双记录器和BioEmi凝胶电极帽以24位分辨率从96个通道以4096Hz记录的。另外两个通道用于记录耳垂发出的信号，以供参考。EEG数据中记录了一个触发信号，以指示刺激的开始。我们将数据下采样到1.024kHz，将数据重新引用到耳垂，并采用与OP₁报告的相同的预处理：带通滤波器(低截止频率14Hz，高截止频率71Hz)、陷波滤波器(49–51Hz)和z变换。

3.5 我们新数据的分析

我们将表3中的分析应用到我们的新数据集中，其中包括了对OP₁数据的所有分析。请注意，我们无法复制OP₁的结果。虽然1D CNN在图像和视频刺激上取得了适度的良好性能，但其他分类器表现不佳。此外，对于较短的分析窗口、随机偏移和减少的通道数量，其他分类器的性能在很大程度上是随机的。下面我们分析一下这种差异的来源。

然后，我们将表1中的所有分类器应用于针对图像(左表5)和视频(右表5)刺激的快速事件设计收集的数据。请注意，所有分类器都会产生随机性能。

表4 将表3中的分析应用于受试者6对(左)图像和(右)视频刺激的第一次block运行，其中数据已经用带通滤波进行了预处理

补充材料附录中的表11和表12可在线获得，包含受试者6的其他block运行数据，而表21、22、23、24和25以及51、52、53和54包含所有其他受试者的所有block运行数据。

表5 表3中的分析应用于受试者6在(左)图像和(右)视频刺激上的快速事件运行，其中数据已通过带通滤波进行预处理

在线补充材料附录中的表26、27、28、29和30包含所有其他科目的数据。

3.6 谱分析

我们想知道为什么在OP₁数据上使用短分析窗口可以获得高精度，而我们的数据却不能。OP₁的作者在电子邮件中向我们指出，他们的预处理报告是一个印刷错误，他们执行了陷波滤波(在采集期间)和z变换，但没有带通滤波。详见第4.1节。由于他们发布的代码执行z变换，这表明他们发布的数据反映了陷波滤波，但既没有带通滤波也没有z变换。因此，我们用陷波滤波器和z变换重新分析了我们的数据，但没有带通滤波器(表6和表7)。请注意，我们现在使用block设计收集的数据获得了更好的结果，类似于使用OP₁发布的数据获得的结果，但仍然获得了使用快速事件设计收集的数据的机会。

3.7 block与快速事件设计

我们想知道问为什么我们(和OP1)能够用block设计而不是快速事件设计获得高分类精度。为此，我们进行了四次重新分析。

首先，我们重复了表1、2和3中的分析，其中我们没有使用OP₁提供的训练/测试集分割，而是进行了一次留一交叉验证，对五个受试者的所有数据进行了训练，并对第六个受试者的所有数据进行了测试，在所有六个受试者中轮流进行测试(表8)。请注意，现在分类的准确性是随机的。

第二，我们对我们的新数据进行了交叉block分析，我们对给定受试者的一个block运行训练模型，然后对同一受试者的不同block运行测试模型。因为我们对受试者6进行了三次分block测试，两次以相同的刺激呈现顺序收集，一次以不同的顺序收集，这使得我们能够确定在多大程度上，通过block设计观察到的分类准确度取决于同一block的训练和测试样本，以及在多大程度上取决于刺激呈现顺序。所有这些在两个不同block之间的分析平均在每个block上的训练和另一个block上的测试。补充材料附录中的表15(在线提供)说明了当两个block运行具有相同的刺激呈现顺序且数据未经带通滤波预处理时的交叉block精度。注意，从表6的结果来看，分类准确率急剧下降，尽管仍然高于随机概率。补充材料附录中的表18(可在线获取)重复了补充材料附录中的表15(可在线获取)中的分析，其中数据已通过带通滤波进行了预处理。分类准确率下降的机会。在线提供的补充材料附录中的表16说明了当两个block运行具有不同的刺激呈现顺序但数据已通过带通滤波预处理时的交叉block精度。分类准确率再次下降的机会。

表6 将表3中的分析应用于受试者6对(左)图像和(右)视频刺激的第一次block运行，其中数据未经带通滤波预处理

补充材料附录中的表13和表14(可在线获得)包含受试者6的其他block运行数据，而表31、32、32、34、35和55、56、57和58包含所有其他受试者的所有block运行数据。

表7 将表3中的分析应用于受试者6对(左)图像和(右)视频刺激的快速事件运行，其中数据未经带通滤波预处理

在线补充材料附录中的表36、37、38、39和40包含所有其他受试者的数据。

第三，我们用快速事件设计收集的新数据重新分析了表6中的所有分析，包括带通滤波和不带通滤波，但有一个转折。我们使用任意的标签，而不是使用正确的标签，正确的标签根据刺激的不同而不同，而任意的标签根据block的不同而不同：每个block都有不同的标签，但是block内的所有刺激都有相同的标签。因此，当刺激在每个block中改变时，它们被给予错误的不变标签，并且像OP₁采用的block设计一样，测试集中的每个试次来自训练集中具有许多试次的block。带通滤波和不带带通滤波的结果分别显示在表9和10中，并分别反映了表4和6中的结果。请注意，使用带通滤波，我们获得的分类精度远远高于使用1D CNN的概率，而没有带通滤波，我们获得了接近完美的分类精度，类似于表1、2和3中获得的精度。

第四，我们在OP₁发布的数据上重新排列OP₁发布的代码(LSTM与全连接层和ReLU层相结合)，但首先对数据应用各种截止频率为14 Hz、10 Hz和5 Hz的高通滤波器。回想一下，从表1中，我们在没有高通滤波的情况下获得了93%的分类精度。通过高通滤波，分类精度下降到32.4%(14Hz)、29.8%(10Hz)和29.7%(5Hz)。

表8 OP₁发布的数据的再分析，分类精度平均超过一个受试者的循环交叉验证，而不是提供的分割

3.8 回归

为了支持声明2，Spampinato等人报告了一项分析，他们使用LSTM(长短记忆模型)，结合一个全连接层和一个ReLU层，对EEG数据进行训练，作为一个编码器，为其数据集中的每个图像产生一个128元素的编码向量。然后，他们从许多现有的深度学习对象分类器中回归1000元素的输出表示，这些分类器已经在ImageNet上进行了预处理，以产生相同的编码向量。当训练这个回归器时，在某些情况下，它们冻结现有深度学习对象分类器的参数，而在其他情况下，它们在学习回归器时微调它们。根据模型和训练方案的具体情况，他们报告测试集的均方误差在0.62和7.63之间。他们声称，这一结果支持了这样的结论，即这是第一种人脑驱动的自动视觉分类方法，因此能够在“基于大脑的视觉对象流形”中实现自动视觉分类。

请注意，OP₁使用与全连接层和ReLU层组合的相同LSTM作为分类器和编码器。在作为分类器进行训练的过程中，分类器的最后一层即ReLU的输出被训练为与类标签匹配。因此，使用这样一个经过训练的分类器作为编码器将倾向于以接近于类标签的表示来编码EEG数据。最关键的是，作为编码器的分类器的输出包含大部分(如果不是唯一的)类信息，很少或根本没有其他与类无关的视觉信息的反映。此外，由于它们的分类器的输出是128个元素的向量，因为它们有40个类，并且由于它们以结合对数softmax和负对数似然损失的交叉熵损失进行训练，所以分类器倾向于产生其前40个元素包含约一个热点编码的向量表示的输出表示类标签，将剩余元素保留为零。实际上，我们在OP₁发布的数据(补充材料附录中的图3)上观察到了OP₁发布的代码产生的编码的这一特性，这些数据可在线获得。请注意，补充材料(可在线获得)附录中图3的对角线性质反映了近似的一个热点编码。任何以这种方式训练的分类器作为编码器的使用都具有这种特性。Spampianto等人、Palazzo等人、Kava-sidis等人和Tirupattur等人使用这种编码器训练具有EEG数据的对象分类器，使用这种编码器训练可变自动编码器(VAE)或生成对抗网络(GAN)，以产生人类感知和思维的图像，Palazzo等人使用这种编码器生成显著性图、EEG激活图，并测量EEG活动与目标检测器中各层之间的关联。因此，所有这些工作本质上是由缺乏任何视觉信息或大脑处理的任何表现的类信息编码驱动的。

表9 对带有不正确block级标签的(左)图像和(右)视频刺激的受试者6的快速事件运行的再分析，其中数据已经用带通滤波预处理

在线补充材料附录中的表41、42、43、44和45包含所有其他受试者的数据。

表10 对带有不正确block标签的(左)图像和(右)视频刺激的受试者6的快速事件运行的再分析，其中数据未经带通滤波预处理

在线补充材料附录中的表46、47、48、49和50包含所有其他受试者的数据。

我们想知道OP₁提出的回归算法是否有价值来创建一个由EEG信号驱动的新的对象分类器。我们分析了他们的算法，假设它应用于支持视觉感知对象分类并且不受污染的EEG数据。在这种假设下，同一类别的两幅图像的EEG响应将比不同类别的两幅图像更接近。像OP₁所采用的编码器将产生对同一类图像比不同类图像更相似的编码。(对于它们的实际编码器，在线补充资料附录中的图3显示，它们确实只不过是类编码)。此外，深度学习对象分类器可能为同一对象类中的图像产生比不同类的图像更接近的表示。毕竟对象量词就是干这个的。因此，回归器所做的只是保持同一类的两个图像回归到比不同类的两个图像更接近的表示的特性。换句话说，回归器所做的就是将类的1000维表示映射到类的128维表示。实际的目标表征是不是大脑加工的反映应该不重要。

我们问这个回归分析的假定成功是否依赖于神经影像学的表现。为此，我们用随机码字生成了一个随机码本，模拟了所有6个受试者对所有2000个图像刺激的EEG反应。这是通过以下程序完成的。我们首先通过对[0，2]中的元素随机独立进行均匀采样，生成40个随机码字，每个类一个。然后，我们为每个类别生成50×6=300个随机码字，每个受试者和图像一个，通过向类别码字的元素添加σ²=4 随机独立的单变量高斯噪声，并将元素剪裁为非负。这为每个模拟的受试者响应生成了12000个随机码字的码本，该码本具有这样的特性：同一类中的图像编码比不同类中的图像条目更接近。这些码字没有任何启发大脑的意义。像OP₁一样，我们然后平均每个图像的受试者的码字。然后，我们将在ImageNet上预训练的PyTorch VGG-16应用于OP₁数据集中的每个图像，而不进行任何微调。最后，我们训练了一个线性回归与均方误差损失和L2正则化从VGG-16的输出对每幅图像的平均随机码字的图像上的训练集提供的第一次分裂OP₁。然后，我们测量了该分割的验证集和测试集的平均MSE为0.55。事实上，可以将一个现成的预训练对象分类器的输出回归到随机类编码，也可以将该输出回归到从EEG编码器导出的类编码，这表明这样做的能力不依赖于源和目标表示中除类信息以外的任何其他信息。

3.9 迁移学习

为了进一步支持权利要求2，Spampinatoet等人报告了一项分析，旨在证明所学习的回归器和对象分类器的组合可以推广到具有不相交类集的其他数据集。为此，他们首先将在ImageNet上预处理的VGG-16应用于加州理工学院数据集的一个子集，该数据集有30个类，未经微调，以产生每个图像的1000个元素的表示。然后他们用如上所述训练的回归器映射到128元素编码。最后，他们在最终编码上训练和测试SVM分类器。他们将其与一个SVM分类器进行比较，该分类器是在经过预处理的深度学习对象分类器的1000个元素的输出上进行训练和测试的，这些分类器没有使用它们的回归器进行映射，并且获得了相当的性能(GoogLeNet的1000个元素输出的92.6%和GoogLeNet回归的128个元素编码的89.7%)。他们声称，他们的方法能够在“基于大脑的视觉对象流形”中实现自动视觉分类，并显示出竞争性能，特别是在学习对象类别的EEG表示方面。

我们推测，这种迁移学习分析的假定成功并不令人惊讶，也没有证明表征的质量或它是否反映了大脑的处理。如上所述，深度学习对象分类器为同一对象类中的图像产生比不同类的图像更接近的输出表示。此外，如上所述，回归器所做的只是保持相同类别的两个图像回归到比不同类别的两个图像更接近的编码的属性。回归器或回归表示的选择应该对SVM分类器没有影响，只要这些属性保持不变。

因此，我们询问这种迁移学习分析的假定成功是否依赖于神经影像学的表征。为此，我们使用VGG-16，在没有任何微调的情况下在ImageNet上预处理，将加州理工学院101中的图像映射到1000元素编码，并应用我们在随机表示上训练的回归器将这些1000元素编码映射到128元素编码。这种复合映射显示了上述属性。这再次为加州理工学院101的这个子集中的每个图像生成随机码字的码本，该码本具有相同类别中的图像的条目比不同类别中的图像的条目更接近的属性。和以前一样，码字没有大脑启发的含义。我们将加州理工学院101的子集分成不相交的训练集和测试集，在训练集上训练线性SVM，当在从VGG-16回归的128元素编码上分类时，在测试集上达到95.9%的准确率，而在VGG-16的1000元素输出上分类时，在测试集上达到94.9%。

4. 差异调节

一些论文，例如Spampinato等人和Kavasidis等人使用的编码器似乎与Spampinato等人报告的编码器相似或相同。一些论文使用了OP₁。OP₁中报告的数据集发布了它们的代码，我们已经观察到不同发布的帐户之间、不同发布的数据变体之间存在许多差异。我们在这里讨论我们如何为了报道的实验和分析的目的而调和这些。我们这样做只是为了准确地记录我们所做的事情。我们认为，除了滤波问题，无论DC和低频分量是否从EEG数据中去除，这些问题都没有实质性的变化。在过滤的情况下，我们执行所有分析两次，有和没有这样的删除。在公布的帐户和代码之间存在差异的情况下，我们已经用公布的代码和对公布帐户的所有合理解释重复了所有分析，并且没有观察到实质性差异。在线补充材料中的附录报告了所有这些重复的分析。

4.1 滤波

Spampinato等人，Spampinato等人，和Palazzo等人声称用带通滤波器(14–70Hz)和陷波滤波器(49–51Hz)预处理EEG数据。后来的出版物不讨论过滤。OP₁最初发布的代码不包含任何带通或陷波滤波，但包含z变换。此外，他们发布的数据的频谱分析表明，没有进行带通滤波。我们向OP₁的作者提供了这篇论文的早期草稿，并通过电子邮件与作者联系，以澄清实验过程。该对应关系指出，原始论文没有准确描述预处理，发布的数据集直接来自记录设备，没有进行预处理或过滤，执行了陷波滤波和z变换，但没有执行其他预处理，该滤波是在训练期间进行的，没有反映在发布的数据集中，除了发布的代码缺少由其他非发布的代码执行的陷波滤波之外，所有报告的结果都是用发布的代码生成的。

作者随后修改了他们发布的代码，以包括带通和陷波滤波。我们认为我们与作者的通信意味着在采集期间没有应用过滤，在产生Python或Matlab格式的发布数据之前没有应用过滤，OP₁中报告的分析是使用没有执行任何过滤的原始发布代码执行的，并且在我们与OP₁接触之后添加了任何过滤代码。此处报告的所有分析都是使用原始发布的代码执行的，对Python格式的数据进行了如下所述的修改，除了下文和文本中讨论的以外，未进行任何修改。

4.2 量化

Spampinato等人和Palazzo等人报告EEG数据被量化。由于发布的代码没有包含这种指示，我们无法知道如何在我们的数据上复制这种量化的足够细节。我们还无法知道发布的Python和/或Matlab数据是否反映了这种量化。因此，我们不会对发布的数据或我们的新数据进行任何量化，作为此处报告的任何分析的一部分。

4.3 考虑的试次

OP₁通常为40个刺激和6个受试者收集50个试次，总共12000个试次。然而，Palazzo等人和Kavasidis等人的报告说，某些试次被放弃。Python格式的发布数据包含11965个试次，这是包含11466个试次的Matlab格式的发布数据的超集。Matlab格式数据中缺失的Python格式数据中的499个试次来自受试者2。此外，Python格式数据不同于Matlab格式数据。我们无法知道为什么数据不同，为什么Python和Matlab格式的数据包含不同数量的试次。尽管如此，我们使用了Python格式数据中的所有11965个试次，包括Matlab格式数据中缺失的499个试次。

4.4 试次窗口

Spampinato等和Palazzo等人报告使用了样本40–480。Palazzo等人报告说，短于480个样本的试次被丢弃，480至500个样本之间的试次用零填充，长度为500个样本，长于500个样本的试次被尾部修剪。然而，发布的代码使用样本20–450(即长度为430的序列)，缺少零填充和尾部修整，并丢弃短于450个样本或长于600个样本的序列。没有一个试次短于480个样本，因此没有一个因为这个原因而被丢弃，也没有一个需要零填充。然而，发布的代码由于超过600个样本，在上面提到的534个试次之外丢弃了25个试次。我们无法知道在OP₁、Palazzo等、Kavasidis等和Palazzo等人中实际做了什么来获得结果。在这里，我们修改了发布的代码，不丢弃(25个)超过600个样本的试次，并使用每个试次的40–480个样本，而不是20–450个样本。

4.5 编码器模型

在描述编码器模型时，Spampinato等，Spampinato等，Palazzo等和Kavasidis等人声明LSTM层之后是全连接层，但是发布的代码省略了ReLU层。我们修改了发布的代码，为这里报告的分析添加了ReLU层。

4.6 分类器

Spampinato等人和Spampinato等人报告了通过将分类器附加到其输出并对照已知标签进行训练来训练编码器。Spampinato等，Palazzo等，Kavasidis等和Tirupattur等人将此(40路)分类器交替描述为softmax层、softmax分类层、softmax分类器和softmax。口语用法因这是否意味着在softmax层之前使用全连接层而异。

发布的代码似乎使用了PyTorch torch. nn. functional. cross _entropy编码，内部使用torch. nn. functional. log_soft max直接应用于编码器的128元素输出，没有中间的全连接层。以这种方式训练一个40向分类器，附加到一个编码器上，带有一个隐含的类标签的单个热点表示，将倾向于训练编码器产生128元素的EEG编码，其中除了前40个元素之外，所有元素都是零(补充材料附录中的图3，在线提供)。事实上，我们已经用发布的代码观察到了这种行为。我们无法知道实际意图是什么，以及用来生成报告结果的是什么。这里，像发布的代码一样，我们用相同的交叉熵损失训练编码器，它内部包含一个log softmax操作，但在任何softmax操作之前，使用编码器的输出进行分类。(请注意，如果softmax层的输出被用作EEG编码，它们将是一个热点)。没什么能打开这个。在线补充材料的附录中，我们使用原始未修改代码和四个变体进行所有分析，涵盖了已发表论文中报告的所有可能的合理解释。所有这些都展示了相同的结果模式。

5. 讨论

第3.3节中的分析表明，OP₁报告的结果不取决于刺激内EEG信号的时间或空间结构。特别是，OP₁发布的数据和我们用block设计收集的新数据都可以用极短的时间窗口进行分类，这一事实表明分类性能不依赖于大脑处理的时间特性。由于训练集和测试集中的样本之间窗口的时间位置可能随机变化，这种情况变得更加严重。事实上，两个数据集都可以用极少量的通道进行分类，这表明分类性能不依赖于大脑处理的空间性质。第3.4节中的新数据收集工作表明，OP₁报告的结果主要取决于他们的实验方案，该方案很容易被其他人复制，而不取决于他们数据收集工作和实验室设施的任何独特方面。第3.5节中的分析表明，OP₁报告的结果特别依赖于block设计，不能用快速事件设计复制。第3.7节中的分析表明，OP₁报告的结果主要取决于污染数据。OP₁的block设计，连同它们的训练/测试集分割，导致数据污染，因为每个测试集中的每个试次都来自在相应的训练集中具有许多试次的block。

第3.7节中的第一个分析表明，如果一个人采用将试次从一个block中分离出来的分割，使得测试集从不包含来自在相应的训练集中有任何试次的block的试次，那么分类的准确性就会偶然下降。这有力地表明，OP₁获得的高分类精度特别依赖于这种污染，这种污染构成了对数据的任意时间伪影而不是刺激相关活动的分类。

第3.7节中的第二个分析表明，OP₁报告的结果主要不仅取决于block设计，还取决于共享的刺激类呈现顺序。这一点，加上当数据通过带通滤波进行预处理时，精度会降低的事实，强烈地表明，即使使用block设计对收集的数据进行交叉block分析，也是在对EEG信号的长期时间特征进行分类，而不是对刺激的短期感知特征进行分类。此外，block内分析和交叉block分析之间的严重精度下降强烈表明，OP₁获得的高分类精度主要取决于数据污染，这构成了对数据的任意时间伪影而不是刺激相关活动进行分类。

第3.7节中的第三项分析进一步证实了这一点，该分析表明，通过实验设计，可以获得近乎完美的分类精度，其中标签仅随区block而变化，但block内的刺激类别与标签不相关。如果OP₁的方法确实是根据对刺激类别的感知来对大脑活动进行分类的，那么人们可以期望通过这种分析获得偶然的表现。获得近乎完美的表现这一事实有力地表明，这些方法确实在对长期静态的大脑活动进行分类，这些活动在与感知活动不相关的block期间持续存在。

最后，第3.7节中的第四项分析表明，由于带通滤波的省略，记录的EEG信号中DC和甚低频分量的存在加剧了这一发现。

简而言之，如果测试集包含在同一block中收集的试次，

或者与训练集中同一类别的试次在时间上非常接近；
或者训练集和测试集以相同的刺激类别呈现顺序收集，则任何具有block设计的EEG实验都将被污染。

OP₁收集、使用和发布的数据不可避免地受到污染。不可能消除固有的数据污染，这是由于他们测试集中的每个试次与相应训练集中的许多试次来自同一个block。这是他们实验设计的一个特点，分组设计与他们的训练和测试组合相结合。由于每个受试者只记录了一个单独的数据block，因此不可能构建消除数据污染的分割。更不可能对他们的数据进行净化，因为所有的block运行都是以相同的刺激类呈现顺序记录的。由于OP₁发布的数据不可避免地受到污染，它使该数据集不适合其解码感知和概念处理的预期目的，并进一步使所有后续分析和声明无效，这些分析和声明将该数据用于这些目的。我们建议未来所有对EEG数据进行的分类实验都采用控制这种污染的设计。

5.1 有缺陷过滤的后果

虽然OP₁和两篇相关论文表明报告的结果是通过包括带通和陷波滤波的过程获得的，但随后的分析和与作者的交流表明情况并非如此(第4.1节)。这种分析和与作者的交流导致他们修改他们的代码(第4.1节)。这很重要，原因有二。首先，再多的过滤也不能消除他们数据中固有的污染或他们实验设计中固有的缺陷。其次，作者忽略带通滤波器的事实加剧了这一问题，导致对分类精度的过分高估。这导致他们的结果和数据受到了相当大的关注和热情，可能导致使用该数据集和/或追求类似方法的论文数量激增。如果已经进行了所述的过滤，可能所产生的更温和(但仍然无效)的结果会缓和后续工作的快速扩散，该后续工作也存在类似的方法缺陷。我们强调，根本问题是数据污染。缺乏过滤不是根本问题；这只会加剧根本问题。

5.2 有缺陷的砌block设计对后续论文的影响

上述情况强烈表明，OP₁训练的基于LSTM的编码器的输出不构成“基于大脑的视觉对象流形”。此外，第3.8节和第3.9节中的分析强烈表明，由Spampinato等人构建的对象分类器没有利用训练过的基于LSTM的编码器的输出中的任何信息，无论它是否包含大脑处理的表示。由于这些缺陷与数据污染问题的缺陷是正交的，因此这些方法存在不可修复的缺陷，并且它们的缺陷无法通过污染问题的纠正来弥补。

Kumar等人报告了一个不同的EEG数据集，似乎也是用block设计收集的。对于23名受试者中的每一名，从30个类别中的每一个类别的单个刺激的单个10秒block中记录数据。每个10秒的block被分成40或200段。在分析过程中进行了十折交叉验证。我们无法知道测试集是否包含来自相应训练集中具有片段的相同block的片段。但是，由于每个受试者的每个刺激都有一个单独的记录block，避免这种情况的唯一方法是进行跨受试者分析。第3.7节中的第一项分析表明，这种跨学科的EEG分析是困难的，远远超出了当前的技术水平。

Tirupattur等人报告使用来自Kumar等人的数据集，以类似于Palazzoet等人的方式驱动生成性对抗网络(GAN)。这项工作在分析过程中执行五个方面的交叉验证。同样，我们无法知道测试集是否包含来自相应训练集中具有片段的相同block的片段，并且避免这种情况将需要跨受试分析，我们的实验表明这远远超出了当前的技术水平。

5.3 使用有缺陷的EEG编码作为图像合成输入的后果

Palazzo等人、Kavasidis等人和Tirupattur等人都声称使用EEG编码来使用GAN生成描述人类感知和思想的图像。由于我们无法获得这些论文的代码，我们无法执行我们在第3.8节和第3.9节中执行的那种随机数据分析来评估这些方法。取而代之的是，这里我们只使用已发表的合成图像来分析Tirupattur等人的结果。我们选择这篇论文是因为它包含了最广泛的生成示例。Tirupattur等人指出:

虽然从大脑信号中提取时空线索来对人类精神状态进行分类是一条探索性的道路，但解码和可视化大脑状态是一种新的未来方式。遵循后一个方向，在本文中，我们提出了一种方法，它不仅能够读取大脑，而且能够解码和可视化人类的思想。更具体地说，我们分析由脑电图(EEG)记录的受试者在思考一个数字、字符或物体时的大脑活动，并在视觉上合成思考项目。为了实现这一目标，我们利用对抗学习的最新进展，设计了一个条件生成对抗网络，该网络将编码的EEG信号作为输入，并生成相应的图像。

Tirupattur等人进一步指出：

我们的目标是从使用低成本EEG设备记录的大脑活动中提取一些线索，并使用它们来可视化一个人的想法。更具体地说，我们试图通过生成一个人正在思考的对象的图像来可视化这个人的想法。该人的EEG数据是在他思考该物体时捕获的，并用于图像生成。我们使用公开的EEG数据集进行实验，并提出了一个图像生成的生成对抗模型。我们在这项工作中做出了以下贡献:1)我们引入了解释和可视化人类思想的问题，2)我们提出了一种新的条件性GAN架构，它根据特定的大脑活动生成特定类别的图像；3)最后，我们还表明，我们提出的GAN体系结构非常适合于小规模数据集，即使在有限的训练数据上训练，也可以生成特定类别的图像。

我们在三个不同的对象类别上，即数字、字符和照片对象上证明了所提出方法的可行性和有效性，并且表明我们所提出的方法确实能够阅读和可视化人类思想。

条件GANs不打算输出训练集的精确副本，因为导致合成图像的输入除了类信息之外还包含噪声。GANs真正的精神是学习表示一个类中不同对象实例的视觉特征，并通过以语义和视觉一致的方式选择和组合这些特征来为一个类的实例合成新的图像。然而，在Tirupattur等人说明的基本上所有示例图像几乎都是ImageNet(图2)中图像的精确副本。这表示模式崩溃。此外，为了使它们两次产生相同的图像，必须向它们提供相同的调节输入，在这种情况下，调节输入包括EEG编码和噪声。在每次训练迭代中提供相同的EEG编码和相同的噪声是极不可能的。因此，对于一个合适的条件性GANs来说，记忆训练集是极不可能的。此外，在训练和测试期间提供相同的EEG编码和相同的噪声是极不可能的。因此，在测试过程中，一个合适的有条件GANs几乎不可能输出训练集的精确副本。没有他们的代码和数据，我们不可能准确地确定这种极不可能的情况的原因。尽管如此，这使他们的主张受到质疑，即他们提出的方法确实能够阅读和可视化人类的思想。

5.4 对EEG和图像编码器进行有缺陷的联合训练以分析图像的大脑处理的后果

Palazzo等人联合训练EEG编码器和图像编码器以产生类似的编码表示，然后声称将训练的编码器用于几个目的：产生显著图，EEG激活图，以及将EEG活动与合成对象检测器中的层相关联。由于这些结果都是由同一污染数据集产生的，因此这些结果都是可疑的。此外，表5和表7表明，使用提议的方法从快速事件设计收集的未受污染的数据中产生合法结果是不太可能成功的。然而，除此之外，这些方法本身似乎有根本性的缺陷，不太可能证明任何东西，即使它们可以用于未受污染的数据。联合训练方案中采用的损失函数只是将两个编码表示约束为相似。一个训练有素的图像编码器，针对类标签进行训练，将简单地对图像类进行编码，不多也不少。一个训练有素的EEG编码器，根据类别标签进行训练，只会对刺激类别进行编码，不会多也不会少。在EEG编码器的联合训练过程中，图像编码器只是简单地充当类标签的代理，不多也不少。类似地，在图像编码器的联合训练期间，EEG编码器仅仅充当类标签的替代物，不多也不少。因此，联合训练无法实现对照类别标签单独训练组件所不能实现的任何目标。得到的编码表示将不包含超出类标签的信息。有了这个，显著图仅测量图像区域影响针对类别标签训练的对象检测器的分类精度的程度。大脑活动，无论是否编码在EEG数据中，在构建这些显著图时都不起作用。激活图中呈现的EEG通道c的重要性仅测量移除c中的信息降低分类准确度的程度，在一个类别和/或受试者的试次中平均。虽然这在名义上是一种有效的方法，用block设计收集的污染数据，所有这些图说明的是给定通道编码与block相关的任意长期大脑状态的程度，而不是任何特定类别的信息。此外，表2、表3和表8表明，Palazzo等人声称的任何时间信息都是虚构的。表5和表7表明，用快速事件设计收集的未受污染数据计算的激活图将是空白的，因为在移除任何特定EEG通道中的信息之前和之后，准确性都处于偶然水平。最后，联想A_c,l EEG通道c和目标检测器的任何成分l之间的距离只是类别平均激活图的线性组合，该激活图通过移除目标检测器的一部分导致给定类别的错误分类的程度来加权。根据Palazzo等人的计算，无论是要素图的一部分、整个要素图还是给定图层中的所有要素图，都是如此。并在Palazzo等人中呈现。Palazzo等人中的激活图对于对象检测器中的后面的层变得更加扩散的事实，只不过说明了这样一个事实，即移除对象检测器中的后面的层会导致输出分布中更高的熵，这一特性完全归因于图像分类器，并且完全独立于任何大脑处理，无论是否通过EEG测量。

5.5 总结

总之，我们的结果不仅质疑OP₁的结果，也质疑其他已发表的结果。他们以四种不同的方式这样做。首先，他们对所有直接或间接依赖于使用此处报告的分类算法(包括OP₁的特定分类算法)从OP₁的特定数据中提取类别信息的能力的主张提出了质疑。仅这一点就引发了对所有上述论文的质疑。

其次，他们对本文报道的分类算法(包括OP₁的特定分类算法)从以block设计收集的任何EEG数据中提取类别信息的能力提出了质疑。它将证明block设计的任何使用不存在数据污染的责任放在了一起。这不仅对OP₁收集的特定数据集提出了质疑，而且对OP₁提出的实验协议也提出了质疑。

第三，他们证明了所有的分类算法都不能在没有数据污染的快速事件设计中收集的数据集上工作。这不仅引起了对数据集和协议的怀疑，还进一步引起了对分析方法和算法的怀疑。第四，第3.8节和第3.9节对使用EEG数据来提高计算机视觉的方法和算法提出了质疑。虽然我们对OP₁的特定方法采用了随机数据攻击，但我们认为它也可以应用于Palazzo等人、Kavasidis等人、Tirupattur等人和Palazzo等人的所有方法。尽管有请求，作者拒绝向我们发布他们的代码，并且发表的论文缺乏足够的细节来复制他们的模型，这一事实阻碍了我们进行这一分析的尝试。

6. 相关工作

为了评估这里提出的问题对该领域其他工作的影响程度，我们仔细检查了306篇不同论文中的实验设计，这些论文要么被最近一篇关于应用于EEG数据的深度学习的调查论文所引用，要么在撰写时在谷歌学者上引用了这里的工作评论。其中，180人似乎与手头的问题无关，因为他们不收集或使用EEG数据进行分类。另外4个是已经讨论过的自我引用。对于剩下的122个，我们试图确定他们的结果在多大程度上会受到我们在这里提出的观点的影响。特别是，对于每一篇论文，我们试图

评估测试集中的样本是否与训练集中的样本非常接近；
或者测试试次中的类是否与训练试次中的类以相同的顺序出现。

图2。 (左)图6来自Tirupattur等人，其示出了据称由GAN模型基于EEG编码生成的样本图像(除了红色的右列，其示出了来自训练数据的给定类别的随机图像)。

(右)几乎所有生成的图像都对应相同的ImageNet图像。请注意，左边的一些(但不是全部)据称合成的图像是右边的ImageNet图像的水平镜像。还要注意，所有据称合成的图像都包含与相应的ImageNet图像相同的精确的细粒度细节。具体来说，每个图像不仅描绘了对应的类，而且描绘了与ImageNet对应的确切的非特定类背景。

然而我们仔细研究的许多论文都缺乏足够的实验过程细节，使我们不能明确地回答上述两个问题。大约三分之一的被仔细审查的报纸似乎不关心这里提出的问题。大约还有三分之一的人似乎受到了这里提出的担忧的影响。无法评估剩下的三分之一。在第二类中，我们发现了10篇使用OP₁数据的论文，因此存在不可挽回的缺陷。

我们进一步发现了一个反复出现的、深为关注的现象。今天，作者将神经影像数据集提供给其他研究人员是很常见的。我们发现大约有十几篇论文对这些共享数据进行了研究，其中收集数据的最初研究采用了一种精心构建的block设计，以避免数据污染。然而，随后的研究误用了数据，而这在引入数据污染的最初研究中是没有预料到的。

如果我们没有提到必须在今后的领域中纠正的其他设计和方法问题，我们将是失职的。其中包括：使用未适当平衡的刺激(图像、视频)；使用数据集回答未设计的问题；使数据集可用的人未能为后续用户提供足够的信息，以确定数据集是否适合用于新应用程序；以及未能提供足够详细的透明程序和方法，使研究能够按照开放科学框架重现。

7. 结论

表5和表7中的结果表明，从EEG信号分类图像刺激中的40个对象类别和视频刺激中的12个活动类别的能力是极其困难的，而且远远超出了目前的技术水平。此外，提出的利用神经成像数据训练更好的计算机视觉系统的企业，需要比简单地将回归器附加到预训练对象分类器更复杂的方法，这也可能是困难的，并且超出了当前的技术水平。当一些论文被广泛发表时，过度乐观的言论可能会导致宝贵资源的错误配置。