用直观方式理解“多变量模式分析”（MVPA）

新用户19266172 2021-08-04

展开全文

在fMRI研究中，相比于传统的单变量分析（即GLM/激活分析；“单变量”指单个因变量），多变量模式分析(multivariate pattern analysis; MVPA) 可以进一步回答某个脑区所表征的信息。由于“多变量”在fMRI的情境下就是“多体素”，因此在fMRI研究中它也被叫做多体素模式分析(multi-voxel pattern analysis)。

举个例子来对比“单变量”和“多变量”的分析思路的差异。假设我们选取了一个共有8个体素的脑区作为兴趣区，要探索这个脑区在我们看景物（条件A）和看面孔（条件B）时是否存在差异。

在实验中，我们会给被试观看一系列景物或面孔的图片，并记录其大脑活动。若将兴趣区内的8个体素作为横坐标，反应强度（beta）作为纵坐标，我们可以得到每个体素在两种实验条件下的反应强度（如下图）。

兴趣区内八个体素在两种实验条件下的反应强度

如果按照传统单变量的分析思路，我们可以将每个条件下所有体素的活动水平取平均值，然后用所有被试的数据进行统计检验（t检验）。如果统计结果如下图所示，该脑区在两个条件下的活动强度存在显著差异（面孔>景物），我们就可以推断这个脑区可以选择性地加工面孔刺激。

该兴趣区对两种条件图片刺激的反应强度差异

然而，上面这个问题还可以从多变量的角度进行表示。针对上面8个体素组成的兴趣区，我们可以构建一个八维的体素空间（voxel space），其中每一个维度代表一个体素的活动强度（实际研究的兴趣区可能有上百个体素组成上百维的数据空间，故名“多体素模式分析“）。

由N个体素构成的数据空间（voxel space）

为了直观地体现这种方法，这里选取了Voxel3、Voxel4、Voxel5三个体素进行演示。可以看到，在由这三个体素构成的数据空间中，每一种条件在三维空间中的表征是一个点（或者说是一个三维向量），其坐标就是该条件在相应体素的反应强度。

多变量的视角: 条件A和条件B在三个体素构成的空间内的表示

如果一个点代表一个run的数据的话，在多个run的实验中，每个条件在体素空间中会就有多个点。这种对数据的表达方式在机器学习中极为常见，因此利用这种多变量的表达，我们可以借用大量成熟的数学方法来解决fMRI的问题。

条件A和条件B在三个体素构成的空间内的表示

如果结果如上图所示，可以看出这三个体素对于条件A和条件B的反应模式是存在差异的，换句话说，我们可以用一个平面将这两种条件分隔开。要实现这种分类（classification）需要用到一些线性或非线性的机器学习分类方法，如SVM或LDA等等。

利用训练集-测试集(Train-Test)的方法，我们可以在每个被试身上都得到一个分类的正确率（accuracy）。如果在一组被试中，模型的分类正确率显著高于随机水平（chance level; 这里是50%），那么就可以推断该脑区在这两种条件下的活动模式是有差异的，这个脑区可以表征该条件相关的信息。

Train-Test Classification

根据上述介绍，似乎单变量和多变量分析都可以从不同角度回答同一个问题，那么多变量分析的优势在哪里？答案是：单变量分析是基于所有体素活动的均值进行的，只对平均活动敏感，而MVPA还对基于单个体素的相对活动模式敏感。

因此，如果单变量的假设检验结果表明该脑区对两个条件的反应强度存在差异，那MVPA分类必然可以成功区分这两种条件；但反过来，即使单变量分析的结果没有差异，MVPA仍有可能将两种条件进行区分（如下图所示的两种情况）。

示例：两种条件(红色圆圈/蓝色方块)对应的脑活动在across-voxel的单变量分析结果上没有差异；但多变量分析可以利用线性（左图）或非线性（右图）的方式区分两种条件下的脑活动模式差异

上面这种利用机器学习将不同条件进行区分的MVPA方法叫做基于分类的解码(classification-based decoding)，有的时候文献中提到的 “MVPA”、 “decoding”、 “classification” 大多都是指代的这一种分析方法。

除此之外，MVPA还包括另一块内容：表征相似性分析（representational similarity analysis; RSA）。这种方法基于不同条件在体素空间中的距离（distance），通常通过计算表征不相似性矩阵（representational dissimilarity matrix; RDM）来进行分析。关于RSA的简介将在其他推送中涉及。

单变量和多变量fMRI分析方法（改编自Popal et al., 2019）

简单地说，多变量分析的核心就是利用多个因变量构建N维空间，每一种实验条件可以在这个空间中表示为一个N维向量。基于此，利用降维、聚类、分类等机器学习方法对数据进行分析，在结合实验设计的前提下，解决特定的认知神经科学的问题。这一分析思想可以运用于fMRI、M/EEG、单个神经元研究等各种认知神经科学中。

注：本文重点介绍对多变量和单变量分析思路的直观理解，并不是完整的MVPA的介绍。如有问题，欢迎留言指出和讨论。