【原】Nature 子刊 | 基于EEG响应的非线性调制解码人脸图像的真实性

脑机接口社区 2024-05-11 发布于北京

展开全文

虚拟人在电影、视频游戏、教育和虚拟通信等各个领域变得越来越普遍。然而，关于人脑如何感知高度逼真的虚拟代理和真实人类之间的差异的全面理论仍然缺失。与此同时，人脸可能是日常社交互动中信息最丰富的界面。先前的研究表明，人脑会解密面部信息的各个方面，例如情绪表达、熟悉程度、个人身份、配置信息，以及最后但并非最不重要的一点，面部的“自然性”或“真实性”。计算机图形（CG）人工智能技术的最新进展，特别是一些基于深度学习的方法，例如生成对抗网络（GAN）和变分自动编码器（VAE），显示了计算机生成图像在不同应用中的巨大潜力。具体来说，“Deepfake”技术因其创建超逼真视频的能力而引起了广泛关注，而人类观察者几乎无法意识到它的虚假性。

除了事件相关电位（ERP）技术外，另一个广泛使用的用于研究面部感知的脑电相关性的范式是基于稳态视觉诱发电位（SSVEP）。SSVEP是由固定频率的周期性视觉刺激引起的神经反应。这些反应通常在视觉皮层和邻近区域产生，表现出相对较高的信噪比（SNR）。SSVEP包含刺激频率及其谐波的响应，这为测试视觉系统对不同视觉刺激的敏感性提供了一种便捷的方法。SSVEP已被应用于确定图像，表明SSVEP分量确实可以被刺激物质的低级但复杂的细节所调制。此外，在位于右侧视觉皮层的SSVEP组件中发现了与N170组件类似的倒置面调制效应。总体而言，这些研究支持使用SSVEP研究面部感知过程的合理性。在紫外线效应的背景下，最近的一项研究选择SSVEP作为感知计算机渲染人脸真实性的神经标志物，使用与上述与人脸真实性相关的N170效应研究相同的刺激。这些面部图像是用六种风格化程度和三种情感面部表情生成的。作为第一项使用SSVEP范式研究程式化图像调制效应的研究，该研究发现主观真实度评级与5Hz刺激频率及其奇次谐波下的SSVEP振幅之间存在负相关关系。

然而，这项基于SSVEP的研究在效应的定位和真实性相关生物标志物的特异性方面仍然存在局限性。例如，只分析了一个通道（Oz），它忽略了空间信息和涉及面部感知的大脑区域的偏侧化现象。因此，为了（1）提供更多的神经生理学见解；（2）探索SSVEP神经元信号的多变量性质；（3）控制视觉刺激的低水平特征；（4）开发机器学习算法以快速检测真实性水平，我们重新分析了Bagdasarian等人（2020）中提供的数据集。

实验数据

在行为任务中，将36张面部图像随机呈现给所有参与者，并要求参与者在1到7的五个感知维度（吸引力、认可感、现实感、熟悉感、诱惑力）上对显示的图像进行评分，其中现实主义应该是当前研究最相关的指标。随后的EEG部分由八个Sessions组成，每个Session持续约7min，包括36次10s的试验。在每次试验中，以随机顺序选择刺激集的一个图像，每个刺激图像在会话中重复八次，如图1所示。

图 1 刺激集和实验设计。（a）刺激集：包括36张不同风格化水平和情绪的人脸图像，背景是原始图像的加扰版本。从R0到R5，图像的真实度有所提高。（b）试验设计：每个会话包括36个试验，对应于面板（a）中的36个图像，主要刺激频率设置为5Hz。每次试验持续10s，每200ms重复一次周期性刺激过程，其中包含100ms的人脸图像和100ms的加扰背景。

分类方法

任务相关成分分析（TRCA）是一种经典的空间滤波方法，通常应用于基于SSVEP的BCI，用于根据EEG响应对刺激的风格化水平进行分类如图2所示。通过对多通道脑电信号应用空间滤波器，TRCA旨在通过增强重复分量的信噪比来提取刺激事件锁定信号。继之前对SSVEP的研究之后，我们重点研究了顶枕区的9个通道进行分类（Pz、PO3、PO7、PO4、PO8、POz、O1、Oz、O2）。

图 2 基于TRCA的分类算法框架（此处显示两个类：R0和R5）。在训练过程中，训练了独立的空间过滤器，通过最大化每个类的会话间协方差来提取与任务相关的组件。这些空间滤波器用于过滤多通道EEG信号和所有会话的平均训练数据。最后，将过滤后的输入数据与过滤后的模板之间的Pearson相关系数作为分类指标，即产生最大相关系值的类是分类结果

实验结果

SSVEP振幅

使用SSVEP振幅评估对不同风格化水平的面部刺激的神经反应。根据图3a所示的功率谱，SSVEP响应在5Hz（刺激频率）及其谐波处达到峰值。与之前对视觉ERP的研究类似，我们发现真实度与5Hz时的SSVEP振幅之间存在非线性关系。虽然在SSVEP水平上不是特别明显（与N170相比，结果如下），但当从一个通道（Oz）中提取SSVEP振幅时，从顶枕电极簇中提取SSVEP振幅时，以及当使用SSD执行空间滤波方法时，这一发现似乎是一致的，该方法专为检测5Hz的周期性信号而定制（图3）。LMM比较在统计学上证实了这一点，其中二次回归模型总是显示出明显优于LRT的线性模型（χ=8.859，Oz的p=0.003；χ=10.737，p=0.001，对于顶枕电极簇；χ=16.733，SSD方法的p<0.001）。此外，二次模型的AIC和BIC始终显著低于线性模型（表1），表明模型拟合更好。

图 3 SSVEP结果。（a）所有参与者和所有试验（电极Oz）平均响应的对数变换光谱功效。（b）不同真实度水平下的FFT振幅为5Hz（在电极Oz处）。（c）不同真实度水平（顶枕区电极簇）的FFT振幅为5Hz。（d）不同实度水平下的FFT幅度为5Hz（应用SSD方法后），y轴为任意单位。（b）（c）（d）中的振幅是所有参与者和所有会话的平均值。误差线显示95%的受试者内置信区间。（d）中的地形图显示了平均的SSD模式，单位是任意单位。

总体而言，这些结果表明最逼真的人脸图像和最抽象的人脸图像比中等真实度更能唤起SSVEP响应，这与UV假说的“恐怖谷”现象相匹配。然而，当考虑10Hz和15Hz的谐波时，我们在线性模型和二次模型的比较中找不到类似的效应（10Hz和15Hz处的振幅p>0.05，无论是在通道Oz还是在顶枕电极簇中）。

混淆变量

眼睛的大小是一个明显的低级视觉特征，它因风格化水平而异，这可能会影响神经反应。如图6所示，眼睛大小的平均值与行为真实性评级高度负相关（r=−0.719，p<0.001）。然而，以通道Oz的结果为例，5Hz振幅也与真实性评级高度负相关（r=−0.353，p<0.05）。因此，出现了一个问题，即我们对真实度水平的神经效应是否是由这种低级视觉特征驱动的。我们对此进行了测试，再次比较了二次效应和线性混合效应模型，但现在包括协变量项眼睛大小。如表2所示，在所有比较中，二次模型仍然显示出比线性模型更好的模型拟合。重要的是，这里应该注意的是，真实度类别R4和R5的图像在眼睛大小方面没有显着差异（t（5）=−0.309，p=0.769），这使我们有机会在下面介绍的分类分析中独立于眼睛大小对真实度水平进行分类。由于亮度也可能有助于SSVEP的调制，我们评估了不同风格化类别的光度是否存在系统性差异。但事实并非如此（p>0.05）。

图 6神经反应、真实性评级和混杂因素眼睛大小的相互关系。（a）眼睛大小（像素）和真实度等级。（b）5Hz分量的FFT振幅（在电极Oz处）和真实度等级。

结论与意义

我们的研究调查了具有不同风格化水平的人脸图像如何调节神经反应的振幅，包括SSVEP和N170成分。我们发现响应幅度和真实度之间存在二次关系，这可能与紫外线相对应。值得注意的是，人脸感知是一个复杂的过程，当然还需要额外的神经活动。以紫外线效应为例，正如最近的一篇综述所建议的那样，紫外线效应的ERP相关性可能从早期的负电位（N170）到晚期的正电位不等。此外，目前的研究在非常广泛的真实水平（从简单的卡通图像到真实照片）中检查了真实感感知。为了进一步确定真实感知的神经相关性，希望在未来的研究中“放大”到不可思议的山谷周围的真实水平。例如，SSVEP和N170振幅是否与刺激的真实性水平显示出类似的关系，这里也有更细微的差异，这是否与主观真实性感知相对应？此外，利用EEG中的这种真实感知相关性，以生物学上有意义的方式为生成逼真的面部图像的算法提供信息，这可能是另一种有前途的研究途径。

Chen, Y., Stephani, T., Bagdasarian, M.T.et al. Realness of face images can be decoded from non-linear modulation of EEG responses. Sci Rep 14, 5683 (2024).

https:///10.1038/s41598-024-56130-1

—— End ——

仅用于学术分享，若侵权请留言，即时删侵！