分享

基于EEG信号的情绪识别

 思影科技 2021-04-10
      情感在日常生活中有着重要的作用,不仅在人类互动中,而且在决策过程中,以及在对我们周围世界的感知中。由于最近研究界对建立人和计算机之间的情感互动表现出兴趣,因此需要识别前者的情感状态。这可以通过多种测量来实现,如主观自我报告、自主和神经生理测量。在过去的几年里,脑电图(Electroencephalography, EEG)受到了研究人员的极大关注,因为它可以为识别情绪提供一种简单、廉价、便携和易于使用的解决方案。在本文中,我们介绍了2009年至2016年进行的神经生理学研究的概况,提供了使用EEG信号进行情绪识别的现有工作的全面概述。我们将集中分析在识别过程中涉及的主要方面(例如,受试者、提取的特征、分类器),并比较每个方面的工作。根据这一分析,我们提出了一套研究人员必须遵循的良好实践建议,以实现可重复、可复制、经过良好验证和高质量的结果。我们希望本文对通过EEG信号进行情绪识别的研究团体有用,特别是对那些进入这一研究领域的人,因为它提供了一个结构化的起点。

思影科技曾做过多期关于脑电机器学习相关的文章解读,可结合阅读,直接点击下文链接(红色为我个人特别推荐的文章):

基于机器学习的脑电病理学诊断


高阶统计量在EEG信号处理中的应用


脑电信号处理的机器学习

EEG分类实验block设计的危险与陷阱


Current Biology:视觉想象和视觉感知共享Alpha频带中的神

利用脑电连通性特征和卷积神经网络的情绪分类

脑电研究:通过神经活动和视觉特征的多模态学习

JAMA Psychiatry:使用机器学习的方法探究焦虑和创伤性障

Nature neuroscience:利用encoder-decoder模型实现皮层活

ANNALS of Neurology:中风恢复过程中脑机接口可促进运动

Nature Biotechnology: EEG特征预测重度抑郁症的抗抑郁药反应

BMC Medicine:自闭症谱系障碍静息态EEG信号的定量递归


SCIENCE ROBOTICS:非侵入式神经成像可增强机器控制

Lancet Neurology:一种供四肢瘫痪患者使用硬膜外无线脑机

Lancet经典:植物人意识状态的床边检测

NATURE子刊:出生第一年的纵向EEG power能识别孤独症谱

EEG机器学习:急性脑损伤临床无反应患者脑

STROKE:用于慢性中风患者运动康复的动力外骨骼的健侧脑-机

PNAS:基于脑电在线神经反馈调节唤醒程度可以改善个体


帕金森病认知图谱的EEG机器学习

BRAIN:机器学习:基于EEG的跨中心、跨方案的意识

脑机接口训练可持久地恢复中风病人的上肢运动功能

索引术语情绪、脑电图、识别、辨认
1 引言

     情感是人类日常生活的基础,因为它们在人类认知中起着重要作用,即在理性决策、感知、人类互动和人类智力中。然而,情感在很大程度上被忽视了,尤其是在人机交互领域。

      情感计算通过将技术和情感融合到人机交互中来填补这一空白。它旨在通过测量用户的情绪状态来模拟人和计算机之间的情绪互动。一个人的内心情感状态可能会通过主观体验(人的感受)、内部表达(生理信号)和外部表达(听觉/视觉信号)而变得明显。关于个人感受的主观自我报告可以提供有价值的信息,但是存在有效性和确证的问题。参与者可能不会确切地回答他们的感受,而是他们认为其他人会回答。

      生理信号有助于更好地理解参与者在观察时表达的潜在反应。这些对应于来自中枢和自主神经系统的多通道记录。中枢神经系统包括大脑和脊髓,而自主神经系统是一个控制系统,无意识地发挥作用,调节身体功能,如心率、瞳孔反应和性唤起。通常用来测量情绪的信号有:皮肤电反应(Galvanic Skin Response, GSR),它随着一个人的觉醒水平而线性增加;肌电图(Electromyography, EMG)(肌肉紧张的频率),与负面情绪相关;心率(Heart Rate, HR),随着负面情绪如恐惧而增加;和呼吸率(Respiration Rate, RR)(呼吸有多深多快),随着愤怒等情绪的唤起,呼吸变得不规则。在大脑上记录的测量结果也能够观察到感觉到的情绪。

      可以使用功能性神经成像技术,如脑电图(Electroencephalography, EEG)、功能性磁共振成像(functional Magnetic Resonance Imaging, fMRI)或正电子发射断层扫描(Positron Emission Tomography, PET)。虽然EEG的空间分辨率很低,需要在头部的不同位置放置许多电极,但它提供了很好的时间分辨率,使研究人员能够研究响应情绪刺激的阶段变化。此外,EEG的使用是非侵入性的,快速的,廉价的,使其成为研究大脑对情绪刺激反应的首选方法。如今,由于其可穿戴性、价格、便携性和易用性,新的无线EEG设备正在进入市场。因此,现在可以在不同领域使用基于EEG的情绪识别,如娱乐、电子学习、虚拟世界或电子医疗应用。它可以用于许多目的,如即时消息、网络游戏、协助治疗师和心理学家工作。

      在本文中,我们回顾了基于EEG信号的情感识别方法。我们的分析是从两个不同的角度进行的:一个更一般的角度是相关的建议,即以避免在这个研究领域往往会出现的常见陷阱;另一个更具体的主题是从EEG信号中识别情绪的不同步骤。后者侧重于参与者的数量和性别、被识别的情绪集、呈现的刺激(图像、视频等),使用的EEG设备和电极的位置,提取的EEG特征和用于提取这些特征的方法,以及最后使用的分类器。

2 方法论

     我们仔细识别了2009年至2016年间发表的属于基于EEG的情绪识别的文章。从两个角度对这些论文进行了进一步的分析。首先,我们根据Brouwer等人定义的六个建议(14个要点)审查了所有的论文。其次,我们对99篇论文的一个子集进行了更具体的分析。这个子集包含符合14个关键点中至少9个。

3 背景

      在接下来的段落中,我们将简要介绍情绪的定义和表示,以及EEG信号的主要特征,以便为读者提供一些背景知识。

3.1 情绪

      情绪是一种复杂的心理状态,包括三个不同的组成部分:主观体验、生理反应和行为或表达反应。情绪被描述为对有机体有意义的事件(外部或内部)的离散和一致的反应。它们持续时间短,对应于一组协调的反应,可能包括语言、行为、生理和神经机制。在情感神经科学中,情感概念可以从类似的结构中区分出来,如感觉、情绪和情感。感情可以看作是情绪的主观表现。情绪是一种弥漫的情感状态,通常持续的时间比情绪长得多,也通常不如情绪强烈。最后,情感是一个包罗万象的术语,用来描述情感、感觉和心情的主题。

       情绪表征有两种不同的观点。第一个(分类)表明基本情绪是通过自然选择进化而来的。Plutchik提出了八种基本情绪:愤怒、恐惧、悲伤、厌恶、惊讶、好奇、接受和快乐。其他所有的情绪都可以由这些基本情绪形成(比如失望是由惊讶和悲伤组成的)。Ekman遵循Darwinian的传统,他的工作基于面部表情和情绪之间的关系,这些情绪来自许多普遍的基本情绪:愤怒、厌恶、恐惧、快乐、悲伤和惊讶。在第二个视角(维度)中,基于认知,情绪被映射到效价、觉醒和支配维度。效价从非常积极的感觉到非常消极的感觉(或者不愉快到愉快);唤醒(也称为激活)从困倦状态变为兴奋状态;最后,支配对应于情感的强度。最常用的模型是情感的环状(Circumplex)模型,它只使用效价和唤醒。

3.2 EEG

      人脑的最大部分,即皮层,分为额叶、颞叶、顶叶和枕叶(见图1)。额叶负责有意识的思考。颞叶负责嗅觉和听觉,以及复杂刺激如面孔和场景的处理。顶叶负责整合来自各种感觉的信息,以及对物体的操纵。最后,枕叶负责视觉。

皮层细分为额叶、颞叶、顶叶和枕叶。

      EEG是一种医学成像技术,它读取由大脑结构产生的头皮电活动,即它测量由大脑神经元内离子电流流动引起的电压波动。当从头皮测量时,典型的成人EEG信号约为10-100mV。在头皮中观察到的这些信号被分成在某些精神状态下更突出的特定范围,即δ(1-4Hz)、θ(4-7Hz)、α(8-13Hz)、β(13-30Hz)和γ(> 30Hz)带(见图2)。在不同的研究中,频段的起点和终点相差几赫兹。

2 五种脑电波:δθαβγ

      δ波与无意识思维有关,发生在深度无梦睡眠期间。θ波与潜意识有关,例如睡眠和做梦等活动。α波通常与放松的精神状态有关,但也是有意识的,在顶叶和枕叶更容易看到。高α活性与大脑失活有关。β波与积极的精神状态有关,在强烈的集中精神活动期间,在额叶皮层和其他区域更为突出。最后,γ波与大脑过度活动有关。在下面的段落中,我们介绍了电极定位以收集EEG信号以及用于评估它们的范例。

3.2.1 EEG电极位置
      为了产生可复制的设置,在颅骨上有标准化的电极位置,例如国际10/20系统(IS)(见图3)。该系统基于电极位置和大脑皮层底层区域之间的关系。数字10和20表示相邻电极之间的距离(头骨前后或左右总距离的10%或20%)。额外的位置可以通过利用现有的空白空间来增加。

国际10/20系统。

每个部位都有一个字母来标识脑叶,一个数字来标识半球的位置。F代表额叶,T代表颞叶,C代表中央(虽然没有中央叶,但C字母用于识别)P代表顶叶,O代表枕叶。z()指放置在中线上的电极。偶数指右半球的电极位置,奇数指左半球。四个解剖标志用于电极的正确定位:鼻根(前额和鼻子之间的点)、枕骨隆突(后脑勺的最低点)和耳朵前点。

     电极可以是单极或双极的。第一个记录电位差,与连接到耳垂或乳突的中性电极相比。第二个显示两对电极之间的电位差。随着高密度电极的使用,会出现多种干扰EEG记录的噪声源,如活动部位附近的肌肉活动、眼球运动和眨眼眼球运动伪影会对大脑额叶部位产生深远的影响,特别是额叶中部部位(F3 & F4),通常用于研究情绪反应。

3.2.2 EEG范式

     为了理解如何评估大脑电活动中发生的变化,我们提出了最常用的范式:感觉诱发电位、事件相关电位和事件相关去同步化。
 诱发(evoked)电位对应于刺激出现后记录的电位信号。有三种类型:
     听觉诱发电位(Auditory Evoked Potentials, AEP)、视觉诱发电位(Visual Evoked Potentials, VEP)和体感诱发电位(Somatosensory Evoked Potentials, SsEP),它们因所用的诱发方法而不同。AEP是通过耳机发出的咔哒声或音调刺激引起的,VEP是通过监视器上的闪光灯或变化模式引起的(如果是由周期性刺激引起的,则为稳态视觉诱发电位),而SsEP是通过外周神经的电刺激引起的。事件相关电位具有很高的时间分辨率,可以测量对短刺激的即时反应。它们通常被测量为刺激后特定时间段(ms)的正负电位的潜伏期和振幅。事件相关电位成分有:P100、N100、N200、P200、P300和慢皮质电位(Slow Cortical Potential, SCP)。N100的特征是电压负偏转,刺激和刺激后100毫秒的反应(潜伏期)之间有延迟,而P100是等效的,但有正偏转。N200和P200类似于N100和P100,延迟约为200毫秒,而不是100毫秒(在150和275毫秒之间变化)。P300被认为反映了刺激评估或分类中涉及的过程,其特征在于电压的正偏转,潜伏期约为250至500毫秒,SCP可以发生在300毫秒至几秒钟内。
       ERD/ERS分析允许以高时间分辨率评估特定频带内的功率变化。他们在规定的频带范围内测量功率的快速变化,以评估刺激呈现后几毫秒内发生的反应。刺激出现后在一个频带内增加的功率被定义为ERS,而ERD对应于在一个频带内功率的减少。当情感交流发生时,它适用于测量对情感交流的现有反应。

3.3 大脑中的情绪

在过去的十年里,大量的神经心理学研究报告了EEG信号和情绪之间的相关性。大脑中与情绪活动相关的主要区域有两个:杏仁核(靠近海马体,位于颞叶的前部);和前额叶皮层(覆盖额叶的一部分)虽然对于杏仁核可能的偏侧化还没有一致的看法,但它的激活似乎与负面情绪的关系比正面情绪更大。

α波功率的变化和大脑半球之间的不对称与情绪有关。相对而言,右额叶激活与退缩刺激或负面情绪有关,如恐惧或厌恶。相对较大的左额叶激活与接近刺激或积极情绪有关,如快乐或幸福。因此,不对称的前额叶EEG活动可能反映了效价的变化。β波也与效价有关。对于效价识别,α波的前额叶和顶叶不对称以及γ波的颞叶不对称是存在的,而对于觉醒识别,存在α波的前额叶不对称和γ的颞叶不对称。

γ波的变化与情绪快乐和悲伤有关,颞叶不同侧的α波减少也是如此(左边是悲伤,右边是快乐)。最后,短潜伏期(N100P100)至中间潜伏期(N200P200)的事件相关电位成分与效价相关,而中潜伏期至长潜伏期(P300SCP)的成分与唤醒相关。

先前的研究表明,男性和女性对情感刺激的处理方式不同。他们认为,男性依靠对过去情感经历的回忆来评估当前的情感经历,而女性似乎更容易融入情感系统。也有一些证据表明,当情绪被唤起时,女性的EEG模式更相似,而男性的EEG模式有更多的个体差异。

总之,我们可以得出结论,额叶和顶叶对情绪状态的信息最丰富,而αγβ波似乎最具辨别能力。与性别相关的发现与女性比男性更情绪化的普遍观点相一致,这表明对情绪刺激可能存在与性别相关的神经反应。

4 Brouwer的建议

通过EEG等神经生理信号识别情绪,以及开发利用这些信息的应用程序,需要来自不同领域的知识。例如,研究人员需要工程、实验设计、目标用户群知识、数学建模、心理生理学、传感器技术、信号处理和系统设计方面的专业知识。所以这是一个很难执行的高度跨学科的领域,也很难分析(无论是专家还是读者)。事实上,本节列举的常见陷阱主要发生在跨学科领域,这些领域将实验心理学、人的因素、机器学习和神经生理学联系在一起(见图4)。实验心理学提供了评估精神状态的方法。创建和测试应用程序需要人为因素。机器学习提供了先进的分类算法。神经生理学提供了关于神经系统功能以及如何测量的知识。

六项建议中五项与其主要基础领域相关的概述。建议3与所有其他建议交织在一起。 

      Brouwer等人提出了六项建议(见表1),以避免与使用反映认知或情感状态的神经生理信号相关的常见陷阱。这些建议与感兴趣状态的定义、感兴趣状态中预期涉及的神经生理过程、混杂因素、通过分类分析对结果的“欺骗”(尽管不是故意的)、对成功状态估计的基础的洞察,以及最后在应用背景下神经生理测量的附加值有关。它们可能有助于改进新研究的设计和执行,并可以作为阅读和评估研究的清单。接下来,我们根据这些建议对2009年至2016年在该领域开展的工作进行分析(见表2)。我们还详细描述了每个建议,以及我们如何认为每项工作符合(或不符合)给定的关键点。

1 Brouwer等提出的在使用反映认知或情感状态的神经生理信号时避免常见陷阱的建议


4.1 R1-定义感兴趣状态和基本事实
      一个给定的概念在社区中可能有多种解释(例如,有许多不同的情绪集,尽管它们都在情绪概念的保护伞下)。为了防止混淆,重要的是要澄清作者提出了哪些精神状态,并讨论在以前的研究中是如何提出的以及使用中的定义。将感兴趣的精神状态与其在工作中的可操作性联系起来也非常重要,因为它反映了应被视为基本事实的东西(例如,行为测量,如按钮按压准确性,主观测量,如在已知量表上的反应,如自我评估人体模型(Self Assessment Manikin, SAM),或关于个人当前状况的知识)。
      正如我们在表2中看到的,大约74%的工作符合第一个建议,即它们满足该建议的两个关键点。考虑到关键点1.1,作品通常呈现他们打算解决的问题(情感的识别)以及他们将如何获得基本的真实数据:从用户那里收集情感评级或使用已知的标准化数据集(97%)。然而,少数工作符合关键点1.2(73.7%)。虽然作者收集EEG信号和受试者在刺激暴露期间的情绪评估是很常见的,但一些工作只收集信号数据,假设刺激有效地引发了预期的情绪。然而,这种情绪不能被成功地激发出来,这意味着这种假设可能会影响识别器的质量,导致作者给出不正确或不充分的结论。
 
4.2 R2-将感兴趣的状态与神经生理学联系起来
      当试图基于神经生理信号估计情感(或认知)状态时,一个关键的方面是将给定的心理状态与某些生理信号(在我们的特定情况下,是EEG信号)联系起来。因此,文献中的发现应该被用来制定假设,即所使用的神经生理学测量方法预计会随着感兴趣的精神状态而变化(以及如何变化)。这样,研究人员能够为精神状态估计分类模型的训练步骤识别有用的变量/特征,以及验证精神状态估计模型是否如预期的那样起作用。
       建议2解决了这些方面,根据我们的分析,只有34.3%的工作符合它。研究人员往往只给出他们用来提取EEG特征的方法,以及特征本身,而没有提供任何解释来说明他们打算识别的情绪和他们使用的特征之间的关系。
 
4.3 R3-消除混淆因素
       混淆因素尤其重要,因为它们会影响神经生理学研究。在EEG的特殊情况下,受试者的不自主运动可能会在收集的数据中造成人为假象。避免它们的最好方法是正确设计研究。然而,很难完全消除混杂的存在。在这些情况下,混淆是无法避免的,我们应该检查数据以验证它们的存在,更重要的是,检查神经生理变量是否随着感兴趣的精神状态或由于混淆而变化。
表 2  根据六项建议(和要点)对工作的分析

      大多数工作(87.9%)试图使用适当的研究设计来避免混淆因素(关键点3.1)。例如,给受试者一定的适应时间以使他们习惯该设备,以及具有理想温度、光线和舒适条件的放松环境。不太常见的是对数据进行验证,以发现混杂因素并消除它们(关键点3.2和3.3-67.7%)。一个潜在的原因是,研究EEG信号的研究人员应用了伪迹去除技术。因此,作者认为没有必要观察数据并手动删除它们。这个原因也可以证明符合关键点3.4(5.1%)的极少数工作是合理的。
 
4.4 R4-坚持良好的分类实践
      分类分析用于估计精神状态,尤其是高维信号(如EEG)。通常,监督分类模型是使用根据感兴趣的状态收集和标记的数据样本来训练的。接下来,训练好的模型被用来标记看不见的神经生理学数据。然后,通过比较来自已知和未知数据的标签,可以确定分类器的性能。为了保证分类精度不被夸大,预处理和参数设置应仔细选择,并独立于测试集。
      大约49%的工作完成了建议4的所有要点。几乎所有工作都满足了关键点4.2和4.3(超过96%),而只有49.5%的审查工作符合关键点4.1。这主要是因为一些作者没有提供任何关于这方面的信息,或者使用来自同一阶段/受试者的数据进行训练和测试。考虑到用来训练和测试的收集的数据之间的依赖关系,不能保证获得的结果不是由于依赖关系:可能会出现过于乐观的结果。对于来自同一被试的数据,作者往往不会泛化所获得的结果。
 
4.5 R5-深入了解分类成功的原因
      分类性能提供了关于训练好的模型可以如何估计未见过的神经生理学数据的感兴趣的精神状态的洞察力。除了呈现分类结果,呈现关于不同特征(和特征组合)背后的神经生理过程的不同方式的信息也很重要。
      作者通常从EEG信号中提取各种特征,然后用这些特征或它们的组合来训练分类器(关键点5.2:68.7%)。然而,他们只报告所取得的结果,而没有任何关于结果的解释或见解,也没有解释为什么某些功能组比其他功能组表现更好(关键点5.1:32.3%)。

4.6 R6-使用神经生理学的附加值
      只有部分工作解释了EEG信号相对于其他生理测量的优势,这些测量也可以用来捕捉一个人感受到的情绪(关键点6.1:61.6%)。大量的工作解释了将从这种识别器中受益的应用类型,以及它们可以给这些应用带来的附加值(关键点6.2:77.8%)。
 
4.7 讨论
      综上所述,部分建议已在修订工作中采纳。作者介绍了感兴趣的状态,以及通过生理数据识别情绪可以给科学界以及将从其应用中受益的公众带来的预期收益。他们还介绍了使用的分类方法,并解释了他们如何将收集的数据用于训练和测试。预处理和分类技术的选择似乎独立于验证过程。
      未来的工作应该提供更多关于EEG信号(和分类中使用的特征)如何根据感兴趣的状态而变化的信息,因为它可能会影响结果的呈现。作者应该更经常地展示使用EEG信号(和所选择的设备)相对于其他生理测量的优势,并努力最小化混杂因素的存在。伪迹消除技术的使用不应取代对所收集信号的验证。应提供更多关于用于分类方法的不同参数的信息,以增加工作的可再现性和可复制性,并增加不同工作之间的比较。

如果您对脑电机器学习等数据处理感兴趣,欢迎浏览思影科技课程及服务可添加微信号siyingyxf18983979082咨询):

第三届脑电机器学习数据处理班(上海,6.25-30)

第十四届脑电数据处理入门班(南京,5.10-15)

第二十七届脑电数据处理中级班(南京,6.1-6.6)

第十二届近红外脑功能数据处理班(上海,6.15-20)

第十三届脑电数据处理入门班(上海,4.19-24)

第十一届近红外脑功能数据处理班(上海,4.13-18)

第九届脑电信号数据处理提高班(上海,7.8-13)


数据处理业务介绍:


思影科技EEG/ERP数据处理业务

思影科技脑电机器学习数据处理业务

思影科技近红外脑功能数据处理服务

思影数据处理服务六:脑磁图(MEG)数据处理

思影科技眼动数据处理服务

招聘及产品:

招聘:脑影像数据处理工程师(上海)

BIOSEMI脑电系统介绍

目镜式功能磁共振刺激系统介绍

5 从EEG中识别情绪
      近年来,基于EEG信号的情感识别受到了广泛关注。为了使用EEG信号识别情绪,我们需要执行以下步骤(见图5): 
      i)用户必须暴露于被测试的刺激;
      ii)记录用户大脑的电压变化;
      iii)从记录的信号中去除噪声和伪迹;
      iv)分析所得数据并提取相关特征;
      v)基于训练集并使用计算的特征训练分类器,从而解释原始脑信号。

使用EEG进行情绪识别的过程。 

      我们根据以下标准对满足14个关键点中的9个的63项研究工作进行了比较:
      受试者、刺激(和刺激的持续时间)、要激发的情绪、EEG设备(具有采样频率)、电极位置、伪迹过滤、提取的EEG特征、特征提取方法、使用的分类器、离线与在线训练/测试、用户相关或用户独立的数据,以及最终实现的准确性。
 
5.1测试协议
      在下面的段落中,我们给出了考虑到所用刺激的类型和相应的持续时间、受试者的数量、他们的性别以及最终要识别的情绪而进行的分析(见表3)。
表 3 考虑测试协议阶段的工作分析

5.1.1 受试者
      每篇文献中使用的受试者数量差异很大,从1个受试者到161个受试者,中位数只有15个受试者。当参与者人数如此之少时,很难验证所提供的数据和结果的准确性和意义。很明显,大多数工作没有使用统计上显著数量的参与者来提供良好水平的实验可靠性和有效性,47%的工作每篇使用不到15名受试者进行研究,只有约27%的工作使用至少30名受试者。关于参与者的性别,在24%的工作中被忽略了。因为男性和女性可能会以不同的方式感知情感刺激,所以平衡每个性别的受试者数量是很重要的。只有23%的工作满足这一点。少数工作只关注一种性别:没有一项工作只使用女性,而7%的工作只使用男性。剩下的工作,主要使用了不平衡数量的受试者,样本中男性多于女性(68%)。
 
5.1.2 刺激
      情绪诱导有两种方法:主体诱导和事件诱导。在第一种情况下,情绪可以通过要求参与者记住他们生活中过去的情绪事件或表现得好像他们感受到了某种特定的情绪来产生。在第二种情况下,可以使用不同的形式,包括视觉、听觉、触觉或气味刺激。这些情绪刺激通常被选择来引起期望的唤醒水平和效价(或基本情绪)。情绪诱导受目标情绪的复杂性和数量的影响。
      通过利用受试者的自我评价或使用标准刺激集,如:国际情感图片系统(International Affective Picture System, IAPS)和Geneva情感图片数据库(Geneva Affective PicturE Database, GAPED)用于图像刺激,国际情感数字化声音系统International Affective Digitized Sound System, IADS)用于声音刺激,可以确保由刺激引起的情绪状态的基本事实。情感现象的持续时间可以用来定义时间类别,从“完全成熟的情感”(持续几秒或几分钟)到特征,如果不是一生,也可以持续几年。
       近26%的工作使用图像作为刺激。他们中的大多数人(56.3%)使用来自IAPS的图像,12.5%来自面部表情图片(Pictures of Facial Affect, POFA),6.25%来自GAPED,6.25%来自Ekman图片集,另外6.25%来自中国情感图片系统(Chinese Affective Picture System, CAPS)。其余的研究不提供关于图像来源的信息。刺激呈现的平均持续时间为11.97秒,在1.5到48秒之间变化。
      在使用视频作为刺激的23.8%的工作中,大多数没有提供关于视频来源的信息(93.33%),而其余的使用斯坦福大学的斯坦福情感剪辑。关于刺激的持续时间,在40%的工作中,每个视频没有固定的时间(从0.5秒到5分钟不等)。提供持续时间信息的研究平均持续时间为171.6秒,最短持续时间为30秒,最长持续时间为288秒。
      有17.5%的工作使用音乐作为刺激,18%的工作使用IADS,其余的不提供关于来源的信息(82%)。平均持续时间为57.1秒,从15秒到180秒不等。
      相当一部分工作使用了现有的数据集,这些数据集提供了用户在接触刺激后的生理数据和情感评估信息(22.2%)。大多数人使用数据集进行情绪分析,使用EEG、生理和视频信号,其余人使用Mahnob HCI数据集。
      剩下的工作使用了受试者自己的记忆(时长未报告)、俄罗斯方块游戏(5分钟)、表演动作(8分钟)、气味(8秒)、现场表演(时长未提供)、IAPS和音乐视频(60秒)、音乐视频(1到2分钟),最后是音乐GAPED 2分钟)。
 
5.1.3 情绪
      大约46%的工作试图识别基本情绪,最常见的情绪是悲伤/悲伤(62.1%)、快乐/幸福(48.3%)、愤怒/愤怒(44.8%)、恐惧(44.8%)、快乐/喜悦(27.6%)、惊讶(27.6%)、厌恶(24.1%)、愉快(20.1%)和中性(13.8%)。
      在大约30%的研究中发现了效价(Valence)和唤醒,其中三个研究还发现了控制或支配维度。其他情绪状态存在于其余作品中,如积极和消极(29.4%)、积极、消极和中性(17.6%)、平静-中性和消极兴奋(11.8%)、平静、积极兴奋和消极兴奋(11.8%)以及喜欢/不喜欢(11.8%)。注意,多项研究一开始都有一大套情绪,但由于取得的效果不佳,最后都沦为只有一两种情绪。
 
5.2 EEG记录
       由于设置EEG设备所需的时间、佩戴该设备的用户的舒适度以及要处理的功能数量,所使用的电极数量(以及设备)起着主导作用。出于这些原因,理想情况下,应该减少电极的数量。然而,正如我们将在下面的段落中介绍的,大多数当前的工作仍然需要相对大量的电极和昂贵的临床设备(见表4)。
表4考虑EEG记录阶段的工作分析

5.2.1 设备
      有17个不同的EEG设备在审查工作中使用,提供了这一信息。大多数是商业性的,只有一个是由工作的作者开发的。使用最多的是Biosemi Activity Two (37.1%)(直接点击即可了解):

BIOSEMI脑电系统介绍

       Emotiv无线耳机5(16.1%)、Neuroscan公司的EEG模块6(14.5%)和g . Mobilab 7(4.8%)。在这些设备中,最便携、最易于使用的是Emotiv无线耳机。一项工作没有提供关于所用设备的信息,另一项工作指出了所用的设备,但没有说明所用的采样率。
     对于其余部分,最常用的采样频率为512Hz(21.3%)、256Hz(19.7%)和500Hz(13.1%)。考虑到最常用的设备,Biosemi Active Two用于收集采样频率为512Hz(56.5%)、256Hz(17.4%)、1024Hz(17.4%)和2048Hz(8.7%)的EEG信号;128Hz(56.6%)和2048Hz(44.4%)的Emotiv移动实验室总是以256Hz的采样频率使用;最后使用了神经扫描公司的EEG模块,采样频率为500Hz。

5.2.2 电极
      大部分工作提供了关于所用电极及其位置的信息。然而,11.1%的工作根本没有提供任何关于定位的信息,而只有3.17%的工作没有提供用于收集EEG信号的电极数量。对于不显示电极位置信息,但显示电极数量的工作,从14个电极到64个电极不等,平均为52个电极。10-20系统(也称为IS)应用于32.14%的工作,最小电极数为1,最多64,平均41个电极。10-10系统应用于5.4%的工作,总是有64个电极。从所有标明所用电极数量和每个电极位置的工作来看,平均值为14个,范围从1到32。
      在所有的工作中,使用了覆盖整个头皮的69种不同的电极(见图6)。FTC1、FTC2、TCP1和TCP2没有出现在图像中,但在审查的工作中使用过(各不到3%)。

图6。10-10系统的电极定位。颜色信息基于我们收集的值:红色表示电极在75%以上的工作中使用,橙色在50%到75%之间,黄色在25%到50%之间,绿色不到25%。
      例外情况是FP1/FP2和O1/O2位置。由于在工作中使用了两个术语,我们决定保留表格中的原始术语,并总结每对新旧术语的出现情况,仅供评估之用。最常用的是F4(82.9%)、F3(77.14%)、T7(65.7%)、FP1(65.7%)、FP2(60%)、T8(60%)、F7(60%)、F8(60%)、O1(54.3%)、P7(54.3%)、P8(51.4%)、O2(51.4%)、FC5(40%)、FC6(40%)、C4(40%)、C3(34.3%),AF代表前额,C代表中央,F代表额,FC代表额中央,FP代表额顶部,FT代表额颞部,O代表枕部,P代表顶部,T代表颞部,z代表零。
       我们可以看到,最常用的电极是放置在额叶的电极(考虑到红色和橙色代表的电极),这与将情绪和额叶联系起来的发现是一致的。
 
5.3 伪迹过滤
       虽然作者试图通过向参与者提供他们的姿势信息来避免收集的EEG信号中的伪迹(如眨眼),但它们仍然可能发生。在表5中,我们可以看到24%的工作因为参与者相关的不同类型的伪迹而手动删除了一些数据。除了手动移除这些信息的工作之外,还应用了盲源分离(Blind Source Separation, BSS)(19.3%)和独立分量分析(Independent Component Analysis, ICA)(8.8%)等方法来移除眼球运动、眨眼、肌肉、心脏和工频干扰。大约30%的作品使用共同平均参考(Common Average Reference, CAR)(58.9%)、拉普拉斯(23.6%)或平均均值参考(Average Mean Reference, AMR)(5.9%)等方法重新参考电极。

 表5伪迹过滤阶段的工作分析

      由于并非所有收集到的频率都对情感识别问题有用,大约84%的工作使用了一些带通滤波器。虽然所有工作都使用了24个频率范围,但最常用的是4-45Hz(33.3%),1-100Hz(6.25%),8-30Hz(6.25%),2-42Hz(6.25%)。陷波滤波器也应用于16.58%的工作(主要是在50和60Hz)。最后,43.9%的工作对原始EEG信号进行了降采样:128Hz(52%),206Hz(16%),256Hz(12%),512Hz(4%),500Hz(4%),300Hz(4%),250Hz(4%),32Hz(4%)。

5.4 特征提取

      在下面的段落中,我们介绍了从EEG信号中提取的最常见的特征,以及用于执行这些特征的方法(见表6)。 

表 6 特征提取阶段的工作分析

特征提取:近似熵(Approximate Entropy, AE)、不对称指数(Asymmetry Index, AI)、自回归(Auto-Regressive, AR)、不对称空间模式(Asymmetric Spatial Pattern, ASP)、互相关(Cross-Correlation, CC)、公共空间模式(Common Spatial Patterns, CSP)、微分不对称(Differential Asymmetry, DASM)、微分熵(Differential Entropy, DE)、偏侧化的不对称(Asymmetry in respect of lateralization, DLAT)、(Asymmetry in respect of caudality, DCAU)、离散傅里叶变换(Discrete Fourier Transform, DFT)、离散小波变换(Discrete Wavelet Transform, DWT)、能量谱(Energy Spectrum, ES)、滤波器组公共空间模式(Filter Bank Common Spatial Pattern, FBCSP)、快速傅里叶变换(Fast Fourier Transform, FFT)、Grassberger和Procaccia (GP)、混合自适应滤波(Hybrid Adaptive Filtering, HAF)、Higuchi分形维数(Higuchi Fractal Dimension, HFD)、高阶交叉(Higher Order Crossings, HOC)、后期正电位(Late Positive Potential, LPP)、互信息(Mutual Information, MI)、最大相关最小冗余方法(Maximum Relevance Minimum Redundancy Method, MRMRM)、幅度平方相干估计(Magnitude Squared Coherence Estimate, MSCE)、非线性动力学分析(Non-linear Dynamical Analysis, NDA)、Narrow-bad能量事件(Narrow-bad Energy Event, NEE)、功率谱密度(Power Spectral Density, PSD)、有理不对称(Rational Asymmetry, RASM)、样本熵(Sample Entropy, SE)、频谱功率谱不对称(Spectral Power Assymetry, SPA)、谱功率特征(Spectral Power Features, SPF)、短时傅里叶变换(Short-time Fourier Transform, STFT)、小波熵(Wavelet Entropy, WE)和小波变换(Wavelet Transform, WT)。
5.4.1 EEG特征
       关于作者使用的EEG特征类型,大约10%的工作没有提供任何信息,而其余的工作主要使用δ、θ、α、β和γ波段(89.4%)。其中近37%的人一起使用了所有的波段,而其余的人只选择了其中的一些,如α、β、θ和γ(13.7%)、α和β(7.8%)、α、β和γ(7.8%)、δ、θ、α和β(3.92%)、α、β、γ(3.92%)以及其他组合。
    使用的其余特征是事件相关去/同步(Event-Related De/Synchronizations, ERD/ERS)、事件相关电位(Event-Related Potentials, ERP)和固定频率带宽(例如,0.5-30 Hz、1-10 Hz、1-46 Hz和2-30 Hz)。
 
5.4.2方法
      可以使用各种方法处理特征提取过程。在审查的工作中,使用了42种不同的方法。超过47.6%的工作使用了一种以上的方法,尽管最终只有一种被选为最佳方法。
     最常用的方法是傅里叶变换,如短时傅里叶变换(Short-time Fourier Transform, STFT)或离散傅里叶变换(Discrete Fourier Transform, DFT))(25.4%)、统计(23.8%)、功率谱密度(Power Spectral Density, PSD)(22.2%)、小波变换(Wavelet Transform, WT)(19.1%)、熵,如近似熵(Approximate Entropy, AE)、微分熵(Differential Entropy, DE)、样本熵(Sample Entropy, SE)或小波熵(Wavelet Entropy, WE)(15.9%)、高阶交叉(Higher Order Crossings, HOC)(9.5%)、公共空间模式(Common Spatial Patterns, CSP)(7.9%)、分形维数(Fractal Dimensions, FD)(7.9%)、不对称指数(Asymmetry Index, AI)(4.8%)。
 
5.5 分类
      在情感识别领域,我们有大量常用的分类器家族:贝叶斯、支持向量机、决策树等等。在下面的段落中,我们展示了最常用的分类器、分类类型(离线与在线),以及用于训练和测试分类器的数据类型(见表7)。我们记得情绪识别系统有一个训练阶段,它应该使用与测试阶段不同的数据。由于工作之间存在大量的差异,因此很难对它们进行比较,从而推断出关于结果质量的结论。因此,我们将不讨论达到的精度。
表 7  考虑分类阶段的工作分析

分类器:k-近邻(k-Nearest Neighbors, kNN)、线性判别分析(Linear Discriminant Analysis, LDA)、逻辑回归(Logistic Regression, LR)、多类支持向量机(Multi-class Support Vector Machine, ML-SVM)、多层感知器反向传播(Multi-Layer Percepton Back Propagation, MLP-BP)、朴素贝叶斯(Naive Bayes, NB)、概率神经网络(Probabilitic Neural Network, PNN)、二次判别分析(Quadratic Discriminant Analysis, QDA)、径向基函数(Radial Basis Function, RBF)和支持向量机(Support Vector Machines, SVM)

结果:3类:正、负和中性;2类:阳性和中性vs.阴性

5.5.1分类器
       由于大多数工作应用了不止一个分类器,并且为识别器的最终配置只选择了一个,所以我们的分析集中在最后一个分类器上。26个不同的分类器被选为最佳分类器。
      在几乎59%的情况下,使用了支持向量机(Support Vector Machines, SVM),使用了不同的核:径向基函数(29.7%)、线性(16.2%)、多项式(8.1%)、高斯(5.4%)和皮尔逊(2.7%)。其中8%的研究采用了自适应SVM、多类支持向量机(Multi-class Support Vector Machine, ML-SVM)或最小二乘支持向量机(Least Squares Support Vector Machine, LS-SVM)等变体。使用支持向量机的工作中有29%没有指定所使用的核函数。几乎14%的工作选择了k近邻;有些工作没有规定k的取值(44.4%),而在其他工作中,k = 2到8不等。6.3%的作者使用了线性判别分析,3.2%的作者选择了二次判别分析(Quadratic Discriminant Analysis, QDA)。最后,6.35%的作者(各占3.17%)选择了朴素贝叶斯和多层感知器反向传播。
 
5.5.2 离线与在线
      EEG信号总是随着时间改变其性质。信号的这种非平稳特性会导致使用特定生理数据建立的分类模型不能反映已经发生在EEG信号中的变化。大多数分类方法都是基于数据来自平稳分布的想法。因此,除非模型适应于反映EEG信号中发生的变化,否则分类精度预计会随着时间而降低。然而,90%的工作采用了离线分类方法,只有8%采用了在线分类(更适合实时场景)。一项工作同时应用了在线和离线技术。
 
5.5.3 用户依赖/独立
      分类过程的另一个重要方面是分类器是否用依赖于用户的数据训练。在依赖于用户的数据的情况下,为每个用户生成一个新的模型,并且测试步骤也用这个用户数据来完成。通常,会获得更好的结果,但代价是缺乏普遍性。在用户独立模型的情况下,多个用户的数据用于训练和测试目的。这使得模型更容易应用于新用户,因为不需要创建新模型。在审查的工作中,46.8%的工作使用独立于用户的数据,43.5%的工作使用依赖于用户的数据。大约8%的工作使用两种类型的模型训练的分类器。其余的工作没有提供任何关于他们的数据是用户依赖的还是用户独立的信息。
 
5.6 讨论
      大多数工作提供了关于受试者数量及其性别的信息,用于收集EEG数据和验证工作。关于使用的受试者数量,很少有作者进行了涉及统计显著数量的参与者(30)的研究。此外,受试者的性别分布不公平,因为大多数研究主要是在男性中进行的。
      作者主要采用图像或视频作为引发情绪的刺激。然而,只有在图像的情况下,作者才使用众所周知的数据集。此外,在要被识别的情绪集合中没有一致意见,大多数工作旨在识别基本情绪(或它们的子集),其余的集中在效价和唤醒水平上。当要识别的情绪数量增加时,准确性往往会降低。
      收集数据的各种设备具有不同的采样频率,以及不同的电极组。对于必须使用的电极数量以及它们的位置,作者之间没有共识。作者主要使用脑电波作为特征,并使用不同的方法提取它们。进一步解释所使用的特征与工作旨在识别情感之间的关系,将有助于理解所呈现的结果。
      大多数工作应用伪迹消除技术来提高采集信号的质量。使用多个分类器,大量的作者训练不同的分类器并选择最佳的一个。建议作者提供关于分类器参数的更多细节,并对预处理的EEG信号进行手动验证,以确保所应用的技术足以去除存在的噪声。
 
6 最佳实践建议
      在这一节中,我们提出了一套最佳实践建议,包括基于EEG的情绪识别器的适用性和组成步骤。为此,我们考虑了Brouwer等人的建议和我们在第4节中对他们每个关键点的分析,以及在第5节中描述的分析。

适用性
l解释使用EEG相对于其他生理测量的优势;
l介绍了基于EGG的情感识别器在现实问题中的适用性,以及这些识别器在这些领域的应用。
测试协议
l为了获得有统计意义的结果,在研究中使用至少30名受试者。如果作者同时使用两种性别的受试者,受试者的数量应该平衡;
l收集除EEG信号之外的信息(例如,主观评估、验证主观评估的面部表情、其他生理测量)以用作基础事实。
l确保用于向受试者呈现刺激的时间足以引发情绪反应,但不要太长以至于对刺激产生习惯性反应(这可能会影响受试者的自我评估)
l尽可能使用现有数据集的刺激,如IAPSIADSDEAP
l呈现要识别的一组情绪,以及它们应该如何随着所收集的EEG信号而变化;
l只要有可能,就使用文献中已经介绍过的一组情绪,进行可比较的研究(例如, EkmanPlutchik)
l以高水平的舒适度和说明设计研究(例如,提供图像之间的放松时间、良好的照明和温度;指示用户在图像可视化期间避免移动/闪烁)
EEG记录
l描述用于收集生理信号的设备及其采样率;
l识别定位系统和用于收集EEG信号的电极位置。
伪迹过滤
l应该进行伪迹去除以去除已知的伪迹(EOG、肌肉等)。即使采用了适当的设计,也可能出现这种情况;
l验证可视化刺激时信号中存在的变化是由于成功激发情绪还是由于混淆而发生的,如果是,手动评估信号以消除它们。
特征提取
l如果作者没有使用从所有电极收集的数据,请指出使用了哪些电极;
l呈现从信号中提取的特征;
l供关于用于提取特征的计算方法的信息,但更重要的是,详细说明特征应该如何与要识别的情绪相关联,即,如果给定的情绪被成功引发并且信号没有噪声,该方法的预期行为是什么。
分类
l提供所使用的分类器的详细信息,特别是所使用的分类器和用于训练分类器的参数(例如,许多作者只指出了SVM的使用,但没有指出所使用的核)
l随着时间的推移,在不同的阶段中收集每个受试者的数据,以避免训练和测试数据之间的依赖性;
l显示有关识别器类型的信息:离线或在线;
l确定系统是依赖于用户还是独立的,因为它们之间的结果有很大差异(依赖于用户的识别器通常会获得更好的精度)
l保证预处理和分类程序独立于验证数据;
l解释用于评估识别器性能的指标。如果识别出一种以上的情绪,请提供个人表现指标(理想情况下,一个混淆矩阵),而不仅仅是最终平均值;
l检查多个特征及其组合;
l考虑到特征和使用中的神经生理过程之间的现有关系,介绍并解释结果(例如,给定的特征或一组特征被认为可以通过一组电极来更好地识别特定的情绪)
 

7 结论

      本文中,我们分析了2009年至2016年的工作,这些工作提出了通过EEG信号识别情绪的新方法。我们的分析基于两个角度:一个更一般的角度考虑了一组避免该研究领域常见陷阱的建议,另一个更具体的角度考虑了从

       作为分析的结果,并结合Brouwer的建议,我们得出了一套最佳实践建议,以帮助研究人员制作经过良好验证的高质量工作,这些工作能够重现和复制。我们希望这一分析将对研究界有用,特别是对那些进入这一研究领域的人。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多