分享

皮肤电研究: 情绪识别的特征提取与选择

 思影科技 2022-10-06 发布于重庆
  皮肤电活动(EDA)是情绪状态的重要信息来源。先前文献研究了许多EDA特征提取方法,但都使用少量特征和数据集测试它们识别情感的适用性。本文回顾了25项研究建议的40EDA情感识别特征使用三种FS(特征选择)方法(JMI(联合互信息)、CMIM(条件互信息最大化)、DISR(双输入对称相关)),在公开可用的AMIGOS数据集上使用机器学习分析了不同EDA特征在时域、频域、时频域的表现。研究发现获得唤醒、效价识别的最佳准确度需要大致相同数量的特征,此外唤醒和效价识别上,依赖于被试的分类结果显著高于独立于受试者的分类。研究首次探索了梅尔频率倒谱系数(MFCC)相关的统计特征,并发现其优于所有其他特征组,包括最常用的皮肤电导响应(SCR)相关特征。本文发表在IEEE TRANSACTIONS ON AFFECTIVE COMPUTING杂志。

1.介绍

       皮肤电活动(EDA)是情绪状态的重要信息来源。EDA是皮肤的电导率,通常在手掌部位测量,可以反映认知和情绪的变化,例如认知努力、情绪唤醒EDA是一种非平稳信号,它是两种不同成分的集合:

       1.强直成分(tonic component),皮肤电导率的一般水平,随时间缓慢变化;

       2.相位成分(phasic component),在强直成分的基础上表现出更尖锐的峰值,这通常由刺激时瞬时交感神经的激活造成,在某些个体中也自发产生。

       EDA的强直成分称皮肤电导水平(SCL),短期相位响应称皮肤电导响应(SCR)EDA信号通常先快速增加,然后慢速下降到基线水平(见图1)EDA平均水平通常在2-20微秒,不同的个体有1-3微秒的波动,峰谷到峰值的典型上升时间约1-3秒,SCR幅值开始恢复的一半时间(half recovery)2-10秒。   

1.EDA信号示例 

       EDA成本低、易收集,已普遍应用于心理学研究的。近期研究开始探索使用EDA预测心理状态。当被试的自我报告信息存在限制时,EDA可能特别有用。不过迄今为止,还没有研究系统地探索不同EDA特征组合的预测能力。本研究的目标是观察EDA识别情绪的表现,填补这一空白。

2.相关研究      

        EDA情绪识别通常用于评估各种环境体验,例如娱乐游戏、驾驶、患者-机器人交互。先前研究探索了EDA各种特征的预测能力,包括时域、频域、时频特征。     

2.1.EDA的特征      

2.1.1.时域特征      

       最常用的时域特征是信号统计参数,包括均值、标准偏差、峰度、偏度等。部分研究也观察EDA的事件相关特征,即特定刺激(如图像、声音)呈现后几秒钟的特征,如SCR是否存在(定义阈值后忽略未达到的微小变化),传统SCR振幅阈值为0.05毫秒。先前研究有观察的EDA事件相关特征有SCR幅度、SCR峰值数、平均SCR上升时、SCR面积总和。      

       有一些其他生理信号的特征,如高阶交叉(HOC)Hjorth特征,在EDA中也可以提取,不过据我们所知,目前还没有研究观察EDA的这些特征。

2.1.2 频域特征

       很少研究关注EDA频域特征的预测能力,不过频域分析可以更好地检测个体SCR的梯度分量。快速傅里叶变换(FFT)、短时傅里叶变换(STFT)Welch法功率谱密度估计(PSD)是最常用的频域表征算法。EDA信号的频域特征随频率变化,其频率振荡分为不同的频率子带。先前研究考虑了五个频段的统计值(方差、范围、信号幅度面积、偏度、峰度、谐波总和)和频谱功率,以及它们的最小值、最大值和方差。      

2.1.3.时频特征-小波      

         EDA是非平稳信号,适合用小波进行建模。

      1.离散小波变换。小波被离散采样时的小波变换称离散小波变换(DWT)。去噪后的DWT小波系数特征已用于人机交互的情绪状态分类。      

      2.平稳小波变换。平稳小波变换(SWT)分析EDA也具有优势。SWT是重复、线性的,与DWT相比,SWT的移动不变,且提供了更好的低频段采样率。SWT已应用于EDA信号去噪,SWT更高效、计算的复杂度低。

2.1.4.梅尔频率倒谱特征      

        EDA信号可以由一系列重叠、快速变化的相位SCR表征,这些SCR覆盖在缓慢变化的强直活动(SCL)上,使皮肤电导(SC)的数据分解变得复杂,也限制了经典方法评估SCR的能力。催汗神经活动被认为是EDA的驱动因素,它由一系列不同冲动(如催汗神经活动突发, sudomotor nerve burst)组成,这些突发会触发特定的脉冲响应(SCR)SC可通过驱动脉冲响应(deriver-impulse response, IR)卷积建模,表示为公式1

       在该模型中,SC被认为是皮肤系统的输出,由催汗神经突发的激活序列驱动,响应和驱动的卷积在时域中不易分离。倒谱分析(CA)是分析语音信号相似模型的重要技术。

        离散时域信号的倒谱是信号离散傅里叶变换(DTFT)幅度对数的逆变换,见公式2

      CA(倒谱分析)已成功用于分离心电、脑电、EDA等生理信号的基本波形和激活函数。有研究发现CA可以将小幅度波动放大,可用于分析叠加的EDA信号。梅尔频率倒谱系数(MFCC)是基于加权倒谱距离测量的新型倒谱表征,广泛用于语音信号相关等模式识别问题,可以作为EDA信号的特征向量,不过先前研究还未使用。  

小结:

      1.已有研究探索了EDA特征分类情绪的预测潜力,但没有研究对进行系统的比较,结果可靠性也有待识别。

     2.高维数据处理的计算、空间复杂性高,从高维EDA数据中提取情感信息具有挑战性,特别在线处理数据。

      3.许多EDA特征可能与情绪分类无关或是多余,因此需要自动识别这些EDA特征的有效子集,实现有效的EDA情感识别。特征选择方法在此非常重要。

2.2.特征选择方法

      大多EDA研究没有采用任何特征选择(FS)算法,或是只是在分类前应用了数据缩减技术,如主成分分析(PCA)。然而,PCA不能实现自动识别,也不具有普遍性。FS方法通常分为依赖于分类器(包裹式、嵌入式)和独立于分类器(过滤式)两类。

      包裹式和嵌入式的计算成本很高,且都使用非常严格的模型结构假设,因此可能产生分类器特定的特征子集。相比之下,过滤式与模型无关,可以产生通用特征子集。过滤式还考虑了特征/特征子集在分类器中使用的潜在有用性。有研究对基于信息的过滤式FS算法进行了全面回顾,提出了基于信息的理想特征的选择标准:      

      1)是否包含了冗余特征;      

      2)是否平衡了相关性和冗余度;      

      3)是否使用了低维近似。

     研究发现只有三种FS算法满足要求:1.联合互信息(JMI, joint mutual information)2.条件互信息最大化(CMIM, conditional mutual information maximization) 3.双输入对称相关(DISR, double input suymmetrical relevance)。本文将专注于这三种方法。

2.2.1.联合互信息      

      联合互信息(JMI)实现了准确性、稳定性、灵活性的最佳权衡,专注于增加特征之间的互补信息。JMI分数计算见公示3JMI的显著优势有:

      1.即使特征具有相同的互信息(MI)JMI也可以区分它们;

      2.当一个特征是其他特征的函数时,JMI可以消除特征中的冗余。

2.2.2.条件互信息最大化

     条件互信息最大化(CMIM)是通用的过滤方法,可以解决普遍的FS问题。CMIM测量见公式4

       CMIM可以正确识别冗余特征和噪声特征,并优先考虑信息丰富、无关联的特征。

2.2.3.双输入对称相关      

     双输入对称相关(DISR)JMI的标准化变量。DISR考虑了变量互补和互信息的下限,见公示5

       DISR有助于选择概率更高的已选变量的互补变量。      

2.3.问题陈述      

本文的研究目标如下:      

       1)综述研究用于情绪识别的EDA特征。

       2)首次使用多种FS方法对同一数据库的特征进行系统比较。

       3)识别出情绪识别中最重要的EDA特征。

3.方法

      本文从公开可用、带注释的AMIGOS数据集EDA信号中提取目标特征,系统实施FS以确定最重要的EDA特征。      

3.1.特征集      

      观察特征: 1.先前文献已用的EDA情绪识别特征,2.应用于其他类型心理生理信号的有效特征,即使还未应用于EDA

      搜索PubMedIEEE XploreScienceDirect等数据库,关键词为相关词组合,如EDAElectro-dermal ActivityEmotion等,根据标题和摘要手动识别讨论EDA特征,并仅选择原始研究。我们创建了数据提取电子表格,用于收集不同的EDA特征。25篇论文包含40种不同特性,列表见表1    

1.先前研究使用的EDA特征

3.2.AMIGOS数据库

       AMIGOS数据集是一个开放数据集,包含两个实验的EDA测量值及其他多模态数据。实验一: 被试观看短时间(<250秒)情感视频(40人),实验2: 被试(单独/四人一组)观看长时间(>14分钟)情感视频(37人,17人单独观看,20人小组观看)。该数据集包括两个实验中被试情绪唤醒、效价的注释,由三位观察者提供,他们在实验期间目视检查被试面部视频,为每20秒观看片段提供一个注释,他们注释了共12580个视频片段(37名被试每人340个片段)。用于注释的唤醒、效价量表是连续的,范围从-1(低唤醒/效价)到+1(高唤醒/效价),注释者间一致性较高(唤醒: Cronbach's a = 0.96,效价: Cronbach's a = 0.98)。      

3.3.特征提取      

       特征类型信息见表2。每个被试的两个注释变量(唤醒和效价),每一个的340个注释片段的EDA数据生成一个特征矩阵,从时域、频域、时频中提取特征共621个。我们对特征进行z分数标准化,均值为0,标准差为1FS方法可能出现奇点问题,因此我们删除了所有几乎相同的特征(相关系数高于0.98)

2.特征与数量


3.3.1.时域特征的提取      

      1.事件相关特征。参考先前文献描述的过程来提取以下特征:SCR振幅、SCR峰值计数、平均SCR振幅、平均SCR上升时间、SCR峰值振幅和、 SCR上升时间和、SCR曲线下面积和SCR面积总和

      2.统计特征。功率、均值、标准差、峰度、偏度、一阶差分均值、二阶差分均值。

      3.Hjorth特征。我们还按照先前文献描述的方法提取了三个Hjorth特征:活动A、机动性M、复杂性C,计算公式见公式6-8

      4.HOC提取EDA时间序列的HOC特征,HOC是特定的滤波器序列迭代用于时间序列时的过零序列,见公式9-10

       为了确定最适合HOC特征的顺序,我们进行迭代分类,使用分层10倍交叉验证计算几个HOC特征的分类表现。HOC特征数据分类通过对角协方差估计的二次判别分析(即朴素贝叶斯)进行。图2显示了唤醒、效价识别的HOC顺序与相应分类率。从图中可以清楚看出,对于唤醒和效价识别,HOC在阶数为5时获得分类表现最佳,因此我们选择HOC阶数为5

2.HOC阶数与分类表现

3.3.2.频域特征提取

      EDA信号的推荐频率范围(0.05-0.50Hz)按建议可分为五个频段,提取特征是一组统计特征(方差、范围、信号幅度面积SMA、偏度、峰度、谐波总和)和五个频带的频谱功率、最小值、最大值和方差。

3.3.3.时频特征提取

(1)离散小波变换

      信号的小波分析包括父小波的平移、母小波的缩放和平移。信号的小波级数表示见公式11。近似系数见公式12。使用离散小波变换(DWT)信号的细节系数(detail coefficient)见公式13

      在DWT中,小波充当带通滤波器,其中缩放函数和小波函数分别充当低通和高通滤波器(见公式1415-16)DWT会使时域分辨率减半,频域分辨率加倍。上述过程可以迭代应用于信号的多级分解。

(2)平稳小波变换

       修改基本DWT算法可以获得获得给定EDA信号的平稳小波变换(SWT)。我们应用了针对DWT的低通和高通滤波器提取以下特征:

3.3.4.梅尔频率倒谱特征提取

      提取MFCC特征的过程如图3,具体为:

3.MFCC特征提取

      1)基于SWT的复杂滤波方法对EDA信号滤波以去除运动伪影。

      2)滤波后的EDA信号加汉明窗,以便在短窗口持续时间内进行分析。采样率f,帧N=2*f,重叠窗口时长M0.5*f。本研究EDA信号采样率为128HzEDA对诱发刺激的延迟在1.0-3.0秒之间,重叠窗口持续时间M设为0.5秒。为分析数据集的20EDA段,我们无法将N值设置为2*f=1/4256秒,而是创建10个相等的窗口,N值为2秒。

      3)对每个窗口应用FFT获得频谱。

     4)通过梅尔滤波器将频谱映射到梅尔尺度上,见公式17

      5)求梅尔谱值对数。

      6)根据公式2CA获得MFCC特征。因为梅尔谱绝对值是实数、对称的,应用离散余弦变换获得梅尔频率倒谱系数,见公式18

我们只选择最后13个成分,因为其余部分几乎没有信息。通过上述过程获得13 Num_frames

3.4.特征选择
      我们应用JMI、CMIM和DISR从EDA中选择有意义的特征。我们使用了多种特征选择方法,以使结果更加稳健。对提取的EDA特征缩放和离散化后,三种FS方法分别应用于单个被试与所有被试。FS算法给出的前n个特征用来评估分类器性能,n的值在5到200之间。我们选择上限200来检查特征向量的约三分之一值(特征总数为621,见表2)。

3.5.分类
      我们采用了AMIGOS数据集的情绪注释,汇总了三个注释者的评分,生成对每个视频片段具有更重要意义的评分值。效价和唤醒评价是连续的,范围从-11
      基于唤醒标签,9886个样本分配到LOW类,2694个样本分配到HIGH类;基于效价标签,9566个样本分配到LOW类,3014个样本分配到HIGH类进。由于两类数据集不平衡,我们使用自适应合成(ADASYN, adaptive synthetic)采样法来进行改善。ADASYN根据学习难度对少数类样本加权分布,与更容易学习的少数类样本相比,它为更难学习的少数类样本生成了更多数据,减少了不平衡数据分布引入的偏差。
      我们使用的识别系统见图4。样本集划分为单被试(37名被试,每位包含340个样本)和整体数据集(所有被试共12580个样本)。对数据分区应用ADASYN法以消除类别不平衡,然后将数据以70:15:15的比例分别进行训练、验证和测试。我们使用支持向量机(SVM)和径向基函数(RBF),根据分类准确度评估各特征选择方法。我们采用网格搜索和3折交叉验证方法确定最佳正则化参数C,确定高斯RBF的自由参数。有研究报告SVM在生理信号识别情感状态上提供了最佳的分类精度。

4.分类系统图示(信号->特征提取->特征选择->SVM分类->比较分类表现)

4.结果
4.1.最优特征数
     3显示了37名被试和三种FS(特征选择)方法的唤醒识别的最佳准确度、平均F1分数和最佳特征数,最优准确率是在最优特征数量下获得的最高准确率。该表还显示了三种FS方法中37名被试的平均结果,以及独立于被试(ALL)的分类结果。表4显示了效价识别的相同信息。
3.各被试的情绪唤醒识别


4.各被试的情绪效价识别

      我们测试了不同选择算法提供的F1分数值是否显著高于0.5p<0.05水平)。在唤醒的检测中,JMICMIMDISR算法提供的F1分数均值显著高于0.5。在效价的检测中,JMICMIMDISR算法提供的F1分数均值也显著高于0.5

     为了观察依赖被试、独立于被试的分类的不同,我们比较了三种特征选择方法的独立于(ALL)分类与依赖被试(37名被试)的结果。在唤醒的检测中,依赖被试的识别准确度显著更高,但其最佳特征数显著更低。在效价的检测中也发现了相同的情况。

      我们进行了一系列配对t检验,以确定三种FS算法预测唤醒、效价的准确度均值是否存在显著差异,结果表明不存在。最后我们使用一系列重复测量(被试内)、方差分析(ANOVA)比较三种FS算法在准确性、最佳特征数量方面的表现。在唤醒的检测中,准确度和最佳特征数量没有显著差异。在效价的检测中同样没有发现显著差异。换句话说,没有证据表明其中一种算法优于其他算法。


4.2.重要特征      

计算每种特征出现在最佳特征组的相对频率:      

      1)基于所有被试与FS方法的最佳特征数量选择特征,生成直方图。

     2)特征出现除以特征基数(如HOC5)进行标准化。 

      3)FS方法的相对频率加权,乘分类精度。

     特征的相对频率在0-1之间,重要特征分值高于不重要特征。图5、图6分别显示了唤醒和效价识别的特征加权相对频率。唤醒识别中,最常选择的特征组是MFCC统计特征,接下来是时域SCR相关统计特征组和频域频带功率相关特征组。所有特征中,表现最好的是AUC(曲线下面积),其次是SMA(信号幅度面积)和信号能量特征。与其他时域统计特征相比,SCR信号的标准偏差或方差、SCR信号导数也表现良好。一般来说,SCR信号的统计特征在时域上的表现优于其他SCR相关特征。值得注意的是,时域统计特征、频带功率和频域统计特征显示出比其他特征组更高的方差,这表明这些组中的某些特征具有更多信息,分别是时域统计特征中的AUC、信号能量和SMA,频带功率,频域统计特征。与其他三个特征组相比,MFCC统计特征之间的差异较小,这意味着此类型中的所有特征都很重要。最不常选择的特征是小波系数和MFCC系数。  

5.情绪唤醒识别的特征加权最佳出现率

6.情绪效价识别的特征加权最佳出现率

      效价识别的特征出现频率与唤醒识别的趋势相同。效价识别最常选择的特征组是MFCC统计特征,其次是时域、频域频带功率相关特征。在所有特征中,表现最好的特征也是AUC,其次是SMA和信号能量。

5.讨论      

        我们没有发现所使用的三种FS方法表现的显著差异,但它们都产生了较高的唤醒、效价识别分类准确度和F1分数。3、表4表明,大量EDA特征才能获得最佳精度(唤醒识别约95个,效价识别约96),之前的任何研究都没有报道过这一发现。唤醒和效价识别的最佳特征数相似度高,识别计算复杂度也非常相似。

       虽然EDA通常与情绪唤醒更相关,但我们发现唤醒、效价的识别表现相似。先前研究发现,尽管EDA在唤醒识别的表现稍好一些,但这两个变量的分类性能没有显著差异,这与我们的结果一致。我们发现AMIGOS数据集注释的唤醒和效价得分间存在显著的高相关性,这可能有助于解释为什么唤醒、效价的识别表现相似。

       至于重要特征,文献中广泛使用的SCR特征在本研究中显示出较低的加权出现分数。结果表明,在所有SCR特征中,SCR峰幅度对于识别EDA的唤醒、效价最重要。我们还证明了常用的上升时间特征没有发挥重要作用。虽然先前文献通常不适用EDA信号的AUC,但它作为单一特征在EDA信号情感识别方面的表现很好,EDA信号的SMA和信号能量特征也如是。此外,研究中最重要的发现是与MFCC相关的统计特征的表现,优于所有其他特征类型。综上所述,具有最高情感分类潜力的EDA特征要么从未在以前研究中使用过(MFCC特征),要么使用得很少(AUCSMA特征)。      

        与不依赖被试的分类相比,仅使用较少数量的特征就能获得优越的依赖被试的分类准确度。不同个体通常对相同刺激有不同的生理反应,此外不同被试的背景也不同。如果系统预先知道该被试,或者可以在分类之前对每个被试进行学习,那么可以以被试相关的方式进行情绪分类。这是实时情感识别的最大挑战之一。

6.结论      

       本文回顾了25项研究建议的40EDA情感识别特征,使用三种FS方法(JMICMIMDISR),在公开可用的AMIGOS数据集上使用机器学习分析了不同EDA特征在时域、频域、时频域上的表现。三种FS方法均表明唤醒识别平均使用95个特征,效价识别平均使用96个特征。结果显示唤醒识别的平均准确率为85.75%F1分数0.63),效价识别的平均准确率为83.9%F1分数0.61)。在唤醒和效价识别方面,依赖于被试的分类结果显著高于独立于受试者的分类。MFCC统计特征、AUCSMA特征的表现优于EDA信号的常用的SCR特征。      

       本研究研究了EDA情绪分类的重要特征,还指出一些在先前研究中被忽略的有效特征,例如MFCC特征。这为未来开发基于EDA的新情感识别系统开辟了道路,具有更高的准确性,最大限度地降低了计算成本。

本研究的限制:

        1.只依赖于情绪的维度模型(根据效价和唤醒的情绪概念化)检查EDA特征对离散情绪(如喜悦、悲伤、恐惧、惊讶)进行分类的预测能力也很有趣,是未来研究中应该解决的一个方面。

       2.只测试了情绪激发的一种材料(观看情绪视频)不同场景(如压力大的工作面试)可能会在EDA 信号中产生不同模式,关注信号的不同特征可以更好地捕捉这些模式。

       我们的结果还强调要考虑具有不同心理生理特征的被试的个体差异,这些特征往往对相同刺激有不同的生理反应,而不解决这种个体差异会对情绪状态的分类表现产生负面影响。可以使用足够多的被试来训练情绪分类通用模型,然后用新被试的基线值对模型进行微调。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多