分享

智慧学习环境中基于面部表情的情感分析

 ht87 2019-04-18

作者:孙波、刘永娜、陈玖冰、 罗继鸿、张迪

摘要

情感与认知加工之间存在着密不可分的联系,学习过程中的情感状态对学习效果有一定的影响。在智慧学习环境中实现学习者情感分析,有利于促进智慧学习的发生。表情作为人类情感表达的主要方式,其中蕴含了大量有关内心情感变化的信息,通过面部表情人们可以推断内心微妙的情感状态。目前,人脸检测技术已经实现了从复杂背景中定位人脸,分类算法也相对成熟,因此表情识别的研究工作主要集中在表情特征提取上,而现有研究基本上都是基于人脸与表情的混合特征进行的识别,这产生了较大的干扰。在表情识别时,理想情况是将个体相关的人脸特征和与个体无关的表情特征相分离。依据心理学家Ekman提出的FACS(面部表情编码系统)构建的智慧学习环境下基于面部表情识别的情感分析框架,通过特征分解将个体特征及表情特征分解到不同的子空间,在表情子空间中进行表情识别,从而排除个体特征对表情识别的干扰。经JAFFE表情库的验证,表情识别结果比较理想,已在三维虚拟学习平台Magic Learning的师生情感交互子系统上实现了基于面部表情的学习者情感识别及情感干预。

关键词:智慧学习环境;表情识别;表情特征;情感分析;情感干预

一、引言

社会信息化进程推动着学习方式与学习环境的变革,从在线学习(E-Learning)到移动学习(M-learning)再到泛在学习(U-Learning),无一不体现其所处时代的信息化水平。目前,云计算、物联网、虚拟现实技术、普适计算及人工智能的发展与成熟为新一轮的教育信息化提供了强大的技术支持。在这种背景下,智慧学习环境的出现成为必然的发展趋势。智慧学习环境的关键技术特征主要体现在能够自动记录学习过程、感知学习情境(黄荣怀等,2012),这为学习情感分析的研究提供了强有力的支撑。

与普通的学习相比,智慧学习更加注重培养高阶思维能力、复杂问题解决能力及创新能力,而这些能力的培养都离不开注意、记忆、思维等认知活动的调节与控制。心理学研究表明,学习过程中的积极情感会促进认识活动,而消极情感则会妨碍认识活动。可见,学习过程中的情感状态对学习效果有一定的影响。在智慧学习环境中实现学习者情感分析,有利于智慧学习的发生。

近几年兴起的生物特征计算,如脑电分析、心电分析及皮肤电分析等可以很好地捕获人类主观心理特征(蔡菁,2010;聂聃,2012)。但通过复杂的可穿戴设备测量脑电、心电、皮肤电、血压及呼吸变化来识别学习者学习过程中的情感状态,在实际应用中会比较困难。心理学家 Mehrabian的研究结果表明,感情表达=7%的言词+38%的声音+55%的面部表情(Mehrabian,1968)。可见,通过面部表情分析情感状态相比获取其他情感信号更加自然可行。因此,本文对智慧学习环境下基于面部表情的情感分析技术进行深入研究。

二、相关研究

1.情感计算技术

情感是人类隐藏在内心的微妙生理状态,让计算机识别、理解、表达和适应人的情感具有一定难度。在学习过程中对学习者的情感状态进行跟踪、记录并加以分析更是一项具有挑战性的工作。赋予计算机情感智能是对以往智能计算的质性突破,也是人工智能领域的一个全新研究方向。

情感计算由MIT实验室Picard教授提出,她在《Affective Computing》一书中将情感计算定义为“与情感有关、由情感引发或者能够影响情感因素的计算”(Picard,1997)。情感计算的目的是赋予计算机感知、理解及表达情感的能力。情感计算的研究框架如图1所示,主要包括6部分内容:情感机理、情感信号的获取、情感信号的分析识别、情感理解、情感表达及可穿戴设备。

情感机理部分以认知科学、情绪心理学、神经生理学等为理论基础,主要研究情感状态与生理反应及行为特征之间的对应关系。每一种情感的触发可能伴随几种生理或行为的变化,而某种生理或行为变化也可能是因多种情感刺激而起。情感状态的变化与人体生理反应及行为特征之间存在着错综复杂的关系。只有掌握了情感及其表现特征的变化规律,才能明确采集什么样的情感及如何进行情感分析。由此可见,情感机理是整个情感计算研究的基础。情感信号的获取部分主要包括传感器设计及情感信号采集方法研究。某些生理信号和行为特征随着情感状态的不同有着明显的差异,如表情、语音、脑电、心电、皮肤电、血压及呼吸等。针对不同情感信号,开发便捷、易操作的采集设备及研究采集方法是实现情感计算的前提条件。情感信号分析、识别并理解是情感计算的核心研究内容,包括情感模型的建立、情感信息提取和情感分类几项工作。以上几部分都是依据生理反应及行为特征来推断情感状态的研究。情感表达则与其相反,研究的是如何让计算机表达某种给定的情感。如机器人通过姿态、表情及语音语调的变化可表达相应的情感。可穿戴设备的研究包括可穿戴产品的设计及相应软件的开发,属于情感计算的应用层面。可穿戴设备的深入研究必将推动整个情感计算的发展。同时,可穿戴设备的研究也依赖于前几部分的发展水平。

2.表情识别技术

表情作为人类情感表达的主要方式,其中蕴含了大量有关内心情感变化的信息,通过面部表情人们可以推断内心微妙的情感状态。但是,让计算机读懂人类面部表情所蕴含的情感并非简单的事情。作为智能化人机交互的重要组成部分,人脸表情识别一直是备受关注的研究课题。人脸表 情 识 别 (Facial Expression Recognition, FER)所研究的就是如何准确、高效地利用人脸表情所传达的信息进行内心情感分析。FER 涉及图像处理、机器视觉、情感计算及心理学等多个学科,一般包括三个环节,即人脸检测、表情特征提取及表情分类,如图2所示。

目前,人脸检测技术已经实现了从复杂背景中定位人脸,分类算法也相对成熟,因此表情识别的研究工作主要集中在表情特征提取上。表情特征提取是表情识别系统的重要组成部分,表情识别的性能很大程度上依赖于所提取表情特征的有效性。好的表情特征应具备以下几个特点:完整的表示表情的本质特征;去除与表情识别无关的干扰信息;数据表示形式紧凑,避免特征维数过高;不同类别的表情特征之间具有良好的区分性(刘晓 等,2006)。

关于表情特征提取已经有了较多的研究成果,大致分成两大类。一类是基于局部信息的方法,首先人工选取面部关键点或关键区域,然后提取局部特征进行表情分类(Pantic et al.,2004;Bashyal et al.,2008;Cheon et al.,2009)。另一类是子空间特征提取方法。该类方法针对面部的整体特征,寻找在某种准则下的最优变换,将高维数据投影到低维空间,在子空间中只保留对表情分类具有鉴别能力的特征,从而达到降维、消除相关性和提高分类性能的目的(Shan et al,2006)。

表情特征具有典型的局部性,对分类起关键作用的特征主要集中在眉、眼、嘴等部位。通过文献调研发现,现有表情特征提取方法大多需要先从人脸图像中提取特征点或特征区域来获得描述表情变化的参数,然后再将这些参数综合起来进行表情识别。这种人为选取特征点或特征区域的方法损坏了原始数据的局部几何结构,同时使特征提取工作变得繁琐而严重影响表情识别的自动化程度。同时,我们也注意到,表情识别的最大干扰因素是不同个体的人脸差异,而现有研究基本上都是提取人脸与表情的混合特征进行表情识别。

3.智慧学习中关注的情感与表情

(1)智慧学习中关注的情感

实现智慧学习环境中学习者情感识别,首先要明确识别哪些情感及每种情感所对应的面部表情特征是什么。目前,表情识别领域广泛研究的情感有Ekman等提出的 6种基本情感,即高兴、愤怒、厌烦 、 恐 惧 、 悲 伤 及 惊 讶 (Ekman et al., 1975);Plutchik 提出的 8 类基本情感,即接受、生气、期待、厌烦、高兴、害怕、伤心及惊讶(Plutchik,1980)。孟菲斯大学的 Mello对智能导师系统(AutoTutor)中学习计算机基础知识学生的情感变化进行监控。研究结果表明在学习过程中 Ekman提出的 6种基本情感并非全部起到关键作用;高兴、惊讶、厌烦、困惑、挫败感在顺利完成目标或受阻时起了关键作用,而且高兴和惊讶情感的出现较为频繁(Mello et al., 2007)。 一 些 研 究 者 对 远 程 学 习 及E-Learning系统中学习者的情感状态进行了深入的研究。解迎刚等对 E-Learning系统中学习者的喜欢和厌烦两种情感状态进行识别,利用识别结果判断学习者对课程是否感兴趣(解迎刚等,2007)。詹泽慧基于学生三维情绪空间模型从唤醒、兴趣及愉快三个维度监测远程学习者的疲劳、兴趣及愉悦情感状态(詹泽慧,2013)。汪亭亭等为了识别并干预网络学习者出现的疲劳状态,定义了专注、疲劳及中性三种与学习相关的状态(汪亭亭等,2010)。

Ekman等和Plutchik提出的基本情感在学界被广泛认同并研究,但是这些情感与智慧学习环境中所关注的情感存在一定差异。借鉴网络学习、远程学习和 E-Learning系统中学习者情感状态研究成果,以及智慧学习环境的特点,本文提出研究的情感类型为:高兴、惊讶、厌烦、困惑、疲劳、专注及自信。

(2)情感与面部表情的关系

经多年研究,Ekman 发现人类表达同一情感时,面部肌肉运动具有一定的规律,不受性别、年龄、种族及受教育程度等因素的影响。在面部肌肉运动的基础上,Ekman 以面部活动单元(Action Unit,AU)为单位提出了面部活动单元编码系统(Facial Action Coding System,FACS),详细描述了内 心 情 感 与 面 部 表 情 的 关 系 (Ekman & Friesen,1978;Ekman et al.,2002)。FACS 在表情识别领域被广泛应用,是目前公认的分析复杂表情的有效工具(Bartlett et al.,2006)。

笔者基于 FACS,对高兴、惊讶、厌烦、困惑、疲劳、专注及自信情感所对应的面部活动特征进行研究,提出如表 1 所示的情感与面部活动特征对应关系。表1中包含了26个与特定肌肉运动相关的 AU,其中包括描述上半脸的 9个 AU和描述下半脸的 17个 AU。从表 2中的数据可以发现,有些AU单独出现时即可蕴含某种特定的情感,如AU27或 AU43 可表示疲劳情感;某些 AU 单独出现却没有特定的情感意义,如 AU2 和 AU13;某些 AU 在特定的组合中才能蕴含某种特定的情感,如 AU6与AU12同时出现才表示高兴。

三、智慧学习环境中的表情识别

1.SLE-FER框架设计

智慧学习环境中表情识别应用框架(下文简称SLE-FER)如图 3所示,包括感知层、传输层、数据层、分析层和应用层。感知层主要提供感知终端,用来采集表情数据,主要设备有移动电话、网络摄像头、笔记本电脑及 iPad 等。这些设备可随时随地采集学习者学习过程中的表情数据。传输层可提供无处不在的便捷上网环境,保证表情数据安全、高速地传送到服务器。感知层采集的表情数据通过传输层传送到数据层,在数据层中存储表情视频及表情图像。分析层主要实现表情识别功能,是SLE-FER 的核心部分,数据层中存储的表情图像在分析层进行处理得到表情所对应的情感状态。应用层利用分析层的处理结果为整个智慧学习环境提供智能服务,如利用学习者的情感数据分析学习者在学习中的专注度、耐心度、理解度及是否出现疲劳状态等。同时情感数据也可为学习者学习方案制定、学习资源推送、学习伙伴连接及学习活动建议等个性化方案的制定提供重要依据;还可在辅助评估学习过程、预测未来表现及发现潜在的问题等方面发挥作用(祝智庭等,2012)。更重要的是,在在线学习及虚拟学习环境中,情感数据是实现学习者及虚拟教师情感交互的主要数据来源。

2.SLE-FER中分析层设计

在 SLE-FER 框架中,分析层是整个研究工作的核心,其功能是实现学习者表情识别。感知层采集的人脸视频包含了丰富的信息,对不同的识别任务来说利用的信息也各不相同。人脸识别需要利用能够代表不同个体的人脸特征,而表情识别则需要寻找各种表情之间的差异。在不同应用中,对一种识别任务有利的信息有时反而会对其他识别任务造成干扰。而表情识别的最大干扰因素是不同个体的面部差异。在表情识别时,理想情况是将个体相关的人脸特征和与个体无关的表情特征相分离。图 2的表情识别流程中,第二个环节提取的特征实际上是人脸与表情的融合特征,在分类阶段人脸特征会对表情特征产生干扰而影响表情识别的效果。因此,本文对提取的人脸特征进行分解,将人脸特征与表情特征进行分离,如4所示。

四、基于张量分解的表情识别

张量分解是矩阵奇异值分解在多重线性代数中的高阶推广,在图像处理、计算机视觉等领域有着广 泛 的 应 用 。 三 阶 张 量 的 高 阶 奇 异 值 分 解(Higher-Order Tensor Singular Value Decomposition,HOSVD) 直 观 表 示 如 图 5 所 示 (Lathauwer et al.,2000)。

三阶张量 D进行 HOSVD分解得到:D=ZX1U(1)X2U(2)X3U(3),其中 Z∈RI1×I2×I3为核张量;U(n)∈RIn×In(n=1,2,3)为正交因子矩阵;符号 Xn表示张量的n阶分解。

在图 6(a)中不难发现,同一种表情因个体面部差异而相差甚远,因此不同个体的面部差异会对表情识别产生干扰。但在二维空间中我们无法将图像的个体特征(下文将不同个体的人脸特征简称为个体特征)及表情特征进行分离。下面基于HOSVD方法将三阶人脸张量的个体及表情特征进行分解。在三维空间中,按表情、个体及图像特征建立三阶张量 D∈Ri×j×k,其中 i,j,k分别表示表情种类数、个体数及特征维数,图 6(b)为四个人三种表情的人脸张量的直观表示,每张图像的特征维数为40×40pixel。

用 HOSVD方法,将三阶人脸张量的表情与个体特征进行分离,D=Z× eUexpression× pUperson× fUfeature,其中 Z为核张量,描述三个子空间之间的相互关系;Uexpression、Uperson、Ufeature均为列正交矩阵,分别为表情子空间、个体子空间及特征子空间。 Uexpression ×Uperson× Ufeature中间每行都是具有特定物理意义的向量,Uexpression的第 n 行表示第 n 类表情的特征。因此,我们可以用不同类别的表情图像训练表情系数,然后将待测图像的表情系数与训练图像的表情系数进行比较,判断该测试图像的表情类别(Sun et al.,2014)。由此可见,通过特征分解可将个体特征及表情特征分解到不同的子空间,在表情子空间中进行表情识别,从而可以排除个体特征对表情识别的干扰。

五、实验及应用

1.算法验证与分析

对局部保留投影(Locality Preserving Projections,LPP)(He et al.,2005)方法及 LPP+HOSVD方法在日本 JAFFE 表情库上进行了实验,两种方法 均 采 用 支 持 向 量 机 (Support Vector Machine,SVM)进行分类。

JAFFE表情库共包含 10名女性的 7种表情(中性、高兴、悲伤、吃惊、生气、厌烦及恐惧),每人每种表情有 2-4 张图像,共有 213 张。实验中,从每人每种表情图像中随机选取 1张为测试样本,剩下的为训练样本,随机重复 3 次对算法进行测试。首先对 JAFFE 表情库中原始图像进行尺度、角度及灰度归一化处理,处理后的图像大小为 40×40pixel,如图7所示。

本文提出的方法排除了人脸差异对表情识别的干扰,使得表情识别结果比较理想。表 3 中的识别结果可以看出,7 类表情的平均识别率从87.62%提高到了 89.05%。然而,与人脸识别相比,表情识别更加具有难度,人脸差异对表情识别的影响远远大于表情差异对人脸识别的影响。仅从表情的外显特征来看,悲伤与厌烦特征极其相似,很难加以区分,给识别工作带来了一定难度。

2.基于面部表情的情感识别应用

将本文提出的方法在北京师范大学虚拟现实实验室基于开源分布式三维虚拟环境 Opensim开发的三维虚拟学习平台“Magic Learning” 的师生情感交互子系统上进行应用,系统结构图见图 8(赵慧勤 & 孙波,2009;2012)。

通过感知层移动终端(笔记本电脑、iPad及手机等)的摄像头对 Magic Learning中学习者的表情进行采集,用 WiFi 或局域网将数据传输到数据层。图 9为预处理后的表情图像,第一行为高兴、第二行为专注、第三行为困惑、第四行为疲劳。在分析层中完成对四种表情的特征提取、特征分解及表情识别,识别结果传输给应用层。

在应用层中,表情识别结果作为师生情感交互模块的输入变量(见图 8),通过情绪分析、情感计算得到学习者的内心情感状态,从而激发虚拟教师的情感表达。这样可以对学习者在学习过程中出现的负向情感进行干预,帮助其快速调节;对出现的正向情感则给予一定的鼓励和赞扬(见图 10)。

本文选用虚拟教师的 5 种情感表达方式与学习者进行情感互动,包括两个头部姿态(点头和摇 头)、 一 个 面 部 表 情 ( 微 笑 ) 及 两 个 手 势(Victory 和拍肩膀)(赵慧勤 & 孙波,2010;赵慧勤等,2011;Sun,2011)。当学习者出现高兴表情时,虚拟教师通过微笑、点头或 Victory 手势等情感表达方式给予赞扬;当学习者出现专注表情时,虚拟教师对其进行正常的学习指导;当学习者的表情为困惑时,虚拟教师通过微笑、拍肩膀等情感表达方式给予鼓励并进行帮助;当学习者表现为疲惫时,虚拟教师通过摇头、轻拍肩膀等情感表达方式进行干预(见图 11)。

六、结束语

感知学生在学习过程中的情感状态变化,提供即时的学习分析和教学干预,不仅对智慧学习环境而且对传统的课堂教学都有着非常重要的意义。学生自发性表情识别是实现基于非认知因素学习评价的关键技术支撑。在学习过程中,通过摄像头采集学生图像,利用表情识别技术分析面部表情,判断学习者对当前学习内容的专注度、注意力状态和对知识点的理解及掌握情况,并将这些信息及时反馈给教师,为教师及时调整教学活动、教学进度和教学方法提供可靠的依据。

然而,学习过程中的表情识别相对于识别 6种基本表情具有更高的难度。首先,学习过程中的表情更加细微,不同表情的区分度很小,这些给研究表情与学习情感之间的联系带来一定困难;其次,目前并没有大规模带标注的自发性学习表情数据库支持算法的深入研究。因此,如何利用大数据挖掘学生学习情感与表情的数据关联模式以及建设大规模带标注的自发性学习表情数据库是未来继续研究的重点。

基金项目:北京自然科学基金“三维虚拟教学环境中虚拟教师和教学过程建模的研究”(4102030);中央高校基本科研业务费专项资金资助项目“自发性课堂学习情感的视觉建模与计算”(2014KJJCA15)。

作者简介:孙波,博士,教授,博士生导师;刘永娜,博士研究生;陈玖冰,博士研究生;罗继鸿,本科生;张迪,硕士研究生,北京师范大学信息科学与技术学院(北京 100875)。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多