搜索

分享

QQ空间 QQ好友新浪微博微信

【原】结合人脸识别元辅助学习的AU单元检测

我爱计算机视觉 2021-08-23

展开全文

本文介绍一篇人脸技术传统方向“人脸动作单元识别”的论文：Meta Auxiliary Learning for Facial Action Unit Detection。

Meta Auxiliary Learning for Facial Action Unit Detection

论文：https:///abs/2105.06620

作者单位：南京理工大学，中科院计算所

1

引言

当前AU单元检测的性能依赖于大量具有准确AU单元注释的训练图像，但问题是给AU单元打标签费时费力，而且极容易出错。

在该论文中作者考虑到AU单元检测和人脸表情识别是两个高度相关的任务，而且人脸表情样本相对容易标注。因此作者提出了一种结合人脸识别元辅助学习的AU单元检测方法。

该方法通过以元学习的方式为训练的有限元样本学习自适应权重来自动选择高度相关的有限元样本。实验结果表明，该论文的方法显著的提高了AU检测性能。

2

论文模型介绍

2.1 损失函数

假设在训练阶段有一个训练数据集和一个人脸表情数据集。作者保留了一个小的无偏验证数据集，并且该验证集是排除训练集之后的剩余集合里采样得到的。

分别表示的是集合

的第张图像。分别表示的是集合

中元素的总个数，并且有。表示的是一个编码，特指个面部表情类别上的类别。表示的是第个单元。表示被激活，表示单元没有被不激活。

作者利用多标签损失函数进行单元检测，具体的表达式表示为：

其中表示的是单元的个数。表示的是输入样本的第个真实标签。表示是的预测的分数。

对于，作者采用的是交叉熵损失函数，具体的表达式为

其中表示的是人脸表情类别。和分别表示的是真实标签和预测标签。

多任务训练的常规目标是最小化所有单个任务的组合损失：

其中表示的是人脸表情识别任务的贡献平衡系数。手动调整损失权重是费时费力的，恰恰相反，元辅助学习方法旨在通过一个元优化目标，自动学习为每个样本和样本分配自适应权重和，并且最小化损失：

其中表示的是的尺寸。

2.2 元优化

下图表示了的网络结构和元优化过程。的网络结构由基础网和元网组成。基础网络由主干网络和两个并行分类器组成。这两个分类器分别用于检测和检测。

作者将主干网络表示为参数为的函数，两个分类器的参数分别是和。表示与检测任务相关的参数，表示与任务相关的参数。

因此基础网络中的参数被表示为。元网络接受图像特征作为特征，并将映射成标量权重。作者将元网络表示为带有参数的函数。

如下图所示，的元优化过程由三个阶段组成分别是：元学习，元测试和主干学习。在每次训练迭代中，依次执行以上三个步骤。在元训练阶段，基础网络将一批和样本作为输入样本，并计算每个样本的损失。

元网络中估计和样本的初始权重分别为和。这两个任务的损失通过它们各自的样本权重进行缩放，以多任务方式更新基础网络（）。在元测试阶段，从验证集中获取一批样本作为输入，并评估更新后的基础网络的性能。

然后，执行元梯度下降步骤来更新元网络。在基础学习步骤中，结合自适应样本权重学习这两个任务，以重新更新基础网络()。

2.3 元训练阶段

给定一批样本

，

，

主干网络提取特征表示为和。利用编码的图像特征，通过元网络获得每个样本的权重表示为：

计算当前训练批次样本的平衡多任务损失:

通过最小化，重新更新基础网络的参数：

其中表示的是学习率，和表示的是下一次训练迭代中基础网络和元网络的初始参数。与用于多任务学习的普通随机梯度下降方法不同，交替更新基础网络参数和元网络参数。

上述三个阶段的完整算法在如下算法中有所概述，主要通过深度学习框架来实现。

3

实验结果

如下三张图片所示为BP4D，DISFA，GFT数据集上的分数。粗体表示最先进的多任务和元辅助学习方法中的最佳方法。由下图可以发现论文中的方法在这些数据集中绝大部分的AU单元检测中表现出色。

作者在下图中可视化了训练过程中的迭代损失和迭代权重曲线。对于每个输入批次的AU和FE样本，并计算了它们各自的平均权重，并可视化了每20次迭代的损失和平均权重。

从图（a）、（d）、（g）可以看出，随着在MTL训练的进行，FER损失的下降速度快于AU检测的损失，这表明FER任务相对容易优化，并主导了MTL的训练过程。

从图（b）、（e）、（h）中可以观察到类似的现象。随着训练迭代次数的增加，辅助FER任务的损失显著降低。这意味着辅助FER任务的好处将相当有限。

为了缓解这个问题，作者提出的MAL增加了FE样本的平均权重，MAL中的元网自动平衡两个任务的权重，并根据迭代权重曲线的潜力自适应地增加FE样本的平均权重。MAL学习增强FER的贡献以提取更多的语义信息来增强AU检测任务。

下图显示了一些代表性图像的权重和一致性值。对于图中的每个面部图像，左上角的两个值意味着权重和一致性值。从实验结果可以看出论文中提出的MAL方法抑制了具有较大不确定性的有限元样本，并防止网络过度拟合不确定的有限元图像。

END,入群👇备注：人脸

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：我爱计算机视觉 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

我爱计算机视觉

关注对话

TA的最新馆藏

综述 | 基于 Transformer 网络的多模态学习
超200+篇文献！一文知晓"伪装场景理解"领域近况
当AIGC遇见灌篮高手，一秒钟让动漫/艺术人物在虚拟世界中重现
全景鱼眼相机+俯视+深度学习：封闭场景视频监控的好选择
SAM 模型真的是强悍到可以“分割一切”了吗？
我在Github上建了一个项目快1.2K stars了，你应该也需要！

喜欢该文的人也喜欢更多

热门阅读换一换