【原】用于野外人脸分析的RoI tanh -polar变换网络

小白学视觉 2021-04-05

展开全文

重磅干货，第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

人脸分析的目的是预测图像中目标人脸的人脸成分的像素级标签。现有的方法通常根据预处理时计算的边界框从输入图像中提取目标人脸，因此只能解析人脸内部感兴趣区域(roi)。像头发这样的外围区域会被忽略，而部分包含在边界框中的附近面孔会引起干扰。此外，这些方法仅在近正面肖像图像上进行训练和评估，因此它们在野外情况下的表现尚未被探索。针对这些问题，本文有三点贡献。首先，作者引入用于野外人脸分析的iBugMask数据集，该数据集包含1000张手工标注的图像，这些图像在尺寸、姿态、表情和背景上有很大变化，以及Helen-LP，一个包含21,866张使用头部姿态增强生成的图像的大姿态训练集。其次，作者提出了在目标包围框的引导下，将整个图像扭曲为一个固定比例的人脸区域和上下文的单极表示的RoI单极变换。新的表示包含了原始图像中的所有信息，并允许卷积神经网络(CNNs)中的旋转等方差。第三，作者提出了一个混合残差表示学习块，创造了HybridBlock，它包含了Tanh-polar空间和tanh -笛卡尔空间的卷积层，允许cnn中不同形状的接收域。通过大量的实验，作者表明，提出的方法显著提高了当前最先进的人脸分析技术。

论文创新点

作者提供了以下贡献:

作者提出了用于野外人脸解析的RoI tan -polar变换，该变换将目标人脸转换为基于边界框的tan -polar坐标系，保留上下文，并允许cnn学习与旋转相同的表示。
作者提出了混合残差表示学习块，它通过在极坐标和直角坐标中应用卷积来提取混合表示。-作者提出了一种新颖的野外人脸分析基准iBugMask数据集，以及一种大规模姿态增强训练数据集Helen-LP。
作者进行了广泛的实验，并表明RTNet的整体框架在所有基准上都改善了最先进的水平。

框架结构

左:RoI Tanh-polar Transformer Network (RTNet):通过RT-Transform将人脸图像变换到Tanh-polar坐标。该编码器由一个干层、一段残块和三段混合块组成。在RT -变换和混合块中使用边界框使张量在正负坐标系和直角坐标系之间弯曲。该译码器由卷积层和双线性上采样层组成。输出掩模被转换回笛卡尔坐标使用反RT -变换。右:HybridBlock。黄色矩形是tan -polar空间中的层蓝色矩形是tan -笛卡尔空间中的层。元组(h, w, c)是每个操作的输出张量的形状。“分割”和“连接”操作沿着通道维度执行。

实验结果

来自带有颜色标记的基准的例子

CelebAMask-HQ和LFW-PL包含对齐良好的面和很少的上下文信息。海伦*包含大部分肖像图像，脸是大的，靠近中心。拉帕包含一些变化的姿态和遮挡的脸图像，但脸是裁切和居中。相比之下，iBugMask在表情、姿势和背景上都有很大的变化，所有的背景信息都被保留了下来。

使用3DDF A增强人脸数据的例子

第一列显示原始图像，其他三列显示不同的∆yaw直到yaw= 90◦的合成图像。

结论

本文从数据、表示和模型三个方面对野外人脸分析进行了研究。作者提出了一个新的基准，iBugMask，用于评估无约束环境下的人脸分析方法。作者还介绍了一个通过姿态增强得到的大型训练集Helen-LP。利用所提出的RoI单极变换得到一种新的单极表示，解决了人脸裁剪的难题。在新的表示中，旋转的等变性也得到了实现。引入了HybridBlock方法来提取极坐标和直角坐标下的特征。作者已经在iBugMask以及其他现有的人脸解析基准测试上实现了最先进的性能。作者期望作者的RT -变换适用于其他的人脸分析任务，其中启发式预处理步骤，如带边框的裁剪和带地标的旋转校正，是不可避免的。

论文链接：https:///pdf/2102.02717.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -