重磅干货,第一时间送达 摘要 人脸分析的目的是预测图像中目标人脸的人脸成分的像素级标签。现有的方法通常根据预处理时计算的边界框从输入图像中提取目标人脸,因此只能解析人脸内部感兴趣区域(roi)。像头发这样的外围区域会被忽略,而部分包含在边界框中的附近面孔会引起干扰。此外,这些方法仅在近正面肖像图像上进行训练和评估,因此它们在野外情况下的表现尚未被探索。针对这些问题,本文有三点贡献。首先,作者引入用于野外人脸分析的iBugMask数据集,该数据集包含1000张手工标注的图像,这些图像在尺寸、姿态、表情和背景上有很大变化,以及Helen-LP,一个包含21,866张使用头部姿态增强生成的图像的大姿态训练集。其次,作者提出了在目标包围框的引导下,将整个图像扭曲为一个固定比例的人脸区域和上下文的单极表示的RoI单极变换。新的表示包含了原始图像中的所有信息,并允许卷积神经网络(CNNs)中的旋转等方差。第三,作者提出了一个混合残差表示学习块,创造了HybridBlock,它包含了Tanh-polar空间和tanh -笛卡尔空间的卷积层,允许cnn中不同形状的接收域。通过大量的实验,作者表明,提出的方法显著提高了当前最先进的人脸分析技术。 作者提供了以下贡献:
框架结构 左:RoI Tanh-polar Transformer Network (RTNet):通过RT-Transform将人脸图像变换到Tanh-polar坐标。该编码器由一个干层、一段残块和三段混合块组成。在RT -变换和混合块中使用边界框使张量在正负坐标系和直角坐标系之间弯曲。该译码器由卷积层和双线性上采样层组成。输出掩模被转换回笛卡尔坐标使用反RT -变换。右:HybridBlock。黄色矩形是tan -polar空间中的层蓝色矩形是tan -笛卡尔空间中的层。元组(h, w, c)是每个操作的输出张量的形状。“分割”和“连接”操作沿着通道维度执行。 实验结果 来自带有颜色标记的基准的例子 CelebAMask-HQ和LFW-PL包含对齐良好的面和很少的上下文信息。海伦*包含大部分肖像图像,脸是大的,靠近中心。拉帕包含一些变化的姿态和遮挡的脸图像,但脸是裁切和居中。相比之下,iBugMask在表情、姿势和背景上都有很大的变化,所有的背景信息都被保留了下来。 使用3DDF A增强人脸数据的例子 第一列显示原始图像,其他三列显示不同的∆yaw直到yaw= 90◦的合成图像。
本文从数据、表示和模型三个方面对野外人脸分析进行了研究。作者提出了一个新的基准,iBugMask,用于评估无约束环境下的人脸分析方法。作者还介绍了一个通过姿态增强得到的大型训练集Helen-LP。利用所提出的RoI单极变换得到一种新的单极表示,解决了人脸裁剪的难题。在新的表示中,旋转的等变性也得到了实现。引入了HybridBlock方法来提取极坐标和直角坐标下的特征。作者已经在iBugMask以及其他现有的人脸解析基准测试上实现了最先进的性能。作者期望作者的RT -变换适用于其他的人脸分析任务,其中启发式预处理步骤,如带边框的裁剪和带地标的旋转校正,是不可避免的。 论文链接:https:///pdf/2102.02717.pdf 每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。 - END - ![]() #投 稿 通 道# 让你的论文被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。 总有一些你不认识的人,知道你想知道的东西。深度学习爱好者 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 深度学习爱好者 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。 📝 来稿标准: · 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) · 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 · 深度学习爱好者 默认每篇文章都是首发,均会添加“原创”标志 |
|