融合MultiDeepPPL的苗族服饰分割研究

掌染草2012 2022-04-26

展开全文

摘要

针对基于深度学习的苗族服饰图像语义分割模型存在提取过程中服饰掩码拟合质量不高的问题,文章提出一种基于渐进式注意力学习的多尺度深度学习金字塔模型(Multi-scale Deep learning pyramidal network of progressive attentional learning,MultiDeepPPL)分割苗族服饰。首先,设计了一种密集跨级连接网络,充分利用多尺度方式提取特征的特性,融合不同尺度特征;然后,嵌入了一种渐进式注意力学习金字塔结构,从不同的特征图中迁移相似性与跨尺度相似性,并采用空域注意力和3D卷积对前述特征进行融合。实验结果表明,所提模型在苗族服饰数据集上平均交并比(Mean Intersection over Union,MIoU)达到0.873,类别平均像素准确率(Pixel Accuracy,MPA)达到0.943,Dice相似系数达到0.912,召回率(Recall)达到0.895 1。上述评估指标结果表明,文章所提方法明显优于当前其他语义分割算法,为少数民族文化的研究提供了一种有效可行的方法。

作者: 覃琴1a,颜靖柯1a,王鑫1a,b,c,2,王慧娇1b,王琴1d

作者简介: 覃琴1a,颜靖柯1a,王鑫1a,b,c,2,王慧娇1b,王琴1d

( 1.桂林电子科技大学 a.海洋工程学院;b.计算机与信息安全学院;c.计算机工程学院;d.北海校区,广西北海;2.电子科技大学信息与软件工程学院,成都 )

关键词: 苗族服饰;语义分割;空域注意力;3D卷积;多尺度

研究背景

少数民族将自己的宗教文化、图腾文化体现在服饰的纹样和建筑的装饰上,这样不仅起到美化自身的作用,还能够传达特殊的文化意义[1]。中国少数民族种类繁多,民族服饰多姿多彩,如何正确、高效地分割少数民族服饰的图案,对于辅助研究人员研究少数民族文化具有重要的意义。虽然已经有学者对民族服饰图像进行了研究,但在民族服饰图像分割的自动优化[2]、提取、分类[3]、识别等方面的研究还很少,这影响了研究者从大量民族服饰图像中快速检索和识别。

在服饰分割的研究领域中,近期的研究侧重于采用深度神经网络对时尚服饰图像进行分割。Liang等[4]基于主动模版回归(ATR)模型,利用深度神经网络学习每个语义区域的位置和可见性,生成掩码模版系数和服饰分割形状的参数,得到很好的分割结果。Khurana等[5]基于SegNet模型[6],提出了一种用于时尚服饰图像分割的双阶段深度神经网络架构。该架构第一阶段使用全卷积网络分割出了服饰图像,第二阶段利用Gabor提取服饰纹样特征,确定服饰类型。Guo等[7]利用CPN网络、MFN网络、CRN网络从粗到细分割服饰。Liu等[8]基于K最邻近(k-nearest neighbor,kNN)的方法,提出了具有参数匹配的卷积神经网络(M-CNN)来预测图像中特定语义的最佳匹配区域置信度和位置信息。虽然目前基于神经网络的语义分割模型的研究在时尚服饰数据集上取得了一定的成功,但是少数民族服饰区别于时尚服饰,具有以下特点:1)服饰图案结构复杂;2)服饰饰品繁多,同时存在很多小饰品;3)同一款式服饰饰品之间颜色细节属性差异不大。从而使得少数民族服饰分割仍然存在以下问题:1)由于少数民族服饰的结构复杂,现有的分割模型难以描述少数民族服饰的局部细节;2)少数民族服饰色彩鲜明、纹理图案多样、款式种类繁多、饰品丰富,如何解决分割模型提取高层视觉语义属性与低层特征语义属性之间的鸿沟,成为提高分割准确率的关键。

针对上述问题,以苗族服饰图案研究为例,提出了一种基于MultiDeepPPL的苗族服饰分割模型。在这项工作中,不仅设计了一个简单又强大的密集跨级连接网络,使模型能够更好地描述少数民族服饰局部细节,而且设计了一种渐进式注意力金字塔结构,该结构能够迁移和融合少数民族服饰之间自相似性与跨尺度相似性的特征,从而提升模型分割民族服饰的准确度。

基于MultiDeepPPL的苗族服饰分割模型

首先,从整体上描述MultiDeepPPL模型,并详细介绍密集跨级连接网络中不同尺度的特征密集连接;然后,介绍渐进式注意力学习金字塔结构;最后,阐明设计的辅助分支结构。

1.1 网络结构

本文模型设计的具体结构如图1所示。模型主体采用了编码-解码的架构,并设计了密集跨级连接网络和渐进式注意力学习金字塔结构,提高了模型的分割精度。编码器模块,模型首先将输入的服饰图片经过卷积的3次下采样操作,每次下采样操作特征图的长和宽缩小2倍,通道数扩大2倍,然后将卷积输出的特征图逐层传入不同尺度的特征层进行特征融合。解码器模块,先将编码器和解码器的特征层进行密集跨级连接,使模型提取服饰多尺度特征信息,接着采用金字塔结构融合特征局部与全局信息,最后解码器进行3次反卷积逐步恢复高分辨率图像,得到语义分割结果。解码器结构与编码器结构对称,解码器每次利用反卷积操作,将特征图尺寸扩大2倍,通道数缩小2倍。为了进一步提升小物体的分割效果,以及加强对网络梯度消失的监督,本文提出了辅助分支结构,该结构在解码过程中分别提取三次反卷积的输出特征,如图1(c)所示。利用1×1卷积层中将特征通道减少为7,并将卷积的结果进行融合,最后利用SoftMax对特征图进行分类,解码器和编码器实现了“端到端”的输出。

图1 基于MultiDeepPPL苗族服饰分割模型

Fig.1 MultiDeepPPL-based segmentation model of Miao costumes

另外,该模型使用了Mosaic数据增强[9]的方法,将四张图像合成一张图像,不仅丰富了检测物体的背景,使得模型能够在复杂环境下进行识别,而且能使模型提取四张图像特征信息。模型还引入了Label Smoothing[10]对真实样本标签添加惩罚因子,惩罚标签置信度分布,形成新样本分布。通过对真实样本平滑处理,软化真实标签与其他类别的相对距离。在激活函数的选择上,模型使用了ACON激活函数[11]代替Relu激活函数,它可以自适应选择激活的单元数,避免模型无法精准描述浮点数造成的模型预测精度损失。

本文模型创新性地设计了密集跨级连接网络、渐进式注意力学习金字塔结构(PPL)、辅助分支结构。密集跨级连接网络是将编码器和解码器的网络层中不同尺度的特征进行合并连接,使每一层网络层包含高视觉语义特征和浅语义特征,得到丰富的特征表示。渐进式注意力学习金字塔结构是将反卷积和卷积操作得到的特征进行物体相似外观和相近位置的特征提取,该方式能有效地融合全局和局部的特征信息,提高对图像全局特征的利用率。辅助分支结构能够学习中层和浅层的潜语义特征,学习到更多鉴别信息,有利于小目标的分割。

1.2 密集跨级连接网络

在苗族服饰分割的实验过程中,发现了很多小饰品的轮廓没有被很好地分割、外观相似的物体也存在分类错误等问题,这些问题与模型不同尺度下获得的感受野语境和整体信息都有关,因此,具有合适尺度的模型可以极大增强模型复杂场景下的分割能力。为了对多模态特征进行特征提取的增强,使模型更加有效地捕获上下文信息,进一步避免丢失不同表征之间关系的语义信息。本文在编码器和解码器的路径上考虑多尺度特征信息,并设计了密集跨级连接网络来融合不同尺度的特征图。密集跨级连接网络能够通过使用密集跨连接策略达到控制模型对不同尺度特征学习能力的目的。MultiDeepPPL中密集跨级连接网络采用了两级结构,在第一级结构中编码器会将低尺度和中等尺度的特征图进行融合,在第二级结构中将融合后的结果作为整体再与高尺度特征图进行融合。该网络增加了对全局特征的关注,保留了更多的细节特征。密集跨级连接网络具体实现如下:首先,在编码器路径上将下采样的输入与前特征层输出连接,经过两次卷积运算,并行高语义特征在编码器上;然后,在解码器路径上将编码器路径和解码器路径的特征连接在一起,通过渐进式注意力学习金字塔结构提取自相似性特征,并聚合相似物体外观、位置特征。值得注意的是,对于连接不同尺寸和通道数的特征,采用了最大池化(3×3、5×5、9×9)和卷积(3×3),确保分辨率相同和通道数一致。

1.3 渐进式注意力学习金字塔结构

上文利用密集跨尺度连接网络已经对不同尺度的特征进行了充分融合,然而苗族服饰图片背景复杂度高、拍摄光照不均匀、物体类别之间存在难分类和错误分类的情况,会导致语义分割模型精度低。因此,本文设计了渐进式注意力学习金字塔结构,如图2所示。该结构能对场景中受光照和背景影响大的物体的深度信息区域进行互补,提取到相似外观和相近位置物体特征,降低物体的分割错误率。MultiDeepPPL模型中共设置了5个渐进式注意力学习金字塔结构,每个渐进式注意力学习金字塔结构输入包括了一对相同大小的跨尺度特征层。渐进式注意力学习金字塔结构主要利用了金字塔结构渐进式学习自相似性与跨尺度特征信息,在完成特征信息提取后赋予特征像素级权重,并通过3D卷积[12]聚合所有特征信息。MultiDeepPPL模型中采用不断卷积和反卷积的方法,有效地使得每一级下采样操作的特征图都通过渐进式注意力学习金字塔结构进行迁移学习,达到提取跨尺度相似性的目的。

图2 渐进式注意力学习金字塔结构

Fig.2 Pyramid structure of progressive attention learning

在渐进式注意力学习金字塔结构中,首先采用了可变形卷积[13],可变形卷积可以学习到更多不规则的自相似性特征,计算方式如下式所示:

(1)

式中:FDconv表示可变形卷积运算,表示当前第m层输入的特征图,表示前i层渐进式注意力学习金字塔结构输出的特征图。

可变形卷积学习的偏移offset,会根据输入的和进行计算,计算方式如下式所示:

(2)

式中:ΔP表示m层的可变卷积偏移,表示通道连接,FC表示卷积运算。

然后,渐进式注意力学习金字塔结构通过Softmax生成Mask特征级掩码,Mask用于渐进式注意力学习金字塔结构聚集学习最相关的特征,计算方式如下式所示:

(3)

利用式(3)所计算的注意力掩码Mask进一步与可变形卷积的输出相乘焦聚更多的相关特征。在完成卷积后,生成的特征被视作残差信息,会映射到特征图,得到输出结果,输出特征的计算方式如下式所示:

(4)

式中:⊗表示矩阵元素乘法运算,计算自相似性特征和跨尺度相似性特征;在执行完可变形卷积,模型完成了自相似性和跨尺度相似性特征提取,完成自相似性和跨尺度的特征为Fm。

最后,本文对提取到的特征采用像素级运算集成权重和3D卷积计算融合提取的特征。对于像素级运算集成权重,采用了空域注意力机制计算权重,计算方式如下式所示:

(5)

式中:⊙表示矩阵元素点积运算,T表示矩阵的转置,Fm表示上述提取的自相似性和跨尺度相似性提取的特征。

空域注意力机制计算的权重会将输入的特征进行加权融合,并采用额外融合卷积层来聚合注意力调制的特征计算方式下式所示:

(6)

(7)

另外,渐进式注意力金字塔结构中还加入3D卷积将计算融合特征F3D,并将F3D和Ffusion特征相加进行最后调制,计算方式如下式所示:

(8)

渐进式注意力学习金字塔结构利用由粗到细的方式提高了信息聚合的有效性。

1.4 辅助分支结构

MultiDeepPPL模型的深层卷积感受也大,特征映射具有较强的语义特征信息,有利于分割识别大目标,但是随着网络的加深,深层卷积映射的特征中小目标特征信息容易丢失。苗族服饰分割任务中输入的图片通常包含大小不同的目标。在这种情况下,只使用深层的特征映射进行预测,很可能导致较小的目标分割精度不高,而中层和浅层的特征映射包含更多的特性信息,能让模型学习到更多鉴别信息,有利于小目标的分割。受此启发,本文基于浅层、中层和深层的特征信息的融合作为分割结果,提出了辅助分支结构,如图3所示。该结构加深了对小目标特征的提取,能够对输出结果分割效果的提升起到一定的作用。辅助分支结构定义编码器中Layer 6、Layer 7、Layer 8作为辅助分支结构的输出,其中Layer 6和Layer 7对应浅和中层网络,虽然它们只包含较浅的语义信息,但是包含了更多的小目标特征信息;而Layer 8对应深层网络,包含了更多的高语义特征信息,能够对复杂背景的大物体进行分割。首先,解码器根据不同层次的深度卷积层Layer 6、Layer 7、Layer 8划分不同的阶段,获得不同语义的特征信息,每个阶段通过反卷积得到相同大小的特征图,并经过卷积得到不同阶段的不同类别置信系数;然后,将不同置信系数的通道进行连接,同时将它们的特征信息交叉输入到渐进式注意力学习金字塔结构(PPL),使网络能够合理利用不同阶段学习的特征,专注有效特征提取,丢弃冗余特征;最后,将渐进式注意力学习金字塔结构聚合的多层特征输入到SoftMax分类器实现最终的输出。辅助分支中采用渐进式注意力学习金字塔结构,可以渐进式迁移学习不同分支获得的结果的重要权重,降低了网络深度选择特征的难度,缓解深层网络造成的网络退化。

图3 辅助分支结构

Fig.3 Auxiliary branch structure

实验及结果分析

首先,采集实验数据;然后,搭建实验操作平台,并设置神经网络的超参数并设置实验评价指标;最后,对改进的语义分割模型进行实验对比。

2.1 苗族服饰数据集

目前没有专门用于少数民族服饰图案分割公开数据集,大多数研究者是在少数民族部落实地拍摄来进行相关研究。本文选取了苗族服饰作为研究对象,苗族服饰资源丰富,它是所有少数民族服饰中相对较华丽的服饰。Zhang等[14]将苗族服饰图案分为三类:几何纹、动物纹、植物纹。几何纹蕴含着苗族人民对美好生活的追求,对和平的向往;动物纹表达了他们希望和动物和平相处;植物纹表达了他们对大自然生活的喜爱。

本文数据集依托于贵州西江千户苗寨拍摄获得,包含了几何纹、动物纹、植物纹采集整理(图4),该数据集分别从不同的角度进行图像拍摄,构建苗族服饰图像库共计12 500条样本,取10 000张图像作为训练样本,2 500张图像作为测试样本,样本分布如表1所示。

图4 苗族服饰数据集

Fig.4 Data set of Miao costumes

表1 苗族服饰数据集分布

Tab.1 Data set distribution of Miao costumes

2.2 设置

本文在GPU1060Ti,Ubuntu18.04,基于Python3.6、TensorFlow1.13、Keras2.3.1环境上完成。模型训练数据都采用了苗族服饰数据集,训练策略采用了Mosaic数据增强、Label Smoothing、ACON激活函数,并使用交叉熵(CE)损失函数来训练网络。CE损失函数定义如下:

(9)

式中:w和h是图像的尺寸,p(x,y)对应于图像的像素的标签,表示模型输出的预测概率。

实验模型设置了批尺寸为14的Adam梯度下降和1e-3的学习率进行训练网络。该模型训练的迭代次数设置为200。另外,本文采用MIoU、MPA、Dice相似系数、Recall、所提出模型的参数数量和推理时间(分割图案花费的时间)作为分割效果的评价指标,MIoU、MPA、Dice相似系数、Recall的值越大表示网络预测效果越好,参数量和推理时间越少,模型效率越高。

对于基线模型比较,本文模型与Berg等[15]、Yamaguchi等[16]、SegNet[6]、Khurana等[5]、SCN-152[17]、ACNet[18]、CTNet[19]、AttentionUnet[20]、SGNet[21]进行了比较。另外,对于本文模型的所有贡献进行了消融实验验证。

2.3 不同金字塔结构可视化

热力图可视化可以清晰显示金字塔结构对图片中不同特征信息的提取效果,因此对测试集上的苗族服饰特征应用热力图可视化的方法可以直观地证明所设计的渐进式注意力学习金字塔结构的优势。为了获得合适的热力特征图,本文可视化了模型最后一层卷积操作的输出特征,如图5所示。渐进式注意力学习金字塔结构(PPL)能抑制更多的无关背景干扰和保留更多细节特征,有助于获得更好的分割性能。即它能以金字塔结构迁移学习自相似性与跨尺度特征信息并进行特征聚合,相比SPP模块[22]、ASPP模块[23]、RFB模块[24]更关注目标区域,确保了更好的性能。

图5 不同金字塔结构热力图可视化

Fig.5 Visualization of thermodynamic diagram of different pyramid structures

2.4 消融实验

本文在苗族服饰数据集上评估了MultiDeepPPL模型的各结构性能,将其实验结果进行对比(表2)。由表2可见,在基础网络(Base)中添加密集跨级连接网络(DFCN)提高了Dice相似系数和MIoU、MPA、Recell的性能;添加辅助分支(MS)能略微提高网络的性能。与没有添加渐进式注意力学习金字塔结构(PPL)的相比,具有渐进式注意力学习金字塔结构的模型显著提高了评价指标,这也进一步证明了渐进式注意力学习金字塔结构可以保留足够的信息。综合运用以上方法,明显提高了模型的性能,表明了它们的协同作用。最后,本文比较了改进后的模型参数和推理时间,从结果上显示虽然参数有所增加,但推理时间并没有明显增加,说明改进后的模型是可以接受的。

表2 苗族服饰数据集上不同模块分割结果的评价指标对比

Tab.2 Comparison of evaluation indexes of different module segmentation results on Miao costume data set

图6为MultiDeepPPL模型中损失函数在测试集和训练集的部分迭代变化,共迭代200次。由于苗族民族服饰图片训练的背景复杂,曲线呈现明显振荡,但最终趋于拟合。

图6 测试集和训练集上损失值变化

Fig.6 Change of loss value on test set and training set

另外,本文展示了3种不同风格的苗族服饰分割结果实例,如图7所示。由图7(c)可见,基础网络(Base)对苗族服饰图像粗略分割结果,所选的实例存在分割不准确的现象;由图7的上面和下面可见,由于苗族服饰中存在袖子、上衣、裤子等的纹理颜色过于相近,小尺寸饰包的特征不丰富,导致模型分割结果出现错误。为了解决上述问题,本文在Base基础上添加了密集跨级连接网络(DFCN),模型获得更加准确的分割结果。由图7中间可以看出,由于苗族服饰的饰品银项圈背景复杂度高,导致模型分割精度不高,本文在Base+DFCN添加渐进式注意力学习金字塔结构(PPL)能够迁移学习银项圈的自相似性和跨尺度特征,更好提取复杂服饰特征。由图7上面可以看出,在Base+DFCN+PPL中加入辅助分支结构(MS),辅助分支结构可以在一定程度上加强小物体饰包的分割精度。

图7 不同结构语义分割结果实例

Fig.7 Examples of semantic segmentation results of different structures

2.5 其他模型比较

在苗族服饰数据集上,为了验证所提出模型的可行性和效率,将MultiDeepPPL模型与Berg等[15]、Yamaguchi等[16]、Khurana等[5]、SegNet[6]4种传统方法进行了性能的比较(表3)。由表3可见,本文所使用的MultiDeepPPL模型的MPA较之前的传统方法有明显的提升,说明密集跨级连接网络和渐进式注意力学习金字塔结构能够使所在的模型有明显的改善。

表3 苗族服饰数据集上传统方法分割结果的评价指标对比

Tab.3 Comparison of evaluation indexes of segmentation results on Miao costume data set through traditional method

在苗族服饰款式上,本文比较了Yamaguchi的模型和本文模型的F1分数,如图8所示。本文模型不仅对简单的大标签袖子、上衣、裙子、护腿、裤子分割效果提升明显,而且模型对复杂的小标签饰包、银项圈、银冠、银角、腰带等分割效果也有较大的提升。

图8 苗族服饰数据集款式的F1分数

Fig.8 F1 score of styles in Miao costume data set

另外,本文与其他6个先进的深度学习模型进行了比较,如表4所示。本文模型在Dice相似系数、MIoU、MPA、Recell四种指标均优于现有比较的模型,它的具体数值为0.912、0.873、0.943、0.895。将MultiDeepPPL与其他多尺度编码-解码架构的模型相比,如与AttentionUnet模型相比,本文模型在Dice相似系数、MIoU、MPA、Recell分别高了10.06%、6.2%、8.9%、7.58%,这得益于编码器和解码器中加入密集跨连接网络和渐进式注意力学习金字塔结构,使得模型对多尺度特征融合取得了更佳的效果。另一方面,本文模型相比于SGNet、AttentionUnet、CTNet参数量和预测时间均有减少,如与SGNet模型相比,MultiDeepPPL模型在参数量上减少了68.76 M,预测时间减少了0.04 s,说明本文的模型效率上也优于当前大部分模型。

表4 苗族服饰数据集上不同方法分割结果的评价指标对比

Tab.4 Comparison of evaluation indexes of segmentation results on Miao costume data set through different methods

2.6 可视化结果

图9为不同模型在苗族服饰数据集上的可视化结果,其中(a)为真实少数民族服饰图片,(b)为语义标签图,(c)为SGNet的语义分割结果,(d)为AttentionUnet的语义分割结果,(e)为本文MultiDeepPPL模型的语义分割结果。虽然AttentionUnet和SGNet对易分辨的大物体分割效果好,如上衣、裙子等,但是对小饰品和颜色相近的服饰图案分割效果不理想。而本文模型不仅在大物体分割能达到上述模型的分割效果,同时对小尺度的服饰,以及颜色相近的服饰图案能提取出明显的分割特征,如红色框的饰包、黄色框的腰带、紫色框的护腿、绿色框的项链。说明了本文模型的密集跨级连接网络和渐进式注意力学习金字塔结构能有效利用苗族服饰的多尺度特征,进行相似性、跨尺度相似性和互补性特征提取,并融合全局信息提高分割效果。

图9 不同模型的分割效果

Fig.9 Segmentation effect of different models

结论

针对目前深度学习模型分割苗族服饰精度差、分割难等问题,本文提出了基于MultiDeepPPL的苗族服饰图案分割模型。首先,设计了密集跨级连接网络,该网络充分提取了苗族服饰中不同尺度的特征信息,加强了模型提取特征能力;然后,嵌入了渐进式注意力学习金字塔结构,不仅迁移学习自相似性和跨尺度相似性,而且能对特征进行聚合;最后,通过对比实验,本文模型取得了良好的分割效果,证明了MultiDeepPPL模型可以帮助少数民族文化研究者进行自动和准确地分割苗族服饰图案饰。但是其他少数民族数据集(如壮族服饰、白族服饰等)数据量有限,导致模型训练拟合程度不高,分割精度较差,下一步的研究准备基于无监督的物体分割,凭借少量的数据训练拟合程度更高的模型。

（参考文献略）

PDF下载

来源 | 《丝绸》2022年第59卷 01期

发布 | 浙江理工大学杂志社新媒体中心