分享

基于Transformer对透明物体进行分割

 小白学视觉 2021-01-28

重磅干货,第一时间送达


小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

本研究提出了一个新的细粒度透明对象分割数据集,称为Trans10Kv2,扩展了Trans10K-v1,第一个大规模透明对象分割数据集。不像Trans10K-v1只有两个有限的类别,作者的新数据集有几个吸引人的好处。(1)它有11个细粒度的透明对象类别,通常发生在人类的家庭环境中,使它更适合于现实世界的应用。(2) Trans10K-v2对现有的高级分割方法带来了比以前版本更多的挑战。此外,提出了一种新的基于变压器的分割管道Trans2Seg。首先,Trans2Seg的变压器编码器相对于CNN的局部接受场提供了全局接受场,这显示了相对于纯CNN架构的优异优势。其次,作者将语义分割制定为一个字典查找问题,设计了一组可学习的原型作为Trans2Seg s变压器解码器的查询,每个原型学习整个数据集中一个类别的统计信息。作者对20多种最新的语义分割方法进行了评测,结果表明Trans2Seg算法的性能明显优于所有基于cnn的方法,表明了本文提出的算法在解决透明对象分割问题上的潜在能力。

开源代码:https://github.com/xieenze/Trans2Seg

本文贡献
  • 作者提出了最大的玻璃分割数据集(Trans10K-v2),包含11种不同场景和高分辨率的细粒度玻璃图像类别。所有的图片都用精细的遮罩和面向功能的分类精心标注。

  • 提出了一种基于变压器的透明物体分割网络,该网络采用变压器编解码结构。该方法提供了一个全局的接受域,在掩模预测中具有更强的动态性,具有很好的优越性。

  • 作者在Trans10K-v2上评估了20多种语义分割方法,作者的Trans2Seg显著优于这些方法。此外,作者还表明,这一任务在很大程度上尚未解决。因此需要更多的研究。

框架结构

作者的CNN-Transformer混合架构。首先,将输入图像输入到CNN,提取特征F。其次,对于变压器编码器,将特征和位置嵌入平滑后馈给Transformer进行自我注意,并从变压器编码器输出特征(Fe)。第三,针对Transforme解码器,作者专门定义了一组可学习类原型嵌入(Ecls)作为查询,Fe作为键,并利用Ecls和Fe计算注意图。每个类的原型嵌入对应一个最终预测的类别。作者还添加了一个小的conv头来融合来自CNN骨干的注意力地图和Res2特征。变压器解码器和小锥头详见图4。最后,通过对注意图进行像素级argmax,得到预测结果。例如,在这个图中,两个类别(瓶子和眼镜)的分割掩模对应着两个相同颜色的类原型。

Transformer解码器详细图。输入:可学习的类别原型作为查询,从Transformer编码器的特性作为键和值。输入被馈送到变压器解码器,它由几个解码器层组成。最后一个解码器层的注意图和CNN骨干网的Res2特征相结合,并馈给一个小的conv头,得到最终的预测结果。为了更好的理解,作者还提供了小锥头的伪代码。输入:可学习的类别原型作为查询,从变压器编码器的特性作为键和值。输入被馈送到Transformer解码器,它由几个解码器层组成。最后一个解码器层的注意图和CNN骨干网的Res2特征相结合,并馈给一个小的conv头,得到最终的预测结果。

实验结果

Trans2Seg与其他基于CNN的语义分割方法的视觉比较。输入:可学习的类别原型作为查询,从变压器编码器的特性作为键和值。输入被馈送到Transformer解码器,它由几个解码器层组成。最后一个解码器层的注意图和CNN骨干网的Res2特征相结合,并馈给一个小的conv头,得到最终的预测结果。为了更好的理解,作者还提供了小锥头的伪代码。Trans2Seg的整体感受场和注意机制,特别是在dash区域,明显优于其他组。放大以获得最佳视野。更多可视化结果请参考补充材料。

结论

在本文中,作者提出了一个新的细粒度透明对象分割数据集,包含11个常见类别,称为Trans10K-v2,其中数据是基于之前的Trans10K。输入:可学习的类别原型作为查询,从Transformer编码器的特性作为键和值。输入被馈送到Transformer解码器,它由几个解码器层组成。最后一个解码器层的注意图和CNN骨干网的Res2特征相结合,并馈给一个小的conv头,得到最终的预测结果。为了更好的理解,作者还提供了小锥头的伪代码。作者也讨论了提出的数据集的挑战性和实用性。此外,作者提出了一种基于变压器的管道,称为Trans2Seg,以解决这一具有挑战性的任务。在Trans2Seg中,Transformer编码器提供了全局接收域,这是透明对象分割的必要条件。在transformer解码器中,作者将分割建模为使用一组可学习查询的字典查找,其中每个查询代表一个类别。最后,作者评估了超过20种主流的语义分割方法,并表明作者的Trans2Seg明显优于这些基于CNN的分割方法。

在未来,作者有兴趣探索作者的Transformer编码器-解码器设计的一般分割任务,如城市景观和PASCAL VOC。作者也会投入更多的精力来解决透明对象的分割任务。

论文链接:https:///pdf/2101.08461.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

- END -

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多