【原】MT：用于场景文本检测的多视角特征学习网络

小白学视觉 2021-06-09

展开全文

重磅干货，第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

文本检测作为理解场景文本的关键技术，已经成为一个有吸引力的研究课题。对于检测各种场景文本，研究人员提出了大量具有不同优势的检测器:基于检测模型的检测速度快，基于分割的算法不受文本形状的限制。然而，对于大多数智能系统，检测器需要同时高速和准确地检测任意形状的文本。因此，在本研究中，作者设计了一种有效的管道MT，该管道在推理阶段仅使用一个二进制掩码就可以检测出具有黏附性的任意形状文本。本文在三个方面做出了贡献:(1)设计了一个轻量级的检测框架，在保持较高检测精度的同时加快推理过程;(2)提出多视角特征模块，学习更多的判别表示，准确分割掩模;(3)引入多因素约束下的欠条损失最小化训练模型。在四个真实场景文本数据集上对MT算法的有效性进行了评价，在很大程度上超越了现有的同类算法。

论文创新点

主要贡献如下。

1)结合检测技术和分割技术的优点，设计了一种新的实时管道来检测粘附任意形状的文本。在推理阶段，仅包括以下两个子过程:(1)通过轻量级cnn层生成单个CM;(2)简单运算计算PMD，并直接应用于相应的CM。与现有方法相比，该模型节省了计算成本。

2)提出多视角特征模块来学习更多的文本特征。模块包括三个子模块:(1)极性最小距离(PMD)模块，(2)射线距离(RD)模块，(3)GAP模块。它们鼓励该模型识别文本的局部、边缘和间隙特征，并进一步帮助cnn层准确捕获CM。

3)引入多因素约束的IoU最大损失来训练多视角特征模块。所提出的损失函数对文本尺度不敏感，提高了模型对各种尺度文本的鲁棒性。损耗函数由4个子函数组成，误差范围限制在0 1，与现有的损耗(如平滑-l1损耗)相比，加快了训练过程，提高了偏移量的优化效果。

框架结构

几种具有代表性的场景文本检测作品的管道比较:(a)基于无锚检测框架的多面向形状文本检测管道。(b)和(c)分别是基于任意形状文本检测管道的字符级和词级分割框架。(d)作者的管道，大大简化了cnn层和文本重构模块

该系统由主干模块、双平滑层模块、CM模块和多角度模块以及文本重构模块组成。骨干网由ResNet和FPN组成。这两个平滑层具有相同的结构，包括具有3个3内核的深层cnn层和具有11个1内核的普通cnn层。多角度模块有三个子模块:GAP、PMD和RD模块。在文本重建模块中，首先需要CM计算PMD，然后应用PMD模块得到最终的检测结果。

BOTD的推理过程与作者的方法比较。整个过程分为CNNs层和文本重构模块。

实验结果

在MSRA-TD500、CTW1500、Total-Text和ICDAR2015数据集上的质量检测结果可视化。

结论

在这项工作中，作者提出了一个实时框架的任意形状的场景文本检测。为了克服文本形状带来的困难，作者采用CM和PMD对文本进行建模，这两种方法可以紧密地覆盖不规则形状的文本。通过舍弃与CM无关的cnn层，引入多角度特征模块，在不增加计算代价的情况下提高精度，从而简化了网络。由于CM比文本区域小，无需采用各种复杂的技术，自然避免了粘连问题，为文本重构模块节省了大量的计算成本。此外，作者提出了一个多因素约束下的IoU最大损失训练框架，该框架不仅收敛速度快，而且对各种尺度的文本具有鲁棒性。基于上述优点，本文提出的机器翻译在多公共文本检测数据集上都取得了良好的检测速度和准确率。实验结果表明，该方法在检测不同类型的文本时，其性能明显优于现有的实时检测方法。

论文链接：https:///pdf/2105.05455.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。