论文名称:Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation 作者来自:三星中国研究院、中科院自动化所、中科院大学、韩国三星研究院。 论文链接:https:///abs/1905.05980 目前还未发现相关开源代码。 导语 在计算机视觉领域,场景文字检测(scene text detection)引起很大关注, 因为它可以被广泛应用于各种场景,实时的文本翻译、自动信息输入、盲人助手、机器感知等等。虽然已经有很多针对水平/多方向文本的方法,但是检测不规则形状的文本如曲线文本仍然具有挑战。 具体来说,给定一个输入图片,首先由一个文本候选区域提取网络来提取文本,然后通过一个修正网络来验证和改进这些候选区域,在这个过程中,一个基于自适应文本区域表示的RNN被用于文本区域修正, 每次预测一对边界点直到没有新的点。 利用这种方式,不同形状的文本区域就能被检测出来,并且能够自适应的用不同数量的点数表示, 得到更精确的描述。 在NMS之后,输出剩余的文本区域作为检测结果。五个数据集上的实验表明,即CTW1500,TotalText,ICDAR2013,ICDAR2015和MSRA-TD500,该方法刷出了SOTA的成绩。 简介 文本是交流语义信息的最重要媒介,它出现在生活的方方面面,街道名牌,商店标志,产品包装,餐厅菜单等。自然环境中的这些文本被称为场景文本。自动检测和识别场景文本可以用于很多方面,例如实时文本翻译,盲人协助,购物,机器人,智能汽车和教育。 一个端到端的文本识别系统通常包括两个步骤:文本检测和文本识别。在文本检测中,检测文本区域并标记其边界框。在文本识别中,从检测到的文本区域中检索文本信息。文本检测是端到端文本识别的重要步骤,没有文本检测,就无法从场景图像中识别文本。因此,场景文本检测近年来引起了很多关注。 传统的OCR技术只能处理打印文档或名片上的文本,场景文本检测试图检测复杂场景中的各种文本。由于复杂的背景和字体,大小,颜色,语言,照明条件和方向的变化,场景文本检测非常具有挑战性。在深度学习方法流行之前,使用手工设计的feature和传统的分类器时,其表现差强人意。 深度学习的发展使得其得到了很大改善。同时,文本检测的研究重点已从水平场景文本转向多向场景文本和更具挑战性的曲面或任意形状场景文本。该论文重点研究了任意形状的场景文本检测。 现有工作:
对于基于边界框回归的方法,两阶段方法通常比一阶段方法获得更高的性能。因此,该论文使用了两阶段检测的思想。大多数提出的场景文本检测方法只能处理水平或定向文本,但是检测诸如弯曲文本之类的任意形状文本最近引起了更多关注。 在CTD中,固定14个点的多边形用于表示文本区域。虽然固定14个点的多边形对于大多数文本区域来说已足够,但对于某些长曲线文本行来说还不够。此外,大多数水平和定向文本的14个点太多,而这些文本的4个点就足够了。 在TextSnake 中,文本实例被描述为以文本区域的对称轴为中心的有序重叠磁盘序列。每个磁盘都与潜在的可变半径和方向相关联,这些都是通过完全卷积网络(FCN)模型估算的。此外,受Mask R-CNN启发的Mask TextSpotter可以通过语义分割处理不规则形状的文本实例。 虽然TextSnake和Mask TextSpotter都可以处理任意形状的文本,但是它们都需要逐像素预测,这需要大量的计算。考虑到固定点数的多边形不适合表示不同形状的文本区域,因此该论文提出了一种自适应文本区域表示,使用不同数量的点来表示不同形状的文本。同时,使用RNN来学习每个文本区域的自适应表示,进而直接标记文本区域并且不需要逐像素分割。 模型 图1显示了所提出的任意形状文本检测方法的流程图,这是一种两阶段检测方法。它包括两个步骤:文本候选区域提取和候选区域改进。
Adaptive text region representation 现有的场景文本检测方法使用固定数量的点的多边形来表示文本区域。对于水平文本,2个点(左上角点和右下角点)用于表示文本区域。对于倾斜文本,其边界框的4个点用于表示这些区域。此外,对于曲线文本,CTW1500采用了14个点表示。 然而,对于一些非常复杂的场景文本,例如弯曲的长文本,14个点不足以很好地表示它们。对于大多数场景文本,例如水平文本和定向文本,少于14个点就足够了,使用14个点来表示这些文本区域是一种浪费。 因此使用自适应数量的点的多边形来表示文本区域是合理的。文本区域边界上的角点可以用于区域表示,如图2(a)所示。 然而,以这种方式的点不是沿一个方向排列的,并且可能难以学习,因此需要人工校正来进行精确分割。通常,文本区域具有近似对称的边界和下界,如图3所示,因此使用来自两个边界的成对点进行文本区域表示更合适。从文本区域的一端到另一端学习成对的边界点要容易得多,如图2(b)所示。通过这种方式,不同的场景文本区域可以精确地由不同数量的点表示,如图3所示。 Text proposal 第一步是由Text-RPN生成文本候选区域。Text-RPN与Faster R-CNN 中的RPN类似,除了backbone networks和anchor sizes有所不同之外。这里backbone network是SE-VGG16,如表1所示。 此外,因为场景文本通常具有不同的大小,所以anchor sizes被设置为{32,64,128,256,512},以覆盖更多文本,同时保持宽高比{0.5,1,2}。 Proposal refinement Proposal refinement网络验证和改进上一步产生的文本候选区域,由三个分支组成:文本/非文本分类,边界框回归和基于RNN的自适应文本区域表示。 其中文本/非文本分类和边界框回归与其他两阶段文本检测方法类似,而最后一个候选区域分支被用于任意形状的文本表示。 对于候选区域分支,输入是每个文本候选区域的特征,输出是每个文本区域的自适应边界点数。由于不同文本区域的输出长度不同,因此使用RNN预测这些点。该论文使用长短记忆存储器(LSTM)。 LSTM用于学习文本区域表示,每个时间步的输入是通过ROI在feature map上获取的文本候选区域。边界点用两个成对点(xi,yi,xi + 1,yi + 1的坐标来表示,作为回归目标,如图5所示。 由于自适应数量的点用于不同的文本区域,因此需要停止标签(stop label)来表示预测网络何时停止。因为停止标签预测是分类问题,而坐标预测是回归问题,所以放在同一分支中是不合适的。因此LSTM的每个时间步中有两个分支:一个用于点坐标回归,一个用于停止标签预测。 由于检测到的文本区域用多边形表示,因此基于水平边界框的面积计算的常规NMS不适用于此,所以使用基于文本区域的多边形的面积的NMS。 实验
消融研究
性能比较
速度比较 表9所示的方法都能够处理任意形状的场景文本。结果表明论文中的方法的速度比其他两种方法快得多。 检测结果示例 图6展示了在数据集CTW1500,TotalText,ICDAR2013,ICDAR2015和MSRA-TD500的结果。证明所提出的方法可以处理任意定向或弯曲的各种文本,不同的语言,不均匀的照明和在单词级别或句子级别的不同文本长度。 结论 该论文提出一种具有自适应文本区域表示的任意形状场景文本检测的方法。首先使用Text-RPN得到文本候选区域,再利用RNN来验证和重新定义每个文本区域以预测边界点的自适应数量。五个基准测试的实验表明,该方法不仅可以检测水平和定向的场景文本,而且还可以很好地适用于任意形状的场景文本。特别在CTW1500和MSRA-TD500数据集上显著优于现有方法。 OCR专业交流群 |
|