学习扩增：联合数据扩增和针对文本识别的网络优化

SNSJXQ 2020-10-16

展开全文

问题来源：

由于手写文本、图形文本中出现的不同形状与扭曲的图案的影响，对其进行数据扩增变得十分困难。训练出一个健壮的识别模型需要大量的数据以满足其多样性是目前的一个重要的研究内容。

如何得到一个健壮的深度神经网络

通常，训练一个健壮的深度神经网络时，需要大量的有效数据进行支持，但是现实中，提供的数据经常是有限的，因此会导致训练出的深度神经网络一直没有达到理想中的状态，网络表现出过拟合的状态甚至会产生一些低效的测试集。

而要得到大量的数据集，之前往往采用的是数据收集以及注释的方法，这种方法需要大量的资源。他们要花费的精力与成本是十分高的，并且还有可能造成没有覆盖到数据的多样性的结果。相比于数据收集与注释，数据扩增是一个高效低花费的方法。

其中，为了获得更多的训练样本，将随机扩增应用到现有的数据中也被当做一个可行的方法。（不同与一般的类别分类工作，为文本字符串注释是更加困难的，因为在文本图片中可能会出现多种多样的字符，这也是为什么大多数先进的图形文本识别方式只使用合成样本的进行训练的原因）

研究内容

本文对于数据扩增提出了一个新的方法，不同于传统的例如旋转、缩放以及透明度变换的数据扩增方法。通过学习一些适宜的有效的数据扩增方法，训练出一个健壮的判断器。

下面是这篇文章的工作思想：

为包含多种特征的文本图像提供了一个数据扩增的方式。并且从作者的了解当中，他们第一个提出顺序式特征的数据扩增方法。
他们提出了一个联合数据扩增与识别模型的理念，这个扩增样本是通过一个自动学习的过程而产生的，相比于一般的方法，实验结果证明生成的数据在模型训练过程中是非常有效与有用的。并且这个框架是彻底的不需要任何微调的。
广泛的研究证明，在不同的基准上，包括图像文本与手写文本，论文提出的扩增与联立学习方式积极的促进了识别器的识别表现，尤其是在小的训练集当中。

研究的重点问题：

一、对于手写文本，生成手写文本合成数据是一个十分有挑战性的工作，因为模仿不同的书写风格是非常困难的。

二、手写文本具有不同的书写风格，图形文本具有不同的形状，（对于一些透明的、扭曲的文本，依然很难被识别）。因此，几何扩增是一个很重要的获得识别方式的方法。

研究方法：

a.通过对文本进行分割，对分割的图像进行处理得到一些及准确，使用这些基准点集合来对图像进行几何扩增控制，该数据扩增方式变得灵活与可控。此外，提出使用联立学习的方式来缩小数据扩增中的一些孤立的过程中与网络优化之间的差异。

b.对于基准点的操作，提出使用代理网络从识别网络中的输出数据中进行学习，并且通过控制基准点来为识别网络生成更多的恰当的训练样本。

c.通过基于不同对于基准点的广泛实验，包括规则的图形文本、不规则的图形文本以及手写文本，表明这种扩增方式以及这个联立学习的方式在促进识别网络的表现上起到了至关重要的作用。在这之前，作者使用了一个用来进行几何扩增的通用工具包来完成对图片进行几何操作。

研究分析：

1.相比于通常的数据扩增方法，文章将每个字符的多样性都纳入了考虑当中。对于一个文本图片，扩增的目标是去提高每一个在文本字符串中的特征的多样性。因此，现存的扩增是被限制在一些很简单的转换方式，这也使训练变得很没有效率。其中，长尾分离（文字之间的嵌连）也是一个很重大的影响。

2.在人为静态分配控制下，扩增生成的数据或许会生产出很多没有意义的训练样本。所以说，随机扩增的方法在静态分配下很难满足动态优化的需求。因此在扩增过程中去除人为因素变得很重要。因此代理网络是十分必要的。

总结：

论文在文本识别上提出了一种新的数据扩增方法，这种方法被设计出用于顺序式的特征扩增，它主要的核心在于关注图像的空间转换。它首先将图形分成一些方形小块，并将方形小块的顶点当作转换的基准点，通过对这些基准点的操作来完成图形文本转换，生成新的样本。完成一系列流程。

存在的问题与传统的相关工作：

a. 图像文本识别：

存在的问题：图像文本的特征多样导致文本字符串识别比单纯的特征识别更加困难。

常用的方法：传统的图像文本识别的两种类型：基于定位、无分割。

传统的方法：He 与 Sshi 等人采取的方法为将循环神经网络加入到卷积神经网络当中。Luo 与 Shi 等人提出整流网络的方法来减少识别难度。Zhan 与 Lu 等人并通过迭代对图像进行透明度变化，通过对图像中的每一个特征使用更多的几何限制来使识别更加准确。

b. 手写文本识别

存在的问题：不同的人的书写风格不同。

传统的方法：Sueiras 与 Sun 等人通过卷积神经网络与循环神经网络来获取卓越的成果。Zhang 等人通过域适应网络来处理书写方式的多样化。Bhunia 等人特征空间的对央行来扩增训练集。

c. 数据扩增

存在的问题：在深度神经网络当中的训练出现过拟合的现象，传统的方法不能满足特征的多样性。

传统的方法：由于静态扩增方针不能满足动态需求，Cubuk 等人提出强化学习的方法。Ho 等人提出使用灵活的扩增方针计划来加速搜索过程。Peng 等人通过预训练过程的方法来扩增样本。

文章的方法与流程

方法：通过结合代理网络，扩增模型与识别网络这三个主要模型来组成框架。

流程：初始化基准点——>通过代理网络来随机的移动基准点——>扩增模型对图像进行转换——>识别器预测文本字符串的扩增图像——>衡量识别器对扩增图像的识别难度（其中的一个验证依据为基准点的移动距离）

实验验证过程：

两个研究点：移动的方向、移动的距离

分成 N 个方形区域，因此产生 2（N+1）个基准点。

移动基准点 u，记录移动段距离 Wi，设定移动最大半径 pi,以此进行推导：

生成的数据分为对应的样本集，对样本的特征多样性进行分析。

致谢

本论文由南京大学软件学院 2021 级学生何家伟转述。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： SNSJXQ > 《Al及丨0t》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

SNSJXQ

关注对话

TA的最新馆藏

[转] 中医体检表！自己对照一下吧！
[转] 电子膨胀阀工作原理及内部结构图分析
[转] 4个可能使你改变巨大的微习惯
电商或不再“火爆”？新消费模式已在全国兴起！
用人话详解语言大模型
身心合一：唤醒身心自愈潜能

喜欢该文的人也喜欢更多

热门阅读换一换