遥感｜基于深度学习的海战场图像目标识别

taotao_2016 2019-02-17

展开全文

摘要

近年来，卷积神经网络在图像分类、图像检索和物体检测等领域的表现越来越出色，针对深度学习在海战场图像目标识别中应用的研究越来越丰富。首先归纳了图像目标识别系统中常用深度学习技术的理论和发展历程，然后对比分析了传统识别技术与深度学习技术、基于区域建议的R-CNN系列模型与基于回归的YOLO模型的优势和缺陷，梳理了深度学习技术在海战场图像目标识别中的应用现状，最后展望了未来海战场图像目标识别技术的可能发展方向。

在现代化海战中，卫星、无人机等空天侦查平台在军事目标探测中得到了广泛应用，能够监视和捕获到大量遥感、SAR和可见光图像，从这些图像中解算出目标的身份和位置信息对战术筹划、指挥辅助决策以及精确打击具有重要价值。然而，在实际海战场环境中，图像质量通常容易受到光照、薄雾、遮挡等自然地理因素的影响，此外，目标本身的姿态和尺度具有多变性，这些因素都会对识别性能造成一定的影响。因此，研究先进的图像目标自动识别技术，提升海战场环境下的图像识别能力非常重要。

海战场图像目标识别技术

海战场图像目标识别包括基于序列图像的识别和基于静态图像的识别，本文主要讨论基于静态图像的识别。一个完整的海战场图像目标识别系统需要识别图像中所有目标的类别和图像中所有目标的具体位置和大小。

1.1　基于卷积神经网络的分类模型

卷积神经网络是目前应用最广泛的深度学习技术，在图像分类、图像检索、物体检测等任务中表现及其优异。

一个经典的卷积神经网络通常包括输入层、卷积层、下采样层（也叫池化层）、全连接层和输出层，其中卷积层利用一定大小的卷积核对上一层输出按一定步长从左到右从上到下进行卷积操作；下采样层对卷积结果进行小邻域特征点整合；全连接层对经过一系列卷积和下采样步骤后的数据进行分类，得到的误差回传到前面各层，并更新卷积核参数和全连接层参数，最终完成图像分类。

1998年，LeCun等针对二维文本图像识别问题提出了现代卷积神经网络的雏形——— LeNet，如图１所示。

遥感｜基于深度学习的海战场图像目标识别

AlexNet在LeNet的基础上加深了网络的学习层数，使用５个卷积层和３个全连接层，并在训练中进行了诸多改进，主要表现在：1)使用ReLU函数做激活函数解决了在网络层数较深时易发生梯度消失的问题；2)使用LRN归一化提高网络的泛化能力；3)提出池化的大小大于步进、训练时随机丢弃全连接层中的部分神经元和扩大训练数据集大小等方式抑制过拟合；4)在多GPU上进行分布式计算加速网络训练。AlexNet是最先在ImageNet图像分类竞赛中取得突破的网络，为后来更多更优秀模型的提出奠定了基础。

为了提升ＣＮＮ在图像分类问题上的表现，牛津大学的研究人员在卷积层大量采用3*3的卷积核提取图像特征，提出比AlexNet模型更深的VGG模型。

Google为了更好的融合多尺度模型特征，提出了InceptionNet，InceptionNet在同一个卷积层中使用多个不同大小的卷积核对上一层输出进行卷积，并把所有的卷积运算结果堆积到一起，从而避免了人工确定卷积核大小带来的不确定性。此外，InceptionNet降低了全连接层的层数，除了分类层以外的所有层数全部用作特征通用的特征提取器。

由于梯度消失和梯度爆炸问题的存在，很深的神经网络较难训练，因此，随着网络深度的持续增大，分类精度反而会有所下降。针对该问题，何恺明等基于使用卷积层学习输入输出之间的残差较为容易的思想，提出了ResNet，ResNet的每一个残差块在前向传播的基础上将当前层的激活值跳远连接到网络的更深层，如图２所示。

遥感｜基于深度学习的海战场图像目标识别

1.2　小样本条件下的迁移学习技术

由于卷积神经网络的训练需要大量的数据，但在实际的海战场图像目标识别应用中，收集大量真实包含海战场目标的图像较为困难，可以考虑迁移学习。迁移学习通过简单的调整在一个问题上训练好的模型即可得到适用于新问题的新模型。

Donahue J等指出：在已经训练完成的Inception-v3模型中，从输入层到最后一个卷积层都是在对图像进行特征提取，而最后仅通过一个单层全连接神经网络即可很好的区分ImageNet中的1000类图像，所以Inception-v3模型的卷积层输出可以被作为任意图像的精简且表达能力很强的特征向量。因此，可以使用已训练好的Inception-v3模型中的卷积层从新图像集中提取特征，并使用提取到的特征向量作为输入来训练一个新的分类器。

1.3　基于区域建议的目标检测与识别技术

由于图像中通常不止包含一个目标，因此，将整张图像划分为单个类别并不准确。此外，一个完整的识别系统需要识别图像中所有目标的类别和它们在图像中的具体位置。和传统的识别系统一样，基于区域卷积神经网络的目标检测算法也使用预训练的分类模型对图像中的候选区域进行分类。近年来，候选区域生成方法的研究不断深入，涌现出包括R-CNN系列检测算法等诸多成熟检测算法。

传统识别系统中常用的滑动窗口检测方法，同样也可用于基于深度网络的识别系统，它通过暴力手段从左到右，从上到下滑动固定大小的窗口，并使用预训练完成的CNN对窗口中的目标进行分类。滑动窗口检测方法计算成本高、窗口大小和窗口移动步幅难以确定等缺点十分明显。

Girshick R 等针对滑动窗口的缺陷提出了使用Selective Search方法从待检测图像中提取可能包含待检测目标的2000个左右候选区域，使用预先训练好的CNN提取这些候选区域的特征，最后进行目标分类和边框回归，这就是R-CNN，如图３所示。

遥感｜基于深度学习的海战场图像目标识别

相对于滑动窗口方法，R-CNN虽然在很大程度上降低了计算成本，但它生成的2000个候选区域都需要独立地输入CNN来提取特征，所以训练和推断速度仍然非常慢。为了进一步降低计算成本，解决R-CNN的重复计算问题，Girshick R基于直接使用特征图代替原图来检测目标的想法，又提出了Faster R-CNN，Faster R-CNN不再像R-CNN一样对每个候选区域进行特征提取，而是先使用CNN提取整个图像特征，然后将Selective Search方法创建的候选区域直接用在特征图上，如图４所示。

遥感｜基于深度学习的海战场图像目标识别

针对Faster R-CNN模型生成2000个候选区域耗时太长的问题，Ren S 等提出了Faster R-CNN，在最后一个卷积层之后加入区域建议网络快速生成候选区域，并判断候选区域是否包含特定类别的目标，最后使用回归器进一步调整包含目标的候选区域，如图５所示，Faster R-CNN大大提高了目标检测和识别的效率。

遥感｜基于深度学习的海战场图像目标识别

1.4　基于端到端可训练网络的目标检测技术

BojarskiM等在自己的论文中首次提到了端到端的学习，但没有给出严格的定义。通常，从输入端到输出端的所有任务在同一个网络中进行训练的过程可看做是端到端学习。

事实上，Faster R-CNN 将RPN集成到Faster R-CNN中得到统一的检测网络，已经是一种端到端可训练的网络。但是Faster R-CNN仍然通过生成候选区域的方法来完成目标识别，其中很多存在较大重叠的候选区域带来了重复地识别工作。针对Faster R-CNN存在的缺陷，Redmon J等提出了YOLO(You Only Look Once)模型。YOLO模型是一种基于回归的检测和识别模型，它将目标检测当作一个回归问题，使用CNN对输入图像进行一次推理直接得到图像中所有物体的位置、所属类别及相应的置信概率，极大地提升了目标检测的速度。

不同识别技术在实际应用中的对比分析

2.1　传统识别技术和深度学习技术的对比

传统的海战场目标识别系统将识别流程分为预处理、特征提取、特征融合和目标检测识别四个步骤，如图６所示。

遥感｜基于深度学习的海战场图像目标识别

和传统识别系统需要人工设计特征不同，基于深度学习技术的识别系统通过对大量训练数据的自动学习，提取出识别目标所需要的重要特征，从而完成识别任务，如图７所示。

遥感｜基于深度学习的海战场图像目标识别

近年来，以卷积神经网络为主的深度学习技术在计算机视觉领域得到了广泛应用，关于深度学习技术为什么能够奏效的讨论也越来越多，总结来看，深度学习技术和传统识别技术的区别主要表现在以下三个方面：

其一，特征提取的方式不同。在构建传统识别系统时，需要手动提取已被行业专家确定有效的多种特征，并应用特征融合算法从中剔除冗余特征量，从而获得用于分类器训练的特征；而卷积神经网络试图从数据中学习特征，能够大大减少发现特征的成本。此外，卷积神经网络从大量数据中学习到的特征对海战场环境下受噪声、遮挡以及尺度、姿态变化干扰的图像更加鲁棒。

其二，对训练数据体量和多样性的依赖不同。随着数据体量的增加，传统识别系统的性能容易饱和；而基于深度学习技术的识别系统性能可以持续提升。此外，基于深度学习技术的识别对数据多样性要求更高，同一类目标的不同姿态尺度以及其他噪声干扰图像越多，训练得到的模型越鲁棒。

其三，系统的运行时间差别较大。传统识别系统训练分类模型很快，但是在预测时提取线数据特征往往涉及复杂的图像变换，在线数据预测的实时性难以保证；基于深度学习技术的识别系统有太多的参数需要学习，需要很长时间训练，但是训练完成的模型在提取特征时只涉及简单的四则运算，能够保证预测任务上的实时性。

2.2　基于深度学习的目标检测识别技术的对比

基于深度学习的目标检测技术主要包括基于区域建议的R-CNN系列模型和基于回归的YOLO模型。这两类检测技术的共同点是都使用卷积神经网络作为特征提取器，但解决目标检测的方式不同。基于区域建议的R-CNN系列模型将目标检测问题分为给出可能存在目标的区域和识别所有建议区域的目标类别，而基于回归的YOLO模型将目标检测问题转换为回归问题，运行一次CNN直接得到所有目标的位置、所属类别和相应的置信概率。因此，相比于基于回归的YOLO模型，基于区域建议的R-CNN系列模型在实际应用中目标检测率更高、定位更准确（尤其是对小目标），但检测速度较慢。

目前，基于深度学习的目标检测和识别技术发展迅速，但尚处于研究阶段，实际应用不多。胡炎等在Faster R-CNN框架下构建了一个仅3层的卷积神经网络，并对4种不同海洋杂波环境的宽幅SAR图像进行测试，取得了较好的检测结果；周奇通过融合低层特征和抽象特征提出了一种新的YOLO网络模型变种，实现了移动轮船的实时检测。

结束语

因为有了ImageNet这样百万量级的带标签数据，卷积神经网络才能在计算机视觉领域大放异彩，可以说深度学习是一种数据驱动型技术。就目前而言，实际应用中还缺乏大量的带标签数据，传统算法在一段时间内将仍然是海战场图像目标识别的主要方法，但在海战场图像目标识别中应用深度学习技术的趋势已经越来越明显。

可以预见，通过不同渠道收集和标注真实数据，研究数据增强方法和寻找可迁移到海战场图像目标识别中的模型应当是今后的工作重点。此外，组合手动提取的经典特征和CNN提取的抽象特征用于分类、利用对高维特征有较强分类能力的SVM对CNN 提取的特征进行分类，被证明能够提升识别准确率，应当是今后的研究方向。最后，海战场图像目标识别系统对目标检测和识别的快速性和准确性有较高要求，所以基于端到端可训练网络的识别技术将是未来研究的潮流。