基于改进CNN 的红外目标识别方法研究*

汉无为 2021-06-07

展开全文

0 引言

红外成像自动目标识别［1］基于红外辐射成像方式能够使武器系统对指定目标进行自动追踪、捕获和识别，实现对目标指向的正确导引和精确打击，是红外导引头精确制导武器的核心技术之一。

常用的传统目标识别算法有基于支持向量机（SVM）算法［2］、基于G-Radon 旋转不变算法［3］、基于尺度不变特征变换［4］（Scale-Invariant Feature Transform，SIFT）与极速学习机［5］（Extreme Learning Machine，ELM）算法等，这些传统算法难以适应自动目标识别系统所面临战场环境的复杂化和目标不确定性问题，造成目标识别率低。

2.3 血浆纤维蛋白原水平多元逐步回归分析本研究将BMI、空腹血糖、总胆固醇、三酰甘油、低密度脂蛋白-胆固醇及高密度脂蛋白-胆固醇水平为自变量，而血浆纤维蛋白原水平为因变量进行多元逐步回归分析。结果显示，BMI、空腹血糖、三酰甘油、低密度脂蛋白-胆固醇是影响纤维蛋白原的独立危险因素(均P<0.05)。见表3。

近年来深度学习技术在图像识别方面表现出惊人的效果，可以对目标特征进行自动提取、识别和分类。常用的模型有卷积神经网络［6］、循环神经网络［7］、深度置信网络［8］、堆栈自编码网络［9］等，其中卷积神经网络应用最广泛。在物体识别赛ImageNet 中，2012 年AlexNet ［10］、2013 年ZFNet ［11］、2014 年VGG ［12］和GoogleNet ［13］以及2015 年ResNet，这些取得了冠军的模型都是在卷积神经网络的基础上改进的。

传统的红外目标识别系统需要人工设计特征，而基于深度学习技术的红外目标识别方法与传统方法的差异之处在于可以直接从大量训练数据集中自动学习特征，省去了传统识别算法中复杂的特征构建过程。

目前国内外已有一些将CNN 用于红外目标识别分类的相关研究中。2016 年Zhan［14］等人设计的两阶段CNN 网络架构，在合成孔径雷达红外图像分类任务中，识别率达到92.86%。2017 年Aparna［15］等人提出基于CNN 的深度学习红外图像中民用目标自动识别框架，其分类精度达到98.24%。2018 年Nasrabadi［16］等人提出一种新的基于深度卷积神经网络（DCNN）的框架，用于检测和识别前视场景中的红外目标，其准确率高达99.85%。

本文利用改进的卷积神经网络ZFNet 模型对红外目标实现自动识别。首先，介绍卷积神经网络的结构组成，接着分析在传统的ZFNet 模型上识别率较低的原因，结合红外目标特性改进网络结构，添加Dropout 层并引入空间变换网络。然后，可视化分析丢弃率对红外目标识别率的影响，并给出选取原则。在此基础上，对改进的ZFNet 模型、经典ZFNet 模型和SIFT+ELM 算法在红外目标自动识别问题上进行了试验分析。最后，对后续研究工作进行了展望。

1 卷积神经网络

1.1 卷积层

在卷积层，前一层的特征图通过卷积核参与卷积运算，将得到的结果经过激活函数处理后又形成新的一层输出特征图。每一层的输出特征图与上一层的输入特征图彼此建立卷积关系。其表达式为：

在小学教学中，足球教学质量的提高离不开学校、教师、学生三方面的共同努力。学校方面应当按照新课程改革对小学体育足球教学的要求，为学生合理地安排足球课程，并采取理论与实践相结合的方式，积极地展开足球训练。同时，教师要明确足球教学对于学生身心发展的意义，深入了解学生的身体素质，并据此制定合理的教学目标，循序渐进地提高学生的足球运动能力。除此之外，教师还要向学生积极地宣导学习足球的重要性，以激发学生学习的动力，形成学校、教师、学生三者相互配合、共同进步的足球教学体系。

（1）课后服务时间范畴。美国课后服务的时间范畴包括上学前、放学后、节假日、寒暑假等一切正常教学以外的时间。而法国、日本和韩国则只限于正常上课日在公立学校完成课表计划的学习之外的时间，一般是指放学时间15∶30之后到17∶00家长接走孩子的这段时间。

pagenumber_ebook=140,pagenumber_book=137

式（1）中，l 表示网络层序数，k 表示卷积核，m 表示特征图在初始图像上感受区域的大小，b 表示偏移量。

1.2 池化层

池化层往往配在卷积层之后使用，对上一层中提取的每一张特征图进行局部最大值或均值等操作。主要起到了降低特征图的维度、简化卷积层的输出、加快网络计算速度等作用。特征图进行池化运算的表达式为：

其中，M是一个很大的数值.如果xi大于0，那么ci必须等于1.如果xi小于0，那么ci也设置为1.ci设置为0的情况仅仅在xi为0的情况下，即是说无需调整.

式（2）中，down（）表示下采样函数，ρ 和b 表示特征图进行采样时所用的不同常数。

1.3 全连接层

卷积神经网络在最后几层通常会配上全连接层，为了将原来的高维特征向量降为低维向量，去除高维特征向量中的冗余和噪声信息，提高准确率。

CNN 中采用Dropout 技术，随机地将某些单元隐藏，使其不参与CNN 的训练过程，防止网络发生过拟合。不带Dropout 层的卷积层计算公式为：

式（3）中，b 为偏置，w 为权重，f 为神经元的激活函数。

带Dropout 层的丢弃率计算公式为：

式（5）中，Bernoulli 函数表示伯努利分布，在Dropout层，它以概率p 随机生成一个0、1 的向量。r 表示由Bernoulli 函数生成的概率向量。在网络的训练过程中，按照一定的概率将其暂时从网络中丢弃，即让某个神经元的激活值以一定的概率p 停止工作（激活值以概率p 变为0）。

将第l 层第i 个神经元的输入乘以式（5）产生的随机数作为这个神经元新的输入：

从方法和内容上看，法律与科技均具有科学性。首先，法律的制定、实施均需要科学的方法和手段。要想制定出好的法律，必须遵守科学的方法和手段，毫无章法的立法或者执法，必然导致法律成为“恶法”。其次，法律的研究需要科学的原理和方法。最后，只有科学的法律，才能更好的得到遵守，并且更好的维护社会正义。

在初中数学教学中，如果学生学会运用逻辑思维思考问题，可以让学生在面对数学问题的时候，运用合理分析、推理及论证等方法，对数学知识进行有效判断，以找出更清晰、明确的解题方法。

此时，第l 层第i 个神经元的输出为：

pagenumber_ebook=141,pagenumber_book=138

式（8）中，k 为第l 层的神经元个数。

2 ZFNet 改进

ZFNet 网络于2013 年在ILSVRC 上取得冠军，它能够对特征的边缘、物理轮廓、纹理等进行深层次的可视化学习。但本文用传统的ZFNet 模型对红外目标训练后发现识别率不高，分析主要有以下3点原因：

1）虽然加深网络层数能够使含有稀疏噪点和低分辨率图像之间的复杂关系精确地映射，但是严重引发了回传误差极限的问题，增加了模型训练和优化难度，因此，需要精简传统网络结构。

2）由于红外目标样本集缺乏，造成输入数据量不能满足更深层次的ZFNet 进行特征间的提取、学习、处理等。通常卷积操作越多，网络的适应能力越强，有利于目标特征提取，但是过多的卷积核会造成内存占用和计算量增加，且大的步幅影响分类精度。此外，如果池化方法采用不当，多层池化操作会降低目标学习特征的效率和目标的识别率，因此，需要精简传统网络卷积层和池化层的参数。

3）经典网络不能充分学习红外目标在不同仿射变换下的特征时，会影响识别的准确率，因此，需要考虑在传统网络中引入能够适应仿射变换的层次。

“品牌建设贯穿农业全产业链，是助推农业转型升级、提质增效的重要支撑和持久动力。农药行业是农业全产业链的一个重要组成环节，更加需要努力提高关注品牌建设的主体意识、自觉意识。”中国农药发展与应用协会秘书长花荣军介绍说。

经上述分析后，本文从简化经典ZFNet 模型和加入空间变换网络两个方面改进。

2.1 简化ZFNet

本文在传统的ZFNet 基础上去掉2 个卷积层和1 个池化层，改进后的模型由3 个卷积层C1、C2、C4，两个池化层P3、P5，两个全连接层FC6、FC7 和输出层组成。另外，在C1 卷积层之后加入仿射变换层，在第二个全连接层FC7 添加Dropout。改进后的网络结构参数设置如图1 所示，图中k、s、p 分别表示卷积核（kernel size）、步幅（stride）、填充（pad）。

图1 改进后的ZFNet 网络结构参数设置

由于CNN 模型需要统一大小的图像作为输入，因此，将所有的红外目标图像都归一化为64×64的尺寸作为输入图像。本文将红外目标按照不同的飞行姿态分成n 类，因此，在第7 层经过Dropout 和激活函数softmax 计算后输出n 个1×1 的神经元，即n 个结点所在类别中的概率。

2.3.4 医护工作者职业认同的工资待遇差异对医护工作者职业认同进行工资待遇的方差分析（见表10），结果表明：不同工资待遇医护工作者的职业情感、职业认识、职业意志维度得分存在显著性差异，而其他维度不存在显著性差异；工资＞5 000元的医护工作者职业认同程度高于其他医护工作者，工资3 001～4 000元的医护工作者职业认同程度最低。

2.2 空间变换网络

为了提高CNN 的特征空间表达能力和分类精度，通常在其网络结构中加入空间变换网络（Spatial Transformer Networks，STN），它主要由定位网络（localisation network）、网格生成器（grid generator）、采样器（sampler）3 部分组成。

将插入CNN 当前层的特征图U 作为输入，经过连续若干层训练（如卷积层、池化层、全连接层等），回归出空间变换参数θ，即一个大小为2×3 的仿射变换矩阵用于下一步计算。

根据已知输入特征图U 的像素点坐标位置以及仿射变换参数θ，可以求得目标特征图V 中的像素点坐标位置，数学表达式为：

式（9）中， pagenumber_ebook=141,pagenumber_book=138 表示输入特征图U 中第i 个像素点的坐标，表示目标特征图V 中第i 个像素点的坐标。由于是非整数，通过式（9）求出的目标特征图V 有可能也是非整数。因此，需要交换U 和V 的坐标位置，利用逆向仿射变换解决，数学表达式为：

该方案的缺点为：地铁车站被一分为二，对客流组织、运营管理、设备布置以及消防疏散提出了更高要求；乘客使用不方便，运营管理人员、费用将增加；车站与高架桥总宽度约46 m，占用地下空间资源较大；施工过程中增加了两排围护墙，工程造价有一定的增加。

pagenumber_ebook=142,pagenumber_book=139

经过交换坐标位置后，由式（10）可求出U 上的坐标点。为了使得到V 中的坐标点都是整数，下一步选用双线性插值求V，数学表达式为：

式（11）中， pagenumber_ebook=142,pagenumber_book=139 为表示输入特征图U 在通道c 位置（n，m）的值，为目标特征图V 在通道c 位置（xit，yit）的输出值。由于对和（xis，yis）可微，模型的损失函数能够进行反向传播，因此，STN 的参数可以通过CNN 训练来不断地修正。

结合红外目标特性，考虑到STN 可能产生额外的噪声和几何畸变，因此，将定位网络设计为一个相对简单的结构。本文设计两层的卷积和两层的池化运算，经过两个全连接层得到仿射变换矩阵，输出一个（4，1）的一维向量，再转换为2×3 的仿射变换矩阵。其中STN 的结构及参数设计如图2 所示：

图2 空间变换网络层的结构及参数设计

经过空间变换网络后得到200 个28×28 的特征图，用于下一步CNN 训练。

3 仿真试验与分析

试验平台CPU 主频3.7 GHz，内存16 GB，一块GTX1080tiGPU 显卡，采用Cuda9.2+CuDNN7.0 加速，软件平台为win10 操作系统下的Anaconda3 5.2.0 spyder+Keras2.2.4。

甲醇、正己烷、甲酸均为色谱纯；醋酸、FeCl3·6H2O、石油醚、乙二醇、无水乙醇、乙酸钠均为分析纯；羧基化多壁碳纳米管购买于南京先丰纳米材料科技有限公司(长度约30 μm，直径＜8 nm，羧基含量：3.86%)；异黄酮类标准品黄豆苷（Daidzin，纯度≥98%）、染料木苷（Genistin，纯度≥97%）、黄豆苷元（Daidzein，纯度≥95%）、染料木素（Genistein，纯度≥97%）均购买于sigma。

3.1 试验数据

本试验的数据集一部分来自红外飞机视频中截图，另一部分通过数据增广技术得到，经整理后，一共有7 131 帧图像，根据不同的飞行姿态分成15类，用于训练、测试和验证。列举其中的4 帧飞行姿态如图3 所示：

10月1日晚上，关云飞又给郭启明打来电话，对他下了最后通牒：“再有几天你和小美就要举行婚礼了，明天你和小美务必去把房款交了，如果明天你还交不了房款，我让小美马上把孩子打掉，你们就别结婚了……”郭启明再也无法承受了，他发疯一般冲出房间，来到寒风凛冽的大街上，忍不住大放悲声：“小美呀！我真心爱你，可你爹处处刁难，不就是因为我暂时没有钱吗？我该怎么办……”

图3 红外目标飞行姿态图

3.2 训练结果

对加入STN 的ZFNet 改进模型进行迭代训练，其准确率损失函数变化情况如图4 所示：

图4 模型迭代训练变化图

从图4 可以看出，训练集和验证集的损失函数始终保持在0～0.2 之间，没有太大的波动。accuracy曲线缓慢上升，最终趋于饱和。说明迭代次数越大，模型的变化范围越小，拟合状态就越稳定。

3.3 测试结果

本试验用经典ZFNet 和SIFT+ELM 及加入STN的ZFNet 方法对红外目标进行测试迭代100 次，其测试准确率结果如图5 所示。从图5 可以看出，传统的SIFT+ELM 识别性能明显低于传统ZFNet；而加入STN 的ZFNet 模型比传统的ZFNet 模型识别率高，说明加入空间变换网络后，模型能够有效地缩短特征提取时间，提高分类精度。

pagenumber_ebook=143,pagenumber_book=140

图5 3 种算法模型测试结果图

3.4 Dropout 层分析及选取原则

经典ZFNet 网络训练时，由于每步的卷积操作不同，则同样的两个神经元的状态可能就不同。任意降低两个神经元之间的相关度，就等同于减少了部分神经元之间的依赖性。如果把这个依赖性通过训练的方式转化成一个数值区间，那么在这个区间内进行自主学习就会拟合住这个相关性，进而增强整个网络的鲁棒性、稳健性。而加入Dropout 层将丢弃率预先设置为一个0～1 之间的临界值，在训练的过程中，对丢弃率数值变化进行可视化，最终可得到表现最优的丢弃率趋于一个平稳的区间。在这个区间内逐次取值后再次对网络模型训练和预测，将使状态不同的任意两个神经元之间具有较高相关性，提高模型的识别精度。

借着手雷爆炸后燃起的火光，夏国忠看见他的突击队员倒下一批又一批，他浑身的血液在燃烧，把眼睛珠子都烧红了。

在模型训练时对Dropout 丢弃率的变化趋势进行可视化，如图6 所示。

从图6 可以看出，丢弃率在（0.5，1）之间上下波动较大，容易出现过拟合现象。在（0.1，0.5）之间，随着迭代次数的增加，丢弃率快速地下降，出现欠拟合现象。在（0，0.1）之间，丢弃率逐渐趋于稳定收敛状态，说明在此区间内取值比较合适。

图6 Dropout 变化图

本文在（0，0.1）内取4 个子区间，对其准确率变化进行试验测试，结果如图7 所示：

从图7 可以看出，丢弃率取值在（0.075，0.090）区间内识别率最高，效果最好。说明在对Dropout 丢弃率进行可视化所得收敛区间的分析是正确的，试验结果证实，在此区间内取不同的丢弃率数值使得红外目标识别率有了提高。

图7 不同丢弃率下的准确率

用加入STN 且Dropout 丢弃率取0.09 和不带Dropout 层的网络迭代100 次测试，结果如图8 所示：

图8 Dropout 对识别率的影响

从图8 可以看出，加入STN 且Dropout 丢弃率取0.09 时识别率高达93.12 %，明显高于不带Dropout 层的识别结果。说明对Dropout 层丢弃率进行可视化分析确定丢弃率区间且结合STN 的改进ZFNet 模型是可行性的。

从测试集中随机抽取10 帧进行识别，其结果如图9 所示，分类结果全部正确。

pagenumber_ebook=144,pagenumber_book=141

图9 识别结果示例图

4 结论

本文将Tensorflow 后端的框架keras 运用到复杂环境下红外目标自动识别的问题上，结合红外目标特性分析改进ZFNet 网络结构并引入空间变换网络；在ZFNet 卷积神经网络结构中加入Dropout 层，并通过可视化分析得出能够提高红外目标识别率的丢弃率取值。试验结果表明，本文提出的结合丢弃率选取原则与空间变换网络的ZFNet 模型优于经典ZFNet 模型和SIFT+ELM 算法，能够实现复杂环境下的红外目标自动识别。但是，基于深度学习理论的红外目标自动识别技术仍然面临着红外图像数据缺乏的问题。后续工作考虑利用生成式对抗网络仿真出更多逼真的实验图像来训练网络，进一步完善ZFNet 模型结构，达到更好的识别效果，为红外成像制导自动目标识别算法设计提供参考。

参考文献：

［1］SUNGHO K.Infrared variation reduction by simultaneous background suppression and target contrast enhancement for deep convolutional neural network based automatic target recognition［J］.Optical Engineering，2017，56（6）：63-108.

［2］张迪飞，张金锁，姚克明，等.基于SVM 分类的红外船舰目标识别［J］.红外与激光工程，2016，45（1）：167-172.

［3］WON J J，KIM S.Rotation invariant automatic infrared target recognition using g-radon［C］//8th International Conference on Computer and Automation Engineering（ICCAE），2016.

［4］曹哲，张弓，戴为龙.结合二次Otsu 和SIFT 的光学和SAR水域图像快速配准［J］.计算机辅助设计与图形学学报，2017，29（11）：1963-1970.

［5］DING S F，GUO L L，HOU Y L .Extreme learning machine with kernel model based on deep learning［J］.Neural Computer and Applications，2017，28（8）：1957-1984.

［6］郑昌艳，梅卫，王刚.基于深度卷积神经网络的蛇形机动航迹图像识别［J］.火力与指挥控制，2016，41（5）：66-70.

［7］庞亮，兰艳艳，徐君，等.深度文本匹配综述［J］.计算机学报，2017，40（4）：985-1003.

［8］丁世飞，张健，史忠植.基于权值不确定性的玻尔兹曼机算法［J］.软件学报，2018，29（4）：1131-1142.

［9］肖可，何俊杰，刘畅，等.基于堆栈式自编码网络的电子线路分类算法［J］. 计算机应用研究，2018，35（9）：2853-2855.

［10］ZHAO B Y，WANG M J，LIU M.An energy-efficient coarse grained spatial architecture for convolutional neural networksAlexNet［J］.IEICE Electronics Express，2017，14（15）：1-12.

［11］MATTHEW Z，ROB F. Visualizing and undering and convolutional networks ［C］//Proceedings of European Conference Vision. NewYork：Springer International Publishing.2014：818-833.

［12］SIMONYAN K，ZISSERMAN A. Very deep convolutional networks for large-scale image recognition［J］. Computer Science，2014（3）：119-126.

［13］SZEGEDY C，LIU W，JIA Y，et al. Going deeper with convolutional ［C］//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society，2015：1-9.

［14］ZHAN R H，TIAN Z Z，HU J M，et al.SAR automatic target recognition based on deep convolutional neural networks［C］//International Conference on Artificial Intelligence Techniques and Applications（AITA），2016：170-178.

［15］AKULA A，SINGH A，GHOSH R，et al.Target recognition in infrared imagery using convolutional neural network［C］//Proceedings of International Conference on Computer Vision and Image Processing.Advances in Intelligent Systems and Computing，2017，460：25-34.

［16］NASRABADI，KAZEMI N M，IRANMANESH H.Automatic target recognition using deep convolutional neural networks［C］//Conference on Automatic Target Recognition XXVIII.Proc.of SPIE，2018，10648：1-13.