一篇搞定目标检测YOLO v1到YOLO X算法（附代码数据集）

InfoRich 2022-08-03 发布于重庆

展开全文

yolo广泛应用在各种目标检测落地领域中，不仅是人脸，自动驾驶，也可以进行动物界目标检测。其应用之广泛，不会让你学了没处用。从yolo上手掌握同类目标检测算法是比较快速的。

学算法先读paper，下面是YOLO v1到YOLO X的论文解读（就是划侧重点，同时附带代码➕数据集➕论文原文➕精读直播【附带资料在文末】）。

YOLO v1

2015年Redmon等提出了基于回归的目标检测算法YOLO(You Only Look Once),其直接使用一个卷积神经网络来实现整个检测过程,创造性的将候选区和对象识别两个阶段合二为一,采用了预定义的候选区(并不是Faster R-CNN所采用的Anchor),将图片划分为S×S个网格,每个网格允许预测出2个边框。

对于每个网格,YOLO都会预测出B个边界框,而每个边界框YOLO都会预测出5个值,其中4个代表边界框的位置,还有一个代表框的置信值。

YOLO的网络结构示意图如图10所示,其中,卷积层用来提取特征,全连接层用来进行分类和预测.网络结构是受GoogLeNet的启发,把GoogLeNet的inception层替换成1×1和3×3的卷积。

最终,整个网络包括24个卷积层和2个全连接层,其中卷积层的前20层是修改后的GoogLeNet。网络经过最后一个FC层得到一个1470×1的输出,7×7×30的一个张量,即最终每个网格都有一个30维的输出,代表预测结果。

YOLO优点:

(1)将目标检测问题转化为一个回归问题求解。结构非常简单,直接使用一个卷积神经网络实现同时预测边界框的位置和类别;
(2)速度非常快,可以实现视频的实时检测;
(3)泛化能力强,能学习到高度泛化的特征,可以迁移到其他领域。

YOLOv2

Redmon等对YOLO网络结构做修改提出了YOLOv2方法,YOLOv2用DarkNet-19用做基础网络,包含19个卷积层、5个最大值池化层。

YOLOv2网络通过在每一个卷积层后添加批量归一化层(batch normalization),同时不再使用dropout。

YOLOv2引入了锚框(anchor boxes)概念,提高了网络召回率,YOLOv1只有98个边界框,YOLOv2可以达到1000多个。

网络中去除了全连接层,网络仅由卷积层和池化层构成,保留一定空间结构信息。结果mAP由69.5%下降到69.2%,下降了0.3%,召回率由81%提升到88%,提升7%。尽管mAP略微下降,但召回率的上升意味着模型有更大的提升空间。同时利用K-means聚类,解决了anchor boxes的尺寸选择问题。

YOLO9000

YOLO9000是基于YOLO的改进版本,YOLO的不足是：

ａ）利用全连接层的数据对边框进行预测会丢空间信息,导致定位不准,并且设定一个网格只检测两个边界框,合理性不足；

ｂ）相对于two-stage检测,召回率较低。YOLO9000解决了这两个主要问题,去掉全连接层,目的是引入anchor框的思想,在每一个网格中设定九个anchor框,并对anchor框使用了K-means聚类,使其自动地找到更合适的anchor框,提高了召回率,从81%提高到88%。

网格分辨率也从YOLO的7×7改为了13×13,增加特征图的细粒度,可以更好地检测小目标。YOLO9000中尝试加入了批量规范化层（batch-normalization,BN）,对数据进行规范化处理。

对于神经网络,每层的分布都有变化,通过对上一层的输出进行均衡规范数据分布,就可以起到加速训练的效果。并且通过规范化输入,降低激活函数在输入区间上达到饱和的概率,来规避梯度消失现象。

YOLO9000采用的网络是DarkNet-19,卷积操作比YOLO的inception更少,减少计算量。该算法mAP达到76.8%,并且速度达到40fps。