VALSE2017系列之四：目标跟踪领域进展报告

taotao_2016 2017-05-22

展开全文

深度学习大讲堂是由中科视拓运营的高质量原创内容平台，邀请学术界、工业界一线专家撰稿，致力于推送人工智能与深度学习最新技术、产品和活动信息！

编者按：目标跟踪是计算机视觉领域的一个热门研究方向，同时在产业界也具有广阔的应用前景。过去几十年来，目标跟踪方法经历了从卡尔曼滤波等经典跟踪方法，到基于检测或相关滤波的方法，再到深度学习相关方法的演变历程。

作为目前广泛使用的目标跟踪基准研究平台（Tracking Benchmark）的创建者，来自南京审计大学的吴毅老师将带着大家回顾目标跟踪领域近几年的研究进展。

大讲堂特别在文末提供文中提到的所有文章以及该研究平台的下载地址。

目标跟踪就是在连续的视频序列中，建立所要跟踪物体的位置关系，得到物体完整的运动轨迹。

在计算机视觉领域中，视觉跟踪（Visual Tracking）一般是指对单目标进行跟踪：

在第一帧图像给定目标的状态，一般是目标的bounding box信息，然后预测之后每帧图像中目标的状态，对应的也是目标的bounding box信息。

本文将从三个方面介绍视觉跟踪领域最近的进展：基于深度学习的目标跟踪研究进展、基于相关滤波器的目标跟踪研究进展、以及其他的方法介绍。

基于深度学习的目标跟踪

较早运用深度学习方法进行目标跟踪的是王乃岩在NIPS2013的工作。

当时卷积神经网络在计算机视觉领域还没有完全开展起来，当时他们使用一种自动编码器，在100万张的32*32的图像上离线训练目标的表示，然后运用到目标跟踪任务上。

在2015年，王乃岩继续将卷积神经网络运用到目标跟踪任务中，采用卷积神经网络输出50*50的heatmap来表示每个像素是否处于目标之内的概率。卷积神经网络模型运用的是ImageNet数据集预训练的模型，然后在线进行更新，跟踪时运用两个卷积神经网络，采用不同的更新策略。

在OTB50数据集上，与传统采用手工设计的方法相比较，该方法性能有了极大的提升。

随着深度学习的火热，从2015年开始，利用深度学习进行目标跟踪的研究工作越来越多。

马超在ICCV2015的工作是将卷积神经网络中不同层的特征图结合起来，在相关滤波框架下进行跟踪。

在浅层的网络中，空间的分辨率较高，但是特征的语义信息比较少；随着卷积神经网络层数的增加，从深层网络提取的特征语义信息越来越丰富，但是空间的分辨率就会越低，不利于对目标的定位。所以融合不同层的特征，有利于提高目标跟踪的精度。

这是大连理工大学卢湖川老师在ICCV2015的工作，将全卷积网络用在目标跟踪上，运用卷积神经网络不同层之间的特性，对网络中不同层的特征进行融合，提高了目标跟踪的性能，该网络在OTB50上取得了不错的结果。

CVPR2016上提出的MDNet方法在多个数据集上都取得了非常好的结果，该网络具备如下特点：

MDNet通过卷积神经网络学习性能很强的分类器，将目标和背景分开。
其网络结构输出K个全连接层，对应K个用来训练的序列。
训练的时候每次选出一个序列，更新对应的分支全连接层和内部共享的隐含层。
为了提高分类性能，该模型挖掘有难度的负样本来构造训练的minibatch。
在跟踪时，采用边框回归来提高网络的精度，定位时通过在上一帧采样N个候选，然后将分类结果最好的一个候选作为目标位置。
该网络的缺点是速度慢，在NVIDIA Tesla K20 GPU上速度是1帧/秒。

虽然运行时间慢，但是该网络的精度非常高，在OTB50和OTB100上都取得了非常好的结果。

近期美国天普大学凌海滨老师对MDNet模型进行了改进，在网络中采用循环神经网络对目标自身结构进行建模。

该网络在OTB100上取得了不错的跟踪结果。

孪生网络

CVPR2016上提出了一种通过相似性学习的方式进行目标跟踪的孪生网络。其最大的特点是，该方式训练好的网络直接在跟踪上使用，不需要更新。网络同样采用了不同层的特征融合和边框回归来提升目标跟踪的性能。

该网络也是取得了不错的结果。

在ECCV2016上也有一篇采用孪生网络的工作，与上一篇不同之处在于，这篇采用全卷积网络。

其优势在于：只需要一次前向操作，通过cross-correlation layer就可以得到所有卷积区域的得分；对于搜索图像也不要求必须和目标的图像大小一致。

该网络在VOT2015数据集上取得了不错的结果，由于采用了全卷积网络的结构，和其他基于深度学习的方法相比，速度具有很大的优势。

在ECCV2016上还有一个采用深度回归网络进行目标跟踪的工作，与目标检测中基于回归方法的卷积网络有些类似，这个方法直接对目标位置进行回归。

与其他基于深度学习方法的目标跟踪相比，该方法具有如下特点：

由于直接对目标位置进行回归，其速度上会有更大的优势。
改变了其他方法提取第一帧的作为参考模型方式，而在前一帧的目标位置提取参考模型，提取的目标patch里还含有一定的背景context信息
在线跟踪的时候网络模型不用进行更新
在训练的时候不仅采用了视频输入，同时还采用了静态图像输入，图像采用的是ImageNet检测挑战的数据集来进行训练，因此特征提取更加细腻。

与其他基于深度学习的方法相比，该模型主要的优势是速度快，在GTX Titan X GPU上运行超过100帧/秒。

最近发表的另外一些基于深度学习的目标跟踪工作，最下面的一篇是采用CNN和LSTM进行结合的方式。

这篇CVPR2010的工作最早将相关滤波器运用在目标跟踪任务上，这个方法是从信号处理的角度来进行推导的，叫误差最小平方和滤波器（MOSSE）。

该方法最大的优势是可以采用快速傅里叶变换进行计算，在目前主流的CPU上运行速度应该可以超过1000帧/秒。

在ECCV2012的这篇论文是从机器学习的角度，利用循环矩阵进行分析推导，利用快速傅里叶变换进行快速求解分类。

从机器学习角度进行分析的好处是可以采用kernel trick来提高性能：

kernel可以选择不同的类型，比如高斯kernel、线性kernel等等。当使用线性kernel的时候，就得到了前文提到的MOSSE。

这是在CVPR2013 benchmark工作上给出的性能分析，当时就已经发现基于相关滤波的目标跟踪很有潜力，速度非常快，性能也不错。在性能最好的十个跟踪方法中该方法最快，在速度上具有一个数量级的优势。

从2014年开始，基于相关滤波的跟踪研究方法成为目标跟踪的一个热点。其中，来自瑞典的Martin做出一系列不错的工作。

这里简要介绍一下Martin在ECCV2016和CVPR2017 的两个工作。

传统的相关滤波训练的时候，需要特征图具有相同的分辨率。

Martin在ECCV2016提出了将不同空间分辨率特征进行有效融合的方法，通过采用连续卷积操作，来进行隐式的特征图的插值计算，从而解决了针对不同分辨率特征图的训练问题。

该方法在OTB100和Temple-Color都取得了非常好的结果。

ECO是Martin最新的工作，该方法的创新点如下：

之前方法学习到的滤波器往往比较稀疏、能量值低，针对深度卷积神经网络输出的特征，这些能量值低的滤波器对于目标定位的作用不大。

于是作者提出了一种降维的方法，使用较少的滤波器就可以获得目标跟踪结果，这样可以大大提高运行速度。

同时在训练样本上，该模型也采用了一个更好的策略，保证了样本的多样性。

该模型在OTB100上取得非常好的结果，相比MDnet而言，无论是精度还是速度都有了很大的提高。即使只采用传统的视觉特征，也可以达到很好的性能。

最后是另外的一些相关工作。

我们知道一个好的数据集对某个方向上的研究具有极大的提升，比如ImageNet数据集对目标分类、检测任务有很大的贡献。最近，目标跟踪领域又发表了一些数据集。

比如说在ECCV2016上的无人机航拍的数据集。

这是吴毅老师最近和颜水成老师合作的NUS-PRO数据集。

以及Google发布的YouTube-Bounding Boxes数据集，该数据集适用于在视频的目标检测任务、以及目标跟踪算法的训练和测试。

整个数据集有24万个视频，标注了560万个bounding boxes。由于该数据集规模很大，将有利于目标跟踪的深度学习模型的训练。

上图为AAAI 最佳论文，在目标跟踪上进行了方法的验证。该工作用一个先验模型约束神经网络学习，以减少对样本量的需求。

上图列出了一些最近的其他目标跟踪工作，比如人眼跟踪、人脸跟踪以及行人跟踪等等。

最后，大讲堂喜大普奔地告知各位小伙伴：

吴老师的目标跟踪基准研究平台已经开源，该研究平台包含跟踪测试数据集、一些经典跟踪方法的代码以及跟踪结果评测和可视化的代码。欢迎访问:

http://www.（需要翻墙哦）

翻不了墙的小伙伴们，请尝试如下链接：

http://cvlab./tracker_benchmark/

文中提到的所有引用文章下载链接为：

http://pan.baidu.com/s/1pKAJOtP

致谢：

本文主编袁基睿，诚挚感谢志愿者宁方鑫、贺娇瑜、李珊如对本文进行了细致的整理工作。

该文章属于“深度学习大讲堂”原创，如需要转载，请联系 astaryst。

作者介绍：

吴毅博士，南京审计大学“润泽学者”。2004年至2009年在中国科学院自动化研究所模式识别国家重点实验室学习，获模式识别与智能系统专业博士学位。2006年11月至2008年1月曾在Intel中国研究中心进行访问研究。2009年7月到南京信息工程大学参加工作。2010年5月至2012年6月曾在美国天普大学（Temple University）进行博士后研究。2012年7月至2014年4月曾在美国加州大学默塞德分校（University of California, Merced）进行博士后研究。目前主要从事计算机视觉、机器学习等方面的研究，是IEEE TPAMI，IJCV，IEEE TIP等国际期刊以及CVPR，ICCV，ECCV，IJCAI等国际会议的审稿人。目前已在IEEE TPAMI, IEEE TIP等期刊以及ICCV，CVPR，AAAI等国际会议上发表学术论文三十余篇。据Google Scholar的不完全统计，所发表论文的引用已达3200余次，其中发表在CVPR 2013和TPAMI 2015的Tracking Benchmark工作引用已达1500余次。