VOT2016标准介绍

黑尘子 2017-12-04

展开全文

现在比较流行的跟踪Benckmark有OTB、VOT、KITTI-tracking，之前的算法测试都进行在OTB（Visual Tracker Benckmark）上，考虑到现在VOT的流行程度不亚于OTB，并且VOT每一年都会有更新。VOT16并没有更新图像数据，而是更新了标注的方法。这篇博客主要介绍VOT的评价方法，会结合实验数据介绍官方SDK的代码。

VOT概述：
图像评价标准的选取：
评价指标的效果评估
VOT中使用的评价标准
- EAO
- EFO
测试自己的Tracker

VOT概述：

VOT13、VOT14、VOT15、VOT16，每一次都有很大变化，VOT13只有16组序列，而当时OTB-50刚刚出来，所以VOT13没多大影响力，VOT14比VOT13增加样本集至25组，并且重新标注了样本，选取多边形区域进行标注，能反映出OTB反映不了的问题，这才收到大家的关注，不过大家当时还是看OTB多一些。VOT15扩充样本集至60组，并开设了tir热成像跟踪子系列，其评价方法也有改变，VOT15开始火起来了。到VOT16，没有对样本集做修改，只是使用了自动标注样本的方法对样本重新标注，VOT已经成了跟踪领域顶会必须拿出的指标了。

现在做跟踪必须要拿VOT中的评价标准说明问题，它与OTB比起来更加好用，更能反映问题，所以这篇博客将对VOT中的评价指标进行详细的介绍。我们首先对图像跟踪的评价标准做全面的介绍：

图像评价标准的选取：

VOT最终选取了精度和鲁棒性两个指标，因为在图像跟踪的若干评价标准中，这二者的相关性最弱。

中心误差：Center Error

中心误差标准值考虑目标中心位置的误差，该方法具有明显的缺点，就是无法衡量目标尺度变化的影响。另外，目标中心的意义有时候不是很明确（如下图）。

区域重叠：Region Overlap

区域的重叠率是使用重叠面积的比例进行衡量的

ϕ=RGt⋂RTtRGt⋃RTt

在区域重叠指标上，我们一般使用有效帧的重叠率做平均。除此之外，我们还可以使用重叠率阈值以上帧的比例作为标准：

跟踪长度：Tracking Length

这一指标是基于中心位置误差的，从跟踪开始到中心像素误差下降到阈值以下的（帧数）长度定义为跟踪长度。

失败率：Failure Rate

在视频跟踪处理的一段序列中，当重叠率低于阈值τ时，则判定为跟踪失败，并重新初始化目标框，在这段视频中，跟踪失败的次数以及跟踪失败的位置fi可以被记录下来，则失败率Fτ可以被表示为：

该公式的意义非常明确，每一段的跟踪长度越短，则失败率越大，最后一帧的失败将不会带来影响。

混合测量：Hybrid Measures

定义了几种混合各种参数的指标，Combined Tracking Performance Score (CoTPS)。在博客最后给出的参考文献中，对这一指标的计算方法进行了改进：

CoTPS=(1−λ)(1−ϕ^+λ20)

其中ϕ^表示跟踪成功帧的平均重叠率，λ0是失败帧占得比例，这样就将跟踪精度和成功失败率结合起来了，这个分数越高越好。

效果图：Performance Plot

常用的效果图有area-under-the-curve (AUC)曲线，该曲线和ROC曲线表达的含义差不多，也就是OTB中成功率图的表示方法。

小结

前面介绍了几种基本的评价方法，很多评价方法都是根据上面几种基本的评价方法计算得到，这个可以参考文末给出的参考文献。那么问题来着，这些评价指标中，哪些评价指标是有效的呢？

评价指标的效果评估

这一部分主要是介绍评估哪些标准可以更好的用来评估跟踪算法，我们才会推荐使用这些指标来衡量跟踪算法的性能。下面图中给出了几种指标可视化示意图，其中能反映出许多问题，也就是说标准选取的重要性。

参与评估的标准

于是我们分析如下16种视频跟踪算法评价标准的相关性，并最终给出一个合适的评价标准，使得跟踪算法的效果可以被更有效的评估。具体细节参考最后给出的参考文献。

评价标准的相关性分析

使用上述16个标准，对样本集中的所有指标的数值，计算协方差矩阵，协方差矩阵就代表了评价标准的相关性。下图是协方差矩阵的可视化：

1 是三种中心误差评价方法

2 包含了平均重叠率，正确跟踪帧的百分比等标准

根据相关性分析，相关性最小的两个指标是失败率和失败后重新初始化的重叠率。后面将对这一对指标进行分析。

准确率与鲁棒性：Accuracy vs. Robustness

这就是VOT中使用的标准了，A_R pair，AR曲线、AR图、AR排序图等等，说的就是这两个指标。

A：重叠率，就是跟踪成功状态下的平均重叠率

R：鲁棒性，按照如下公式计算

鲁棒性数值RS=e−SM，其中M是平均失败次数，M=F0N，N是序列的长度，F0是失败总次数。

这里参数S是手工选择的参数，意义就是预期可以连续跟踪$lates S$帧

A-R图结果：A-R plots

VOT中使用的评价标准

EAO

Expect Average Overlap Rate，是用来评价性能的。

处理使用A-R plot，还有一种是A-R Ranks plot，就是下面右边的那张图。

于是这就是我们最终在VOT相关的Paper上看到的图了。

EFO

Equivalent Filter Operations，EFO是用来评价性能的，因为性能的比较常常因为计算机性能不同而不够直观，EFO评价标准考虑到了这一点，使用600×600的图像，做30*30窗口的滤波，来得到机器的性能。然后使用跟踪算法处理每帧图像的评价时间除以以上滤波操作的时间，得到了一个归一化的性能参数，就是EFO，是VOT14提出的标准，一直沿用到现在。

EAO与EFO就构成了VOT16的跟踪算法评价标准。