视频质量评价各种数值---十八个客观测试的方法对比

主观和客观测试

主观测试是视频分析的黄金标准，因为它使用的志愿者比较视频测试序列已被处理，如视频，经过压缩或传输过程中的失真或丢失了。因为它使用的实际的志愿者，主观测试被认为是一个非常准确的人类视觉系统模型。不幸的是，主观测试是非常昂贵的，很难做到正确。因为每个人都有对图像质量的不同看法，多个志愿者必须确保测试结果有统计学意义。大量的时间可以收集所需的考试科目的数量和实际执行测试消耗。测试的结果是有效的，观察条件必须严格控制来消除，可以通过正确的观察角度和距离，照明不当介绍可能的偏见，或其他可能影响测试的可靠性和重复性的因素。

目的测试使用的数学技术对图像进行分析，以模拟主观测试结果。已经开发的算法来分析图像（或图像），可以独立或与已知的参考图像比较（或序列）。目的测试是高度可重复的，这样的算法会产生相同的结果时提出的输入图像相同的设置。相比于主观测试、客观的算法可以运行非常快，无需人工干预。有了合适的硬件，根据算法被应用的复杂性，客观结果可以得到实时而视频播放。这些因素结合起来，减少客观测试成本的主观测试的成本的一小部分，这使得重复和在役检测的最佳选择。

当图像质量测量结果的报告，这是通常使用的平均意见得分（MOS）规模或差异（或差）的平均意见得分（DMOS）规模。MOS规模是基于观众级图像的方式，从“不可接受的”（看）到“优秀”（完美）。DMOS比较两图像已使用MOS评估标准。在比较两图像的一个是高质量的原创，和其他已经以某种方式降解，两幅图像的MOS得分的差异量给出DMOS评分说明严重的图像已经退化。

结构相似度（SSIM）

SSIM的开发是为了更准确地模拟人类感知的图像质量比以前使用的数学模型的方法。MSE和PSNR的体重每改变像素值一样，这个变化是否会被人类观察者明显。这种平等的权重，例如，导致较高的分数差异是由于一副图像的亮度或对比度的变化，尽管这种变化并不是人类观察者尤为重要。SSIM更可能得分的图像对同样的，由于两图像的结构将密切配合（见图A到E的例子）。

方法比较三个主要方面对图像导出测量如何不同，他们会出现人类观察者：

–亮度变化，比较两图像的亮度。人类的视觉系统是不是对图像亮度的绝对水平特别敏感，但对中的两个图像之间的亮度差异的敏感。

–变化相反，看起来在光明和黑暗的两个图像之间的差异程度。在亮度的情况下，人的视觉系统不在图像对比度差的绝对量特别敏感。

–相关，其中比较基本的结构（由局部亮度模式为代表）的两个图像是否相似或不同，因为它们将出现人类观察员。这实际上是测量确定相关的参数被称为“协方差”两图像。如果图像是密切配合，那么协方差就高；两个形象不同的协方差降低区。（注意，这一步是在图像的平均亮度被扳平和两图像的整体对比正常了。）

SSIM过程开始的两个图像是比较被缩放到相同的尺寸和分辨率，允许像素对像素的比较。然后，一个固定大小的窗口，选择其中的数学比较以图像内的地方。每三个方面阐述了上述测量，然后结合成一个整体的评分表示图像的质量水平。在每一比较，窗口移动到图像的另一部分，然后重复。每个窗口的位置得分累计平均产生一个图像差值（表示为DMOS）的整体形象。

人物通过E说明SSIM在MSE图像评价的优势。图像（德克萨斯大学的实况图像数据库）是实现类似MSE分五种不同的方式扭曲，但完全不同的MS-SSIM。人物通过F显示原作为第一个例子和扭曲的图像按照系列。图B增加了对比度，C已经模糊，D具有高斯噪声增加，E和F显示JPEG压缩、椒盐噪声增加。在每一种情况下，分数显示的MS-SSIM更好的跟踪和匹配与感知的图像质量与原比MSE的能力。

图一–原

图B–增加对比度–MSE = 74.57，MS-SSIM = 0.9956

bikes2

图C–模糊–MSE = 75.35，MS-SSIM = 0.6609

bikes_blur1

图D–高斯噪声–MSE = 74.57，MS-SSIM = 0.9592

图E–JPEG压缩–MSE = 77.90，MS-SSIM = 0.6609

图F–椒盐噪声–MSE = 75.64，MS-SSIM = 0.4145

im_sp1

多尺度SSIM（MS-SSIM）

用SSIM作为基础，MS-SSIM延伸技术通过在不同的图像尺度多SSIM图像评价。这是通过反复多次进行图像分析来完成的，每一个连续的图像对进行下采样，从以前的迭代两个因素。一个概念，把MS-SSIM发展观察，SSIM性能依赖于图像的尺度，包括图像的观看距离的变化。随着MS-SSIM，图像的规模变得不那么重要，到图像已经转换或下变频（说从高清晰度标准定义）仍然可以客观地比较。

该MS-SSIM过程始于程序SSIM相同，在这两个图像被比较的是比例相同的尺寸和分辨率，亮度和对比度归一化，然后分析了使用一个滑动窗口。比较图像，使用相同的标准方法：亮度变化，变化的对比，以及相关（或结构）。每个比较的分数的积累，然后图像下采样，并比较重复。这个过程持续了一个固定的迭代次数；对于大多数实现，之间的三和五是用迭代。

因为有比较结果从各种图像的尺度，结果必须结合成一个整体得分为图像。由于扭曲的影响人类感知的图像大小不一，不同的权重给每个图像尺度的结果。这些权重是由使用多个图像集和人类观察者，告诉他们识别图像在不同尺度的感知失真量相同的实验。这种分析的一个有趣的结果是，亮度比较只需要在最小的规模（最原始）而对比和结构的比较，在每个图像规模累计。

证明MS-SSIM地分析系统的额外的工作量，结果一定会更好。这是事实，一些研究已进行详细的在下面的章节中所示。需要注意的是，相对的提高MS-SSIM SSIM是类似的改进，取得了相对的PSNR SSIM有趣。与处理能力，可在今天的测量设备，相对于增加的精度，可以通过算法实现使用价值MS-SSIM增量成本低。

MS-SSIM与SSIM的号码

几个大型的测试已经完成，评估SSIM和MS-SSIM提供客观的分数最接近的一组图像对主观评分的能力。越接近比赛，更客观的算法是模拟人类的观众会对相同的图像。

该试验开始于一套高质量的图像。这些图像进行处理，添加各种类型的失真，和池测试图像创建。志愿者然后对画面进行主观测试池中创建一个结果集。第二组的结果是通过客观测试得分也所有的图像在池中创建的，原始和退化。这两组的结果进行比较。如果这两组的结果在数学上是相关的，这意味着客观的测量方法是一个很好的预测人类将率图像查看器。更高水平的相关性或较低的残差（变异量后，被删除的相关性仍然）表明了目标模型更好的性能。

这个测试过程的每个目标进行重复试验。（在现实中，主观测试进行一次同样的结果集是用于每个比较）。所以，例如，如果目标是比较SSIM算法的性能对MS-SSIM，然后评估过程将做两次：第一SSIM结果会比较主观的测试结果，然后MS-SSIM结果会比同主观的结果。这些比较的结果可以被检查，确定该算法与主观更密切相关（人类）的结果。这是用在结果，看着各种形式的客观测试三大集的过程。

第一组结果发表在一篇题为“图像质量评价”由Z. Wang的多尺度结构的相似性，E. Simoncelli和A. Bovik；一纸邀请为第三十七届IEEE Asilomar会议信号、系统与计算机，在帕西菲克格罗夫举行，CA，十一月9-12日，2003。在本文中，MS-SSIM相比，峰值信噪比和通过比较每个人，从13到25的MOS数据平均主观评分是由人类观察者获得的344幅图像的主观测试结果的SSIM算法。

模型	非线性回归相关系数	等级相关系数	Mean Ab— 溶质的错误	均平方误差	离群比例（%）
PSNR	0.905	0.901	6.53	8.45	15.7
SSIM（M = 2）	0.963	0.959	4.21	5.38	2.62
MS-SSIM	0.969	0.966	3.86	4.91	1.16

五结果给出了每个算法在上表中的评估。第一个结果与主观结果的相关算法，具有更高的价值是一个更好的成绩。剩下的三的结果显示，没有解释的主观数据的变化量（“错误”）的目标算法。每一个的五个标准，MS-SSIM是最好的表演者。

注：上表中，SSIM结果注释与“M = 2”。在这个特殊的测试，SSIM算法运行在原始图像以及对图像被缩小，从原来的。计算了五套SSIM结果，M表示图像尺度的计数器，其中值M = 1表示没有使用降尺度，和值M = 5表示该图像已缩小四倍。结果表显示为M = 2的结果，因为这是最好的结果，得到了用于不同尺度SSIM五。

第二组的结果，这是在http://www./tid2007.htm上线，比较了十八种不同的客观测试方法。本试验采用可能最大的图像主观评价所编译的结果，与838人的观察员执行512856个评价图像对视觉质量的总相对。共有25个参考1700个扭曲的图像进行测试。

十八个客观测试的方法是在这一大的主观评价结果数据库的比较。相关分析不同类型被用来做比较的：Spearman和肯德尔。客观结果与主观结果高度相关（即更贴近人类的观察）排名高于下表。十八的目标模型进行了评价，MS-SSIM排名最高的相关试验。

秩	措施	Spearman相关	秩	措施	肯德尔相关
1	MS-SSIM	0.853	1	MS-SSIM	0.654
2	SSIM	0.808	2	SSIM	0.605
3	VIF	0.750	3	VIF	0.586
4	视频信噪比	0.705	4	视频信噪比	0.534
5	vifp	0.655	5	vifp	0.495
6	NQM	0.624	6	psnr-hvs	0.476
7	UQI	0.600	7	NQM	0.461
8	psnr-hvs	0.594	8	psnr-hvs-m	0.449
9	XYZ	0.577	9	UQI	0.435
10	IFC	0.569	10	XYZ	0.434
11	psnr-hvs-m	0.559	11	IFC	0.426
12	psnry	0.553	12	psnry	0.402
13	PSNR	0.525	13	WSNR	0.393
14	MSE	0.525	14	linlab	0.381
15	信噪比	0.523	15	信噪比	0.374
16	WSNR	0.488	16	DCTune	0.372
17	linlab	0.487	17	PSNR	0.369
18	DCTune	0.476	18	MSE	0.369

结果第三组来自一篇题为“主观和客观的K. Seshadrinathan等人的视频质量评价的研究，这是发表在2010年6月在IEEE信号处理。在本文中，使用了四套视频序列；各一套，模拟无线网络数据丢失引起的劣化，IP网络丢包，H.264压缩，和MPEG-2压缩。摘要结合所有的数据从四个图像集，还制作。

本文研究表明MS-SSIM比PSNR和SSIM，总结在下表四。第一个表显示相关的两个不同的措施，分数越高意味着更高的相关性。较高的相关性，表明目的算法更符合主观测试做的人类观察者，从而表明该算法更能够模仿人类的评分。第三和第四表显示残差的方差，得分较低的是更好的。总的来说，在这四个表的数据显示了一个实质性的，在客观评分的图像MS-SSIM更接近人类观察者的能力显著提高。

Spearman等级相关系数

算法	无线	IP	H.264	MPEG-2	所有数据
PSNR	0.4334	0.3206	0.4296	0.3588	0.3684
SSIM	0.5233	0.4550	0.6514	0.5545	0.5257
MS-SSIM	0.7285	0.6534	0.7051	0.6617	0.7361

线性相关系数

算法	无线	IP	H.264	MPEG-2	所有数据
PSNR	0.4675	0.4108	0.4385	0.3856	0.4035
SSIM	0.5401	0.5119	0.6656	0.5491	0.5444
MS-SSIM	0.7170	0.7219	0.6919	0.6604	0.7441

个人主观评分和VQA算法预测之间的残差的方差

算法	无线	IP	H.264	MPEG-2	所有数据
PSNR	189.77	171.83	193.18	179.04	201.07
SSIM	180.59	164.33	166.02	165.83	184.99
MS-SSIM	156.77	140.78	159.37	152.21	153.97

方差的残差之间的VQA算法预测和DMOS值

算法	无线	IP	H.264	MPEG-2	所有数据
PSNR	86.87	75.66	97.84	81.78	101.55
SSIM	77.46	67.91	69.98	68.24	85.36
MS-SSIM	53.07	43.58	63.15	54.30	54.15

要理解为什么MS-SSIM比SSIM，考虑什么是–模拟人类视觉系统（HVS）是很有帮助的。人类是善于识别物体在自然环境中的多尺度，这就是为什么我们可以很容易地识别面孔的人我们知道他们是五英尺或五十英尺远从美国。扭曲，是由现代压缩视频传输系统也经常多介绍，这样他们也可以更好地评估使用MS-SSIM。更重要的是，SSIM分解如果视频分辨率改变即按比例缩小或，或如果观看距离的图像变化。对MS-SSIM表现没有这些限制。”

结论

虽然没有争议的评价图像和信号的主观测试的最终优势，这样的测试是很难做的正确，是非常昂贵的，并且是相当耗费时间。因此，如果一个合适的目标检测算法可以发展密切配合的结果，将与主观测试获得，然后客观的算法可用于简化和自动化的视频图像的比较。一个附加的好处是客观测试的可重复性，因为一个算法将总是返回一个给定的图像对相同的结果。这使许多形式的测试是困难或昂贵的是主观的测试，如微调配置视频压缩编码器和解码器对。重复性还允许测试设备位于不同的点分布网络内创建的结果，可以比较和分析比较各种技术和交付网络供应商的质量。
本文的结果清楚地表明，MS-SSIM代表了SSIM的重大改进，使它在今天使用的最准确的客观图像测量技术。基于总结研究，那些需要关键的图像质量测量应用户选择更具代表性，在好的地方测试准确MS-SSIM，但取代了SSIM。在组织规模MS-SSIM是视频清晰度的Clearview的产品线，它提供了一个全面的工具集，用于测量音频和视频质量。