分享

模糊图像的显着特征

 昵称11935121 2018-10-03

介绍

由于HARA试图从农民那里收集数据,因此需要通过收集他们的身份证(也称为Kartu Tanda Penduduk或KTP)的图像来验证每个农民的身份。然后有必要确保KTP图像是可读的,即图像不模糊。通常,KTP图像是用手机摄像头拍摄的。我们将首先简要介绍数字图像处理的基本原理,然后分析模糊图像以及如何将其应用于我们的问题。

注意,投影在照相机上的图像平面(图像形成的光学透镜后面的平面)上的投影基本上是光能的连续分布。这种不断变化的光分布由计算机处理以获得数字快照。在时域中对光分布进行空间采样,然后将得到的值量化为一组有限的数值(例如256 =2⁸),以便它们可在计算机内表示。这些过程的结果是以二维有序整数矩阵的形式描述图像(图1)。

形式上,数字图像I是整数坐标的二维函数,其映射到一系列可能的图像(像素)值。直接根据图像矩阵I的宽度M(列数)和高度N(行数)确定图像的大小。

模糊图像的显着特征

图1将连续强度函数F(x,y)变换为离散数字图像I(u,v)

彩色图像基于三种原色:红色,绿色和蓝色(RGB)。通常每个主要颜色分量使用8位表示。在彩色图像中,每个像素需要24位(每种颜色8位)来编码所有三个分量,并且每个单独颜色分量的范围是[0 ... 255]。

如果(数字)图像具有良好的质量:

  • 它并不模糊;
  • 它具有高分辨率;
  • 它具有良好的对比度。

本文将特别关注模糊图像。图像模糊是由不正确的图像捕获条件引起的。例如,相机失焦,或相机和成像对象的相对运动。本文的其余部分将重点介绍如何构建模糊图像的关键特征,并根据此特征对给定图像是否模糊进行机器学习分类。

边缘检测模糊检测

线性滤波器对数字图像的卷积

为了检测模糊图像,精确理解转换数字图像的过程是很重要的。注意,通过简单的数学运算可以将高质量图像(非模糊)转换为模糊图像。如果局部强度急剧上升或下降,即相邻像素之间的差异很大,则图像看起来很清晰。在局部强度函数平滑的地方,我们认为图像是模糊的。

因此,平滑图像的一个简单方法是用相邻像素的平均值替换每个像素。这意味着为了确定平滑图像中的新像素值,使用原始像素加上它的8个相邻像素来计算这9个值的算术平均值。假设I⁰(u,v)和I(u,v)分别代表原始图像和平滑图像。然后,平滑过程可以在数学上表达如下

模糊图像的显着特征

这相当于

模糊图像的显着特征

特别地,这种数学运算被称为线性滤波器,其中通过线性表达式从一组源像素计算得到的像素。滤波器的大小是一个重要参数,因为它指定了每个结果像素值有多少原始像素。上述平滑滤波器使用3 x 3 region of support,该区域以当前坐标(u,v)为中心。具有较大support的类似过滤器将具有更强的平滑效果。

还可以为region of support中的像素分配不同的权重,以便更加强调更接近该区域中心的像素。对于任何线性滤波器,region of support的大小和形状由滤波器矩阵或滤波器掩模H(i,j)指定,其中矩阵H的大小等于滤波器区域的大小和每个元素H(i,j))指定求和中相应像素的权重。在数学上,线性滤波器H(i,j)在图像I⁰上的应用被称为卷积(图2)。

模糊图像的显着特征

图2 线性滤波器H和图像I⁰(u,v)之间的卷积产生像素值I(u,v)

模糊图像的特征

边缘可粗略地描述为图像位置,其中局部强度沿特定方向明显变化。在数学上,我们可以将关于空间距离的这种变化检测为函数的一阶导数。为了应用导数来检测边缘,导数必须是离散的。离散导数方程的每个项的权重(系数)将形成滤波器矩阵H的元素。边缘检测的另一种方法是使用二阶导数而不是一阶导数。这类中众所周知的滤波器是拉普拉斯滤波器。

注意,当使用二阶导数方法时,当曲线(通过二阶导数测量)过零时检测到边缘(图3)。

模糊图像的显着特征

图3.细线表示一阶导数,粗线表示二阶导数

不难看出,当图像不模糊时,边缘必须是锐利的,这意味着曲线必须在零轴周围陡峭。换句话说,曲线在零轴附近具有高变化。这激发了图像的拉普拉斯方差(VoL)的概念。声称非模糊图像具有高VoL值,而模糊图像具有低VoL值。该操作员应测量模糊图像的特征。

检测模糊的身份证图像

已经描述的上述方法应用于模糊ID卡图像的检测。在印度尼西亚,政府颁发的官方身份证称为KTP(Kartu Tanda Penduduk)。我们的KTP图像数据集包括514个图像(454个非模糊和60个模糊)。我们将它们分成70%的机器学习训练数据和30%的机器学习测试数据。这导致用于训练数据的360个图像(318个非模糊和42个模糊)和用于测试数据的154个图像(136个非bur和18个模糊)。请注意,我们为训练和测试数据集的非模糊和模糊KTP图像保持7:3的比例。

在这种情况下,数据分析的目标是提出一个简单的分类规则。设T是特定的VoL值,则规则可以表示如下:如果给定图像的VoL大于T,则它是非模糊图像。否则它是一个模糊的图像。

一组图像的VoL值(无论是否模糊)在某个区间内传播也就不足为奇了。绘制来自训练集的非模糊和模糊KTP图像的直方图以更好地分析数据(图4)。

模糊图像的显着特征

图4 VoL的直方图

直方图显示,与非模糊图像相比,模糊KTP图像的VoL确实具有低得多的值。非模糊KTP图像的最大VoL值是11,385,而模糊KTP图像的最大VoL值仅为295左右。然而,来自两种类型图像的VoL似乎在某些低值处交叉。注意,根据模糊KTP图像的直方图,数据点大致集中在区间[0,50]中。让我们仔细观察这些间隔的模糊和非模糊KTP图像的直方图(图5)。

模糊图像的显着特征

图5 区间[0,50]中VoL的直方图

注意,尽管非模糊和模糊KTP图像的VoL值在该间隔中具有一些交叉,但是差异仍然是显而易见的,因为非模糊KTP图像的VoL增加而模糊KTP图像稍微减小。在此间隔中,非模糊图像的模式高于40,而模糊图像的模式低于10.在10到40之间寻找阈值。经过一些不同阈值的繁琐实验,阈值T = 35给出最好的结果。然后使用阈值对来自测试数据的KTP图像进行分类,并且通过混淆矩阵示出性能(图6)。

模糊图像的显着特征

图6 混淆矩阵由测试数据集产生

注意,假阴性误差(未模糊分类为模糊)和假阳性误差(模糊分类为非模糊)均为非零。这是由于来自两种类型的图像的VoL值的集合不是严格可分的事实引起的。这种现象可能是由于手动数据标记过程中的数据噪声所致。

结论

本文探讨了一种表征模糊图像的方法。为了检测模糊,基于拉普拉斯算子的边缘检测算子应用于给定图像,然后是方差算子,这导致所谓的拉普拉斯方差。据称,与非模糊图像相比,模糊图像的VoL值较低。该方法用于检测模糊的KTP图像。KTP图像的VoL值的直方图倾向于支持该声明,尽管由于一些小的VoL值实际上在某个间隔处交叉存在一些问题。训练数据用于搜索阈值T,该阈值T寻求最小化由混淆矩阵从测试数据报告的假阴性和假阳性误差。

已经描述的方法仍然远非严格和有效。未来的发展可能会考虑使用优化和统计学习。可以制定成本函数,其量化误差分类,其中参数是阈值。基于梯度的算法将找到最佳阈值,使得成本函数达到其最小值(或接近最小值)。这样的策略将消除繁琐的实验,设计师可以将更多时间集中在机器学习模型构建上。模糊图像也需要更多数据。理想情况下,应该有大致相同数量的模糊图像以及非模糊图像。这将有助于评估分类器是否优于弱学习器(分类器不比随机猜测好得多)。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多