《档案学研究》2017年第2期
纸质档案数字化成果原始分辨率篡改的检测方法
沈渊飞
1
金雷
1
余兆力
1
应宏微
2
(1宁波市档案局浙江宁波315010;2宁波工程学院浙江宁波315211)
DetectionofOriginalResolutionTamperingin
DigitalResultofPaperRecords
摘要纸质档案数字化成果的原始分辨率是光学字符识别(OCR)精度的重要影响因素,为保证档案图像的原始分辨率大
于等于300dpi,在档案预检阶段需检测出较低原始分辨率被篡改为较高分辨率的档案图像。针对图像文件头篡改、
图像内容插值等多种分辨率篡改手段,分析它们的篡改机理,设计了由文件头检测、图像频率域分析、图像质量客观
评价多方案组成的综合的篡改检测策略。在宁波市档案局的测试数据库上显示,所提出的原始分辨率篡改检测方法
取得了很好的效果。
关键词纸质档案数字化成果分辨率篡改
DOI:10.16065/j.cnki.issn1002-1620.2017.02.020
Abstract:Theoriginalresolutionofthedigitalresultofpaperrecordshasasignificantinfluenceonthe
accuracyofopticalcharacterrecognition(OCR).Inordertoensurethattheoriginalresolutionofarchives
imageisgreaterthanorequalto300dpi,itisnecessarytodetectoriginallowresolutionofarchivesim-
ageswhichweretamperedtohighresolutioninthepre-inspectionstage.Severalresolutiontamperingmeth-
ods,likefileheadertamperingandimageinterpolation,areinvestigatedbyanalyzingtheirtamperingmech-
anism,andthecomprehensivetamperingdetectionstrategyisworkedoutcomposedbyfileheaddetection,
imagefrequencydomainanalysisandobjectiveimagequalityassessment.Theproposeddetectionmethodof
originalresolutiontamperinghasachievedgoodresultsinthetestdatabaseofNingboArchives.
Keywords:paperrecords;digitalresult;resolution;tamper
SHENYuanfei,
1
JINLei,
1
YUZhaoli,
1
YINGHongwei
2
(1NingboArchives,Ningbo,ZhejiangProvince,315010;
2NingboUniversityofTechnology,Ningbo,ZhejiangProvince,315211)
0引言
纸质档案数字化成果的字符识别可将档案由
图像形式转换为文本形式,为档案检索带来极大的
便利。字符的识别率与数字档案的图像质量密切相
关,《纸质档案数字化技术规范》
[1]
中建议“档案的扫
描分辨率选择大于或等于100dpi,需要进行OCR
汉字识别的档案,扫描分辨率建议选择大于或等于
200dpi。”根据实际经验,目前大多数OCR软件对
一、二、三号字的数字文档推荐使用200dpi,四、小
四、五号字的数字文档推荐使用300dpi。更高的分
辨率有利于提高OCR识别的精度,但也对扫描设
备、存储容量、存储时间以及计算机的处理速度提
出了更高的要求。随着计算机硬件设备价格的下降
以及性能的不断提高,纸质档案越来越多地被要求
以200dpi以上的分辨率进行扫描,以便于后期的
OCR汉字识别。
106--
宁波市档案局于2013年发布了《宁波市纸质
档案数字化规则》,
[2]
其中条款6.3.1要求“扫描分辨
率应大于或等于200dpi。特殊情况下,如文字偏小、
密集、清晰度较差等,可适当提高分辨率”;条款6.3.2
要求“需要向档案馆移交的档案,扫描分辨率应大
于或等于300dpi”。对于一张A4纸大小的档案,
300dpi扫描后换算成图像的像素约为1653×2339,
通过读取图像文件的文件头可获取该图像的宽高,
如果文件头损坏,也可以通过图像文件的字节数大
体估计出图像的分辨率。但在实际运营中,发现有
部分档案入馆单位出于某些原因,如历史上逐年形
成的低于300dpi精度扫描的数字化成果,或者是扫
描设备默认的精度小于300dpi而扫描时未做调整,
使得扫描后档案图像的原始dpi数值较低,未达到
数字化档案的入馆要求。作为一种补救措施,他们
对未达到原始分辨率300dpi以上的不合格的数字
化档案进行篡改,大批量改变档案图像文件的属
性项或直接修改图像内容,以使得分辨率符合入
馆要求。
对于海量的档案图像,依靠人工主观判断分辨
率是否被篡改并不合理:一是档案文件的数量太
多、工作量太大且十分耗时;二是人的主观判断力
容易受到身体状况、情绪波动等影响,并不十分可
靠;三是对于某些篡改手段,人工判别难以提交令
人信服的客观证据来证明原始分辨率已被篡改。因
此,需要借助先进的计算机图像处理技术,实现快
速可靠且客观的档案图像文件分辨率篡改检测。而
要实现这一目标,必须剖析分辨率篡改的各种手
法,有针对性地设计检测策略并实现检测算法。
1分辨率篡改的常见手法
1.1篡改图像文件头的分辨率属性项
纸质档案数字化成果通常以图像文件的形式
存储,常见的档案图像文件格式有JPEG和TIFF。
[3]
以JPEG文件为例,其基本数据结构为两大类型:
“段”和经过压缩编码的图像数据。
[4]
JPEG的“段”的
一般结构如表1所示。
表2中APP0段记录了图像识别信息,其中包
含了图像dpi分辨率信息,APP0段的详细结构如表
3所示。
JPEG图像文件的分辨率记录在表3所示
APP0段的X像素密度和Y像素密度中。因此,使用
某些二进制文件编辑软件修改这两处的数据来改
变图像的dpi值,可以在不增加图像有效像素的情
况下,虚假提高dpi的值。
1.2插值算法篡改图像分辨率
使用Photoshop等图像处理软件中的插值算
法,大幅度增加图像像素,可批量将档案图像的分
辨率篡改至300dpi以上。虽然这些插值后图像的分
辨率达到了入馆要求,但新增加的像素并非光学传
感器产生的有效像素,图像中有效信息并未增加,
表1JPEG文件“段”的一般结构
表2JPEG文件的“段”类型
表3APP0段的详细结构
档案安全保障
107--
《档案学研究》2017年第2期
文字边缘或不够锐利,或呈锯齿状,总体上主观感
知质量较差,会对OCR识别的精度造成影响。以
area插值算法为例,对同一图像区域以4种分辨
率(100dpi、150dpi、200dpi、300dpi)进行扫描,它们
的像素数量依次增大,然后将100dpi、150dpi、
200dpi图像分别插值为300dpi,它们的显示效果如
图1所示。可以很明显看到,原始分辨率较低的图
像,插值之后尽管与原始高分辨率图像具有相同的
分辨率,但图像品质并未达到原始高分辨率图像的
品质。
2分辨率篡改检测方法
针对以上介绍的分辨率篡改手段,本文有针对
性地设计篡改检测策略,并提出了一种综合的篡改
检测方法。
2.1针对篡改图像文件头的检测方法
扫描档案图像的分辨率与纸张大小(以厘米或
英寸为单位)、图像宽高(以像素为单位)有关。例
如,纸张宽度为W英寸,扫描后图像的宽度像素数
量为a个,则分辨率dpi=W/a。绝大多数文件档案都
是以A4纸扫描,纸张规格是固定的,因此可以根据
上述公式推算出实际dpi。由于原始低分辨率图像
像素数量较少,计算出来的实际dpi值就会较低,而
被篡改的文件头像素密度设置较高,因此实际dpi
会比文件头dpi值小很多。当发生这种情况时,可判
断该档案图像的分辨率已被篡改。
2.2针对常见插值算法的篡改检测方法
插值算法可使原始低分辨率图像的像素数量
达到高分辨率图像的水平,因此文件头的检测方法
对插值篡改无效。由于插值算法对图像内容进行了
修改,不但图像的像素数量增加了,而且像素值也
发生了变化。将图像像素理解为信号序列,可用信
号处理与分析的方法进行篡改检测。目前图像处理
软件中广泛使用的4种典型插值算法
[5]
是:基于像
素区域关系插值(area)、立方插值(cubic)、双线性插
值(linear)、最近邻插值(nn)对档案图像质量的影
响,通过对分辨率被篡改的数字档案的信号特征的
研究,在大量统计数据基础上提出一种基于图像频
率域特征的分辨率篡改检测方法。
以某一纸质档案为例,将其分别以100、150、
200、300dpi分辨率进行扫描,获得各分辨率下的数
字档案,然后将100、150、200dpi分辨率的数字档案
分别用4种插值算法篡改到300dpi。将所有图像采
用二维傅立叶变换
[6]
从空间域转换为频率域,其中
原始分辨率为300dpi的数字档案的频率域图如图
2所示,各插值算法篡改至300dpi的数字档案(包
括原始分辨率为100、150、200dpi三类)的频率域图
如图3所示。
二维傅立叶变换后得到的频率域图,中间部分
为低频部分,代表数字档案图像中比较平缓的部分
如背景区域和文字的内部区域;频率域图越靠外边
频率越高,代表数字档案图像中变化剧烈的部分如
文字或表格线的边界。频率域图中的灰度代表能
量,亮度越高表示能量越大。通常数字档案图像中
平缓的部分所占的比例较大,从图1和图2中可以
看出,亮度的总体分布趋势是中心较亮、四周逐渐
变暗,即平缓区域较大,剧烈变化区域较小。这是
原始数字档案和插值篡改后的数字档案都具有的
特征。
比较图2和图3,可以找到原始300dpi的数字
档案频率域图与插值篡改300dpi的数字档案频率
域图具有一些特征上的差异:原始数字文档频率域
图的中心能量最高(体现为图像亮度较高),越往边
界能量逐渐自然下降;插值篡改后的数字文档频率
域图的能量分布从中心到边界具有一个波动的过
程,从图2中可以看到,原始dpi为100、150的频率
域图,出现了明显的黑线或黑圈,说明在某一个频
率段能量突然急剧下降甚至缺失。这表示原本锐利
的文字边界,在插值算法的作用下,变得平缓而模
糊,相当于对文字边界进行了降频处理,导致文字
(a)原始100dpi插值为300dpi的效果
(b)原始150dpi插值为300dpi的效果
(c)原始200dpi插值为300dpi的效果
(d)原始300dpi效果
图1各个原始dpi图像的效果
108--
边界原频率段能量大幅下降。原始dpi为200的频
率域图,黑线或黑圈虽不太明显,但还是可以看出
能量的分布从中心到四周并非均匀逐渐下降,而是
存在波动变化。通过对大量数字文档的实验,发现
这些频率域图特征上的差异是具有统计上意义的。
2.3针对特殊插值算法的篡改检测方法
对于某些特殊的插值算法,当分辨率被篡改
时,尽管图像质量明显下降,但图像的频率域特征
仍保持近似自然的分布,此时基于傅立叶频率域特
征的检测方法就不适用了。因此,采用视觉感知领
域的图像质量客观评价模型,从模拟人眼对图像质
量的感知入手,判断图像质量是否达到要求,从根
本上解决保证档案图像质量的要求。
图像质量评价的目标是用计算机模拟人类对
图像的主观感受,自动评价图像质量。目前,图像质
量评价方法包括主观评价方法和客观评价方法。
[7]
前者凭借实验观测人员的主观感知来评价对象的
质量,由实验观测者根据对图像质量的主观感知打
出分值,其结果最符合人眼对图像质量的感知特
性,因而比较可靠;但它存在耗时多、费用高、难以
操作等缺点。后者是利用人类视觉感知特性,设计
数学模型模拟人类视觉系统感知机制来衡量图
像质量,因此更适用于对大批量图像的质量进行
评价。
图像质量客观评价根据参考对象可分为3类:
(1)全参考,待评价图像需要有原始图像作参考对
比;(2)部分参考,需要原始图像的特征信息作参考
对比;(3)无参考型,不需要原始图像作参考对比。
[8]
在分辨率篡改检测的应用上,篡改人不可能提供未
篡改的原始高分辨率图像或特征信息来与篡改后
的图像作对比,因此需要用无参考型的图像质量客
观评价方法。
无参考型图像质量评价方法可分为两种类型:
一类是针对单一失真类型的方法;另一类是多种失
真类型通用的评价方法。
[9]
单一失真类型的图像质
量评价方法一般应用于特定的场合,评价算法只对
已知的图像失真类型有效,如图像模糊,块效应、振
铃效应等。
[10]
在已知失真类型的情况下,单一失真
类型的无参考质量评价方法可以取得较好的效果。
但单一失真类型的无参考质量评价的前提是要知
道图像的失真类型,而在很多实际情况下是无法预
先知道图像失真类型的,并且很多情况下的失真是
多种失真类型的混合。
通用的无参考图像质量评价方法,根据是否需
要先验知识进行训练和学习,又分为基于机器学习
的方法和无须学习的方法。
[11]
基于学习的方法需要
样本图像以及图像主观评价分值来进行机器学习,
学习样本的选择和训练的次数都会影响模型的性
能。对于一些没经过学习的新的失真类型无法进行
识别,而实际中,失真类型非常之多,所以基于机器
学习的方法的通用性和推广性受到很大限制。无须
学习的通用无参考图像质量评价方法更为实用,通
常是利用自然图像中与质量感知相关的统计特征,
构造出数学模型进行图像质量的评价,这些特征通
常有图像的能量谱、信息熵、梯度、均值等等。但到
目前为止,还没有出现一种完全通用的、可以评价
多种失真类型的无参考图像质量评价方法,主要原
因是失真类型太多太复杂,并且由于人类对自身视
觉系统的认识有限,也难以模拟出和人类视觉系统
一致的评价系统。
[12]
由于插值算法会引起图像质量降低,可以用无
参考的图像质量评价方法对图像质量进行自动评
分。如果分值较低,可以认为该图像的质量不能满
图2原始分辨率为300dpi的数字文档频域图
图3各插值算法插值后分辨率达到300dpi的频域图
档案安全保障
109--
《档案学研究》2017年第2期
表4各分辨率篡改检测策略的适用性以及性能比较
足数字档案后期OCR的需求,且分辨率被篡改的
可能性较大。由于在分辨率篡改检测前,档案图像
可能已经过斜偏校正、裁边等预处理,图像的自然
性受到了一定程度的破坏,通用的无参考图像质量
评价方法并不适合于档案图像的分辨率篡改检测,
因为分辨率未被篡改的档案图像的质量评分也可
能会较低。由于插值算法所引起图像失真为模糊失
真类型,因此可选用专门针对模糊失真类型的无参
考图像质量评价方法
[13-17]
对失真程度进行评分。
3分辨率篡改综合检测策略
上文所提出的各分辨率篡改检测方法总结归
纳如表4所示。由于各检测方法所针对的篡改手段
不同,同时考虑到档案数量以及各检测方法的执行
速度,设计了综合的分辨率篡改检测策略,取长补
短,充分发挥各检测方法的特长。
对于一页档案图像,首先分离出图像的文件头
信息,读取其中的像素密度信息。若像素密度偏低,
则直接判别为篡改;若像素密度正常,则对图像内
容进行傅立叶变换,提取出频率域特征,若频率域
特征与自然图像的频率域特征匹配度较低,则判别
为篡改;若频率域特征匹配度较高,则使用图像质
量客观评价模型评分(5分制,质量最好5分、最差
1分),若评分低于2分,则判别为篡改,否则可视为
未篡改。
对于一个档案全宗,其大小通常在10万页或
1万件左右,如果每一页都进行检测,则检测用时太
久,由于分辨率篡改行为往往是面向大批量档案图
像进行的,因此没有必要每一页都检测。可以在一
个全宗中随机抽取10%的档案图像作为样本进行
检测,若这些样本中有50%检测未通过,则可认为
该全宗存在分辨率篡改问题,需要退回重新扫描。
本文为2015年度国家档案局科技项目计划
“纸质档案数字化成果智能质检的关键问题研究与
解决方案”(2015-X-01)阶段性研究成果之一。
参考文献
[1]国家档案局.DA/T31-2005纸质档案数字化技术规
范[S].2005.
[2]宁波市档案局.宁波市纸质档案数字化规则[EB/OL].
http://www.nbdaj.gov.cn/zcfg/dagzbz/201505/t20150506_
722198.html,2014.8.25.
[3]GB/T18894-2002.电子文件归档与管理规范[S].2002.
[4]InternationalTelecommunicationsUnion.ISO/IEC109
18-1-1992Informationtechnology-Digitalcompres-
sionandcodingofcontinuous-tonestillimage-Re-
quirementsandguidelines[S].1992.
[5]冈萨雷斯.数字图像处理(第三版)[M].北京:电子工
业出版社,2011.
[6]MilanSonka,VaclavHlavac,RogerBoyle.图像处理、分
析与机器视觉(第3版)[M].北京:清华大学出版社,
2011.
[7]高新波,路文.视觉信息质量评价方法[M].西安:西安
电子科技大学出版社.2011.
[8]王周,BovikA.C.现代图像质量评价[M].北京:国防工
业出版社.2015.
[9][11][12]桑庆兵.半参考和无参考图像质量评价新方
法研究[D].无锡:江南大学,2013.
[10]杨迪威.基于自然统计特性的图像质量评价方法研究
[D].中国地质大学,2014.
[13]WeeCY,ParamesranR,MukundanR,etal.Imageq-
ualityassessmentbydiscreteorthogonalmoments[J].
PatternRecognition,2010,43(12):4055-4068.
[14]HeL,GaoX,LuW,etal.Imagequalityassessment
basedonS-CIELABmodel[J].Signal,Imageand
VideoProcessing,2011,5(3):283-290.
[15]CapodiferroL,JacovittiG,DiClaudioED.Two-Di-
mensionalApproachtoFull-ReferenceImageQuality
AssessmentBasedonPositionalStructuralInformation
[J].IEEETransactionsonImageProcessing,2012,21
(2):505-516.
[16]HeL,TaoD,LiX,etal.Sparserepresentationforbl-
indimagequalityassessment[C].In:2012IEEECon-
ferenceonComputerVisionandPatternRecognition
(CVPR),2012:1146-1153.
[17]NarvekarND,KaramLJ.Ano-referenceimageblur
metricbasedonthecumulativeprobabilityofblurd-
etection(CPBD)[J].IEEETransactionsonImage
Processing,2011,20(9):2678-2683.
110--
|
|