配色: 字号:
OCR标准-国家档案馆
2018-07-13 | 阅:  转:  |  分享 
  
ICS01.140.20

A14

备案号:







中华人民共和国档案行业标准



DA/TXX—2017









档案数字副本光学字符识别(OCR)规范

OCRSpecificationforDigitalcopy

(征求意见稿)











2017-XX-XX发布2017-XX-XX实施



国家档案局





前言



本标准的附录A是资料性附录。

本标准由国家档案局提出并归口。

本标准起草单位:

本标准主要起草人:

档案数字副本光学字符识别(OCR)规范



范围

本标准规定了档案数字化副本光学字符识别(OCR)基本要求。

本标准适用于档案部门指导OCR工作规划、管理和应用。

规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T2828.1-2003计数抽样检验程序第1部分:按接收质量限(AQL)检索的逐批检验抽样计划

DA/T31-2005纸质档案数字化技术规范

术语和定义

3.1

图像格式imageformat

记录、组织和存储图像像素的方式。

3.2

字符character

各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。

3.3

字符集characterset

多个字符的集合。字符集包含的字符个数不同,常见字符集名称有ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。

3.4

光学字符识别OpticalCharacterRecognition;OCR

电子设备检查纸上显示的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

OCR包括处理后的高清图像,识别后的电子文件,校验文件及工作中产生的文件、存储载体等。

3.5

识别准确率recognitionaccuracy

通过识别正确文字的比率。

识别准确率R=(识别正确文字数/应识别文字总数)×100%

3.6

识别速度recognitionspeed

单位时间内通过OCR识别文字的数量。

总则

各单位在纸质档案数字化的基础上,为方便利用、数据挖掘统筹规划开展档案数字副本OCR工作。

档案数字副本原始图像、高清图像与识别后的电子文件之间应建立正确、可靠的关联。

应采取有效的管理和技术手段,确保档案数字副本OCR后的成果质量。

处理涉密档案时,应按照涉密档案相关的管理和技术要求开展工作。

工作组织

机构及人员

应建立完善的工作组织架构,以支持对档案数字副本OCR工作进行统筹规划、组织实施、协调管理、安全保障、技术保障、监督检查、成果验收等,确保档案数字副本OCR工作的顺利开展。

应配备具备相应素质和技术水平的工作人员,并通过科学规范的管理制度对工作人员进行规范化管理。为强化安全性,应加强对外聘工作人员的审核。

基础设施

应配备专用工作场地、机房等,应合理规划、配备和管理设施设备,确保设施设备安全、先进,能够满足档案数字副本OCR工作的需要。基础设施:

——与档案库房的距离要求;

——场地和环境(如面积、温度、湿度、防火、电力和工作时间等)要求;

——运行维护和管理要求。

可选用以下三种方式获取基础设施:

——由组织所有或运行;

——多方共建或通过互惠协议获取;

——租用商业化数字化公司的基础设施。

工作流程控制

档案数字副本OCR包括图像输入、图像预处理、比对识别、修改校正、结果输出等流程。

应依据相关的法律法规和各类技术标准,制定相关的工作流程和各环节操作规范,对全过程进行有效的控制,确保识别质量。

应加强对整个流程的安全管理,及时对产生的数据进行备份。

应建立完善的问题反馈机制,对档案数字副本OCR工作过程中后端环节发现前端环节中产生的问题及时反馈和修正。及时获取OCR成果后续管理和利用过程中的效果反馈,提高OCR工作质量。

工作文件管理

应针对OCR全过程,建立完善的管理工作文件,以此加强对OCR工作的管理。

方案制定

制定OCR识别策略

OCR识别策略应考虑如下要素

——图像资源,即符合输入标准的可识别的彩色(24BITS)、灰度(256阶)和黑白二值图像。一般应为TIFF、BMP、JPG、PDF格式的图像文件。

——OCR引擎,对影像包含文字进行高速和高识别率的OCR识别引擎。

——OCR识别系统,装备OCR引擎的OCR识别软件系统,可以高速稳定输出识别结果。应根需要识别的目标,按照成本风险平衡原则,确定:数据识别的范围;数据识别的质量;数据识别的技术及介质;数据识别设备的规格和要求。

——基础设施:支持系统运行的建筑、设备,包括介质的场外存放场所、备用的机房及辅助设施。

——专业技术支持能力:对系统的运转提供支撑和综合保障的能力,以实现系统的预期目标。包括硬件、系统软件和应用软件的问题分析和处理能力、网络系统安全运行管理能力、沟通协调能力等。

——运行维护管理能力:保障系统相关的设备和软件正常运行,向用户提供长期、及时、全面的技术支持的能力。包括运行环境管理、系统管理、安全管理和变更管理等。

——灾难恢复预案:对系统灾难实行快速、有效的响应和恢复。包括灾难紧急响应,灾后系统重建及重续运行,通信、后勤、技术等相关保障机制建设。

根据项目目标,按照项目资源的成本与风险可能造成的损失之间取得平衡的原则(以下简称“成本风险平衡原则”)确定每项关键业务功能的工作策略,不同的业务功能可采用不同的OCR识别策略。

制定总体方案

应在充分调研的基础上,制定科学合理的总体方案,确保档案数字副本OCR工作达到预期目标。

档案数字副本OCR总体方案的制定应综合考虑OCR目的、利用情况、费用情况等,做出合理规划。

档案数字副本OCR工作总体方案应经相关领导审批后严格执行。

制定技术方案

技术方案的确定

根据OCR识别系统策略制定相应的识别系统技术方案,包含数据系统、数据处理系统和网络系统。技术方案中所涉及的系统应满足如下条件:

——获得同主系统相当的安全保护;

——具有可扩展性;

——考虑其对主系统可用性和性能的影响。

技术方案的验证、确认和系统开发

为确保技术方案满足OCR识别系统策略的要求,应由组织的相关部门对技术方案进行确认和验证,并记录和保存验证及确认的结果。按照确认的OCR识别系统技术方案进行开发,实现所要求的数据系统、数据处理系统和网络系统。

系统安装和测试

按照经过确认的技术方案,OCR识别系统规划实施的组织应制定各阶段的系统安装及测试计划,以及支持不同关键业务功能的系统安装及测试计划,并组织最终用户共同进行测试。确认以下各项功能可正确实现:

——数据识别及数据存储备份功能;

——在限定的时间内,利用识别数据正确运行系统、应用软件及各类数据并储存识别结果,并可正确运行各项关键业务功能;

——客户端可与数据处理系统通信正常。

图像输入

总体评估

7.1.1对需进行OCR识别的档案数字副本质量进行总体评估。图像的大小,分辨率,清晰度,对比度,灰度等是否能到达OCR所需最基本的要求。分辨率典型设置参考:

a)1、2、3号字的文章段,推荐使用200dpi。

b)小4、4、5号字的文章段,推荐使用300dpl

c)小5、6号字的文章段,推荐使用400dpl

d)7、8号字的文章段,推荐使用600dpi。

7.1.2分辨率低会影响识别率,一般文档选择300dpi或400dpi分辨率。

图像分类

OCR主要识别文档为主的文件,对非文档类的图像进行自动检测并标注,对文档类图片内容为手写体,印刷体等特征进行标注。

图像导入

将筛选后需进行OCR识别的档案数字副本以图片的形式导入,对质量无法达到要求的图片,重新扫描后再导入。

图像预处理

二值化

8.1.1在对彩色图像中印刷体字符进行识别处理前,需要对图像进行二值化处理,使图像只包含黑色的前景信息和白色的背景信息,提升识别处理的效率和精确度。

8.1.2OCR识别软件根据图片情况自动调节灰度阀值,使其达到识别准确率最佳,系统应支持手动阈值调节功能。

8.1.3OCR识别软件自动调整亮度和对比度值,使扫描文件黑白分明。亮度和对比度值的设定以观察后的图像中汉字的笔画较细但又不断开为原则。如果图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,应增加亮度值;如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,应减小亮度值。

图像降噪

8.2.1由于待识别图像的品质受限于输入设备、环境、以及文档的印刷质量,在对图像中印刷体字符进行识别处理前,需要根据噪声的特征对待识别图像进行处理,提升识别处理的精确度。

8.2.2处理去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方。

倾斜校正

在对图像进行识别前,需要进行图像方向检测,并校正图像方向。在矫正过程中应保证图像不失真。

其他预处理

为方便识别,可对图像进行其他预处理操作。操作过程需保证原文件的信息不缺损。保存处理后的图像,并与原图片建立连接。

比对识别

版式分析

9.1.1版式分析是指对图片文字块结构的分析,是对图片的一种分解,把图片中相似的版块信息划分到一起。

9.1.2为了能精确划分版块,可采取多种分析方法,对文档内部区域进行逻辑归类。划分时要兼顾全局和局部的信息,记录各板块的位置,存储版面信息。检测出各板块类型文本、表格、图片等,文本和表格板块准备进一步处理,图片(特别是印章)等板块进行扣取后存储,在版面恢复时可直接插入使用。

行分割和字符切割

可采用“分割-识别-分割”的动态调整策略,提高字符分割阶段的分割准确率。

文字特征抽取

文字特征抽取识别图像文字的编排方向、字体及字体大小支持一般文字格式的样式识别,如粗体、斜体、首行缩进等,尽可能多的分析记录文字特征,以防识别时出现乱码,版面恢复时丢失格式。

字符识别和匹配

9.4.1字符识别和匹配抽取字符特征,通过相似度计算方法,与特征数据库比对,识别为计算机可以处理的文字。

9.4.2特征数据库要存储多种印刷体字符,具可更新和可扩充性。对使用频率高的汉字、英文、数字以及常用的符号建立高频库,提高OCR的识别效率。

9.4.3为提高OCR的识别率,可通过将比对后的识别文字根据上下文在可能的相似候选字群中找出最合乎逻辑的词对识别文字进行除错或更正。

修改校正

系统自动校对

对识别的文本进行自动语义识别和校正,建立语义库对字符、词汇、语句进行逐层分析,语义库对候选字、拒认字和可能有问题的字词进行标记。

人工校对

系统应支持将图像与识别文字的对照,进行人工方式对OCR识别结果进行校正的功能以进一步提高OCR的识别率。

结果整理输出

11.1识别图像的版式进行恢复,按照文本字体、字号特征、位置等显示OCR识别结果,插入未进行识别的图像等信息。识别后的电子文件应具有调用、编辑、备份、导出等功能,对文字、符号的搜索等功能。

11.2根据需要,也可以选择直接以纯文本形式输出、显示OCR识别结果。识别后的文件管理权限应与原始图像相同,保证数据的安全。

OCR识别性能和指标

高识别率

要求OCR识别软件对档案中文印刷体识别率达到96%以上,数字印刷体识别率达到98%以上,英文印刷体识别准确率在99%以上。对手写体要给出合适的解决方案。

高稳定性

要求OCR识别软件在档案扫描影像识别过程中可以长时间,大批量的输出识别结果,由于档案识别的数据量大,自动化识别软件需备高稳定性。

强抗噪能力

OCR识别软件具备对噪点的强抵抗能力,识别过程中能够有效屏蔽较大程度上的噪点干扰。

自动学习功能

OCR识别软件具备系统自动学习功能,借助用户手工输入、修改系统无法自动识别或识别错误的具有特殊字体特征的字符,可使系统可以不断丰富其字符特征库,从而提高自身在识别时对字符的适应能力。

OCR识别业务评价

13.1OCR识别工作开展前,OCR识别系统规划实施的组织应当依据档案OCR识别项目的计划、合同、招投标书等有关项目文件,按照《OCR识别业务评价指标》(见附录A)项目,对档案OCR识别业务的识别系统、网络系统、基础设施、保障能力等方面进行评价。对不符合要求的评价项目须整改达到评价指标要求后方能开展档案OCR识别工作。

13.2识别业务评价计数抽样检验程序按照GB/T2828.1执行。



附录A

(资料性附录)

OCR识别业务评价指标



项目 评价指标 评价细则 1 OCR识别系统 输入字符集 可正常识别GB2312、GB18030、BIG5、ASCII、Unicode等字符集文本 输入图像格式 可正常识别彩色(24BITS)、灰度(256阶)和黑白二值图像。支持TIFF、BMP、JPG、PDF格式的图像文件 输入图像分辨率 可正常识别图像分辨率200dpi以上的图像文件 输入文字版式 可自动分析图像文件中的横排文本、竖排文本、表格和图像等区域,并对文本和表格区域的文字进行识别 输入语种 可正常识别中文简体、台湾繁体、香港繁体、英文及中英混排、简繁混排等印刷文本 输入字体 可正常识别宋体、仿宋体、楷体、黑体、魏碑体、隶书体、行楷体、幼圆体等常用中文字体和Timesnewroman、Verdana、Arial、Calibri、Impact等常用外文字体。 输入字号 可正常识别字号介于“小六号”和“初号”之间的中外文文本 输出字符集 可正常输出GB2312、GB18030、BIG5、ASCII、Unicode等字符集文本 输出识别结果 可输出TXT、RTF、PDF、WPS、DOC等格式文本文件。 输出版式还原 可根据输入图像文件的版式、表格和文字的字体、字号等特征还原识别结果 识别准确率 对在识别范围内中文印刷体(打印体)的识别准确率在96%以上,数字识别准确率在98%以上,英文识别准确率在99%以上 识别速度 在主流计算机软硬件平台下,A4纸幅面中文识别速度不低于1000字/秒,英文识别速度不低于2000字/秒 识别结果人工校正功能 具备自动高亮对照图像与识别文字,显示识别文字的候选字、拒认字,标记可能有问题的字词等功能 自动学习功能 具备根据人工校正结果自动学习功能 二次开发环境 支持使用JAVA、DotNet、C++、VC、VB、Delphi等2种或多种计算机语言进行系统二次开发能力 软硬件平台 系统可以在目前主流的软硬件平台,尤其是在国产化软硬件平台正常应用 2 网络系统 网络接入 应根据OCR识别工作的图像资源情况确定符合要求的网络,OCR识别工作网络不得接入政务外网公共网络区域 网络接入点数量 网络接入信息点数量配置应满足OCR识别工作业务需求 网络带宽 OCR识别工作网络带宽满足OCR图像资源传输、管理要求,主干线路应采用光纤铺设,终端桌面网络带宽应达到100M 3 基础设施 主机房 OCR识别工作基础设施的主机房应符合《电子信息系统机房设计规范》(GB50174-2008)要求的B级机房 存储设备 配备SAN、NAS等在线存储设备存储OCR识别图像资源和识别结果,在线存储设备容量应能满足OCR工作需要 近线和离线备份系统 配备磁带、光盘、移动硬盘等脱机存储介质对OCR识别图像资源和识别结果进行离线备份,脱机存储介质保存场所应符合《档案数字化外包安全管理规范》要求 终端计算机 应根据OCR识别工作量配备足够的终端计算机,终端计算机应能满足OCR识别系统运行需要 正版基础软件 配备正版的操作系统软件、数据库软件、字处理软件、图像查看软件等 4 支持与保障 经费保障 OCR识别工作计划、实施、管理和运维等费用纳入本单位预算 服务外包安全管理 OCR识别工作实施服务外包的组织,应按照《档案数字化外包安全管理规范》要求开展OCR服务外包工作 专业技术支持 实施OCR识别工作的组织应配备2名以上专(兼)职专业技术人员,专业技术人员应能胜任专业技术支持工作 运行维护管理 实施OCR识别工作的组织应制定并实施OCR识别系统运行维护工作制度,落实2名OCR识别系统运维技术人员,工作时间常驻OCR识别工作现场,非工作时间2小时之内到达现场,同时提供724小时电话热线支持 灾难恢复预案 制定实施OCR识别工作灾难恢复预案,并定期进行演练































5









献花(0)
+1
(本文系灰太狼de图...首藏)