分享

文字数字化

 昵称47118512 2017-09-14
1.书籍中的文字电子化
1、OCR技术文献数字化:基于OCR技术的文字识别软件,可以将通过摄像机、扫描仪等光学输入方式得到的报刊、书籍、文稿、表格等印刷品的图像信息转化为可供计算机识别和处理的文本信息。与传统录入方式相比,OCR技术极大的提高了资料存储、检索、加工的效率。
  2、OCR技术的特点:
  与传统的手工资料录入方式相比,文通文字识别软件有以下优势:
  (1)效率高,其速度是人工录入的上百倍甚至上千倍;
  (2)经济性好,大大节约了录入人员的开销;
  (3)准确性更高,根据数据统计显示,OCR录入方式的准确率远高于人工录入。
  3、OCR的技术支持,文字识别软件
2.手写文字数字化
1)图文输入 
是指通过输入设备将文档输入到计算机中也就是实现原稿的数字化。在用得比较普遍的设备是扫描仪。文档图像的扫描质量是OCR软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数是保证文字清楚、特征不丢失
的关键。
2)预处理 
扫描一幅简单的印刷文档的图像将每一个文字图像分检出来交给识别模块识别这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作包括图像净化处理去掉原始图像中的显见噪声干扰。
3)单字识别 
单字识别是体现OCR文字识别的核心技术。从扫描文本中分检出的文字图
像由计算机将其图形、图像转变成文字的标准代码是让计算机"认字"的关
键也就是所谓的识别技术。
4)后处理 
后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配
即将单字识别的结果进行分词与词库中的词组进行比较以提高系统的识别
率减少误识率。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多