分享

双剑合璧 汉字识别接近完美

 gcwl 2012-05-09
 
  日常办公经常需要将纸质文本变成电子文稿,重新手输太麻烦,在实现了高科技办公的今天,当然要选择汉字扫描识别了。不过说实话,目前市场上的一些汉字识别系统识别率不是很高,用起来总是不太顺手。 
  经过摸索,特别是向老同事虚心请教,最近找到了一种可以接近100%识别率的汉字扫描识别方法,那就是使用扫描仪将文本扫描保存为TIFF格式的图片,然后使用微软Office自带的Document Imaging软件进行识别。 
  文本扫描 
  以比较常见的爱普生V3580扫描仪为例,将纸张放入扫描平台后启动扫描仪自带的EPSON Scan软件(我用的版本是V3.04sc)。 

 
 
  使用“专业模式”,点击“扫描”右侧的“文档保存设置”按钮,打开一个新对话框进行设置(图1),这里关键一步是把“图像格式”设置为TIFF(*.tif)。点击“确定”后返回。为了提高扫描速度,此时可以将“图像类型”设置为“16位-灰度”,将分辨率设置为150dpi即可(图2),不需要彩色和高分辨率。 
  此时,关键部位已经设置完毕,点击“扫描”按钮,将需要识别的文本逐一扫描保存为tif格式的图片。
  汉字识别 
  如果已经安装了Office套装中的Document Imaging组件(未安装的可以用Office光盘安装),可以通过开始菜单直接启动。 
  启动后,点击“打开”按钮,将刚才扫描保存的图片文件读入(图3)。点击工具栏中的“将文本发送到Word”,片刻后识别完成并产生了一个类似于网页的新文件(图4)。 

 
 
  重复这一步骤,将需扫描的文本逐一扫描,最后将所有产生的新文件内容进行剪贴、校正、排版,就可以实现快速而非常准确的汉字识别。 

  经过检测,刚才这篇文本的识别率接近100%,需要改动的仅仅只是几个标点和几处格式。 
  扫描仪、识别软件双剑合璧,可以最大限度地将双手解放出来,实现高效率、轻松自如的办公。 
 
 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多