分享

文字识别软件—尚书六号

 阿莲姐姐 2012-02-19

当你在报刊或者杂志上看到一篇好的文章,或者一篇文字资料需要你手工输入时.对于输入速度慢,像我一样眼睛看着键盘,一个字母一个字母的按,倘若几百字还可以,假如成千上万字,是不是特费劲。现在好了。只要你有一部普通的数码相机(或扫描仪),把需要的内容照下来,再用“尚书六号”这个软件,就可以把图片上的文字转换成*.txt文件。
   尚书六号原本是中晶公司在中国销售MICROTEK扫描仪时附送的OCR软件。该软件能够将印刷文字的文稿扫描(照片)得到的图片,转化为对应的文本文字,从而提供了一个全新的文字输入手段。大大提高了用户工作的效率。
   尚书六号的软件,特点在于支持彩色、灰度的图像文件,支持TIFF、BMP和JPG格式的文件,以及表格识别功能。具备以上特点的尚书六号,大大便于了用户的使用,丰富了软件的应用领域。
    尚书六号软件安装时,只需将“尚书6号汉字表格识别软件\破解\ShOcr6Crk”内
Eztw32.dll、FILE_ID.DIZ两个文件复制到尚书6号的安装目录下,即可完成破解。


好了,下面就对这个软件作下简单的介绍。
1. 打开尚书六号读取扫描(或通过数码相机)好的图像文件。
2. 被识别图片的预处理。
这部分工作,主要包括:倾斜校正、设定正确的识别区域。
倾斜校正过程,如图所示,按下工具栏的最下面的一个工具

按下“图像倾斜校正”工具后,会出现如下的对话窗口:


此时按下“是”按狃。系统就给予图片做水平的倾斜校正,做完后,结果如下
 

注意,自动倾斜校正功能,只能对原稿做+-2.8度的倾角的校正,如果原稿的倾斜角度大于2.8度,系统会建议用户重新扫描稿件,以提高识别率。
如何正确设定识别区域,这是一个值得用户注意的地方:
    对于一些文字稿件,中间有图片的时候,我们建议采用绕开的方式,进行识别区域的设定,如下图:
 

对于表格类的图片,为了将标题栏也能识别进去,我们建议采用如下的识别区域设定,特点是表格部分必须整个框选,同时标题作为一个单独的框选区域。

3. 开始进行识别
在开始“识别”的时候,注意识别的软件的设定值是否正确。

4. 识别校对完成后,存盘格式的选择文件保存的类型有四种,建议一般文本的识别,用户选择TXT格式。
如果是表格识别,识别结果请选择“CSV”格式,用EXCEL能够打开。


 

 


 


 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多