最新分享

朽 2011-10-04

展开全文

尚书七号OCR使用技巧

老师们常常花很多时间从相关杂志、书籍、复习资料中搜集大量的适合当时教学内容的试题，有的教师还将精挑细选出的试题东拼西贴，凑出一份试卷，印给学生们做，其实老师们更想将这些纸上的文字变成电子版的，保存的电脑中，以便随时选用。于是有的教师不得不将这些试题一个字一个字地用键盘敲进电脑，花费大量的时间在枯燥的文字录入上。其实有一种方法，完全可以免除你的键盘录入之苦。那就是利用汉字识别技术，将图片上的不能编辑的文字，变成可编辑的文字。
汉字识别技术也就是OCR（Optical Character Recognition的简称，光学字符识别）是自动识别技术研究和应用的一个重要领域。它可通过扫描、摄影方式，或通过实时采集书写轨迹，由电脑将文稿或轨迹自动识别为相应汉字并转为相应汉字内码。这种方法不需任何键盘汉字输入法就可把汉字输入到电脑中。现在有的手机可以手写输入汉字就是采用的汉字识别技术。
那么怎样通过扫描或摄影的方式，利用汉字识别软件实现图片中的文字的识别呢？你必须有一台扫描仪或一个数码相机，并在你用的电脑上安装一个汉字识别软件，例如尚书七号OCR：下载地址：http://down8.4./down/shocr70.zip
我们采用任务驱动方法学习“尚书七号OCR”的使用技巧，请你依次完成以下任务。
任务一：识别图片1，初步掌握“尚书七号OCR”的汉字识别过程.具体步骤如下：
1．开“尚书七号OCR”软件
2．打开图片1：单击“文件” | “打开图像”(或单击打开按钮或拖动图像文件到文件列表区
3．版面分析：按F5或单击“识别”|“版面分板”,或单击工具栏中的“版面分析”按钮，分块确定识别区域
4．开始识别：按F8或单击“识别”|“开始识别”,或单击工具栏中的“开始识别”按钮。
5．查看识别结果，修改个别错误字符
6．输出到指定格式文件。输出格式有TXT、RTF、HTM、XLS
任务二：识别图片2，了解识别错码的主要原因1．在尚书七号中打开图片2，仿任务一识别
2．识别结果有问题吗？为什么？
哈哈，是的，有很多错码，为什么同样的图片内容，同样的扫描方法，结果却大相径庭呢？原因是这两个图片的分辨率不同，一个分辨率较大，一个比较小，分辨率足够大的识别结果精确，否则就会出现乱码。目前，汉字识别技术还没有达到人睛能看清电脑就能识别的地步，也可以认为汉字识别技术有些近视。
任务三：识别图片3，图片上有污点，怎样去除方法
1．在尚书七号中打开图片3，用“剪刀”工具去除污点
2．版面分析并识别
任务四：识别图片4，了解倾斜文字的较正方法
1．在尚书七号中打开图片4，单击“编辑”|“自动倾斜较正”，如果不能成功较正，就用“手工倾斜较正”。
2．版面分析并识别
任务五：识别图片5,了解表格图片文件的识别

其它使用技巧：
1、如果你扫描的图片或拍摄的照片分辨率不够，可用Photoshop软件进行图像放大
2、进行版面分析的扫描识别时会产生一些过程文件，不用时可删除，以便节约磁盘空间
3、扫描时可用Photoshop以照片模式扫描，扫描分辨率不要低于300dpi。
4、如果用数码相机拍摄，请一定端稳相机，尽量拍摄到清晰的照片。