怎么把JPG文件上的文字转换成文本文件上的文字？

花瓣一枚

2009-01-24 23:22:13 发布

2个回答

回答

shenyihao | 2009-01-24 23:22:33
有0人认为这个回答不错 | 有0人认为这个回答没有帮助
offiice2003 有这个功能！
自带了Document Imaging 安装office的时候选上
默认是不安装的！

还有很多OCR软件

我使用Document Imaging和尚书七号感觉非常不错！推荐一下

如果公式字母中文混排任何软件都识别不全的！

用OCR就可以了．
比如Office 2003中也提供了文字识别服务，结合那个Image writer可以很方便将PDF转成WORD。

第一种方法：用SnagIt工具进行文字提取。

首先使用SnagIt的文字捕捉功能将文字提取出来。SnagIt当前版本为7.02，大小为8903KB，下载地址可以在http://www./soft/2290.html 找到，汉化补丁可以在http://www./soft/2291.html 找到。启动SnagIt，选择菜单“输入/区域”，选择菜单“工具/文字捕获”，然后我们打开要捕捉的文件窗口，按下捕捉快捷键，选定捕捉区域即可捕捉到文字。
添加评论(0)

koood | 2009-01-24 23:23:01
有0人认为这个回答不错 | 有0人认为这个回答没有帮助
offiice2003 有这个功能！
自带了Document Imaging 安装office的时候选上
默认是不安装的！

还有很多OCR软件

我使用Document Imaging和尚书七号感觉非常不错！推荐一下

如果公式字母中文混排任何软件都识别不全的！

用OCR就可以了．
比如Office 2003中也提供了文字识别服务，结合那个Image writer可以很方便将PDF转成WORD。

第一种方法：用SnagIt工具进行文字提取。

首先使用SnagIt的文字捕捉功能将文字提取出来。SnagIt当前版本为7.02，大小为8903KB，下载地址可以在http://www./soft/2290.html 找到，汉化补丁可以在http://www./soft/2291.html 找到。启动SnagIt，选择菜单“输入/区域”，选择菜单“工具/文字捕获”，然后我们打开要捕捉的文件窗口，按下捕捉快捷键，选定捕捉区域即可捕捉到文字。

接着用相应工具重排文字。此时我们发现提取的文字可能会有很多空格或段落错乱等现象，而且字号、字体等不合自己的心意。这时我们可以用熟悉的WPS或Word软件进行重新编排。我们以WPSOffice2003为例看看如何对付提取后文章的编排。

用WPSOffice2003打开提取文章；然后选择“工具”菜单下的“文字”/“段落重排”，这时你会看到提取文章重新进行排版；接下来选择“工具”菜单下的“文字”/“删除段首空格”命令，使得文章的每段参差不齐的行首空格被删除；再选择“工具”菜单下的“文字”/“增加段首空格”，文章变为正常的书写格式；提取文章一般都留有空段，为删除这些空段，继续选择“工具”菜单下的“文字”/“删除空段”命令，这时文章完全变为我们所要的形式；用你熟悉的界面任意编辑文章吧。

第二种方法：用屏幕截图然后让OCR软件识别。

打开带有文字的图片或电子书籍，翻到你希望提取的页面，点击键盘上的打印屏幕键（PrintScreen）进行屏幕捕获；打开Windows自带的画图工具，将刚才捕获的屏幕截图，粘贴进去，保存为一个.bmp文件；接着打开刚才保存的文件，在编辑器中进行修正，根据你所要提取的文字进行裁剪，尽量去除不要的部分；最后启动OCR软件，在OCR中打开刚才保存的修改文件，进行文字识别，然后可随心所欲进行编辑。

你如果想把字改到word里面的话，然后修改的话，这个必须有一个软件才可以的。仅仅word是不可以的。

具体的我给你说：
在扫描仪发展史上，文字识别软件（OCR）的出现，实现了将印刷文字扫描得到的图片转化为文本文字的功能，提供了一种全新的文字输入手段，大大提高了用户工作的效率，同时也为扫描仪的应用带来了进步。从此，扫描仪不再仅仅是图形、图像的输入工具，它真正的成为了电子化办公的有机组成部分。随之而来的是，扫描仪在金融、证券、政府等领域普遍应用，为人们摆脱纸制文档束缚，真正实现无纸化办公铺平了道路。
目前在中国市场上销售的每一款Microtek扫描仪产品，都附赠了“尚书六号”文字识别软件。在颇具美名的“尚书五号”文字识别软件基础上，“尚书六号”又有了许多新的突破。它一改以前文字识别软件只能对“黑白二色”图像进行识别的限制，可以对彩色、灰度图像文件直接进行识别；尚书六号支持更多的扫描文件格式，例如TIFF、BMP和JPG格式；与此同时，尚书六号完善了表格识别功能，各式各样的表格几乎都可以原封不动的由图片格式转变为可以自由编辑的文字格式。最值得一提的是，“尚书六号”还加入了人性化设计，在软件安装完毕后，程序组图标里面会自动出现“尚书六号说明”，借助这本用户手册，即使是初学者也可以迅速掌握软件的使用。
下面结合Microtek扫描仪的驱动软件ScanWizard 5，详细介绍如何配合尚书六号OCR软件做好文字识别工作：
Step1：扫描图像文件
建议首先点击桌面上ScanWizard 5软件的图标，进入Microtek扫描仪驱动软件的界面，直接进行扫描工作，而不需要启动其他的扫描程序或图像编辑程序，这样可以大大加快扫描进程。同时，注意将ScanWizard 5软件切换到高级工作模式（如图1所示），以便于用户检查扫描仪工作时的分辨率。在文字识别时，推荐使用的扫描分辨率设定在300ppi，色彩模式可以选择“RGB彩色”或者“灰阶”，选择“扫描到”的文件格式是TIF或者JPG两者都可以，然后将扫描得到的文件保存在用户确定的目录下面。
Step2：打开尚书六号读取扫描好的图像文件
Step3：被识别图片的预处理
被识别图片的预处理工作主要包括“倾斜校正”和“设定正确识别区域”两个步骤。在进行“倾斜校正”时，可按下工具栏的最下面的一个“图像倾斜校正”工具按钮。系统会自动弹出一个对话框，提示需要校正的角度，此时按下“是”按钮，系统就给予图片做水平的倾斜校正。在此需要特别注意，“自动倾斜校正功能”只能对原稿做±2.8度的倾角的校正，如果原稿的倾斜角度大于2.8度，系统会建议用户重新扫描稿件，以提高识别率。
如何“正确设定识别区域”，也是一个值得用户注意的地方：如“海尔”一文，实际是分成两个栏目进行阅读的，所以在设定识别区域的时候，注意需要将这个两个栏目分别圈定，也就是设定两个识别区域（如图2所示）。同时，对于一些文字稿件，如果在中间插有图片的时候，建议采用绕开的方式，对所环绕的文字分别进行识别区域的设定。此外，对于表格类的图片，为了将标题栏也能识别进去，建议将表格部分整个框选，同时标题作为一个单独的框选区域。
Step4：开始进行识别
在开始“识别”的时候，应注意识别软件的设定值是否正确，尤其注意识别字集的选择问题：如果要识别简体中文，请选择“简体字集”；如果要识别繁体中文，请选择“繁体字集”；在选择“纯英文字集”时，可以大幅提升英文字母的识别率。同时，“简体字集”和“繁体字集”也具有较强的识别英文的能力。
Step5：识别校对完成后，进行保存
在“尚书六号”文字识别软件中，存盘格式（也就是文件保存的类型）有四种，分别是：Word、Text、CSV、HTML。直接用Word格式保存时，可以用微软的Word软件打开，它可以相对比较完整的保存排版格式；但建议用户一般可选择Text（纯文本）格式保存，因为这种格式可以用几乎所有文档编辑器打开；如果用户进行表格识别，识别结果可以选择保存为CSV格式，这样用EXCEL就能够直接打开；而HTML格式是针对网页设计使用的，用IE等网络浏览器或网页编辑器可以打开。
参考：http://www./Article/jiaoxuezhongxin/jisuanjijichu1/jishuzhishi/200507/273.htm

1。尚书六号表格文字识别系统
尚书六号表格文字识别系统由北京汉王科技公司授权上海中晶电脑公司独家使用，软件版权属于北京汉王科技公司。
尚书六号有如下新特点：
1、识别字集加大，简体识别能够识别全部国标二级汉字，繁体识别能够识别简体二级汉字、台湾繁体汉字和香港繁体汉字。
2、识别字体种类增多，简体汉字和繁体汉字均能识别宋体、仿宋体、楷体、黑体、圆体、隶书、隶变、魏碑、行楷等字体。英文字体增加到100多种。
3、中英文混排的识别率大大提高。
4、提供彩色、灰度扫描功能，方便用户使用。
这个由MicroTek主推的OCR软件，总体来说，还是不错的。识别能力比较高，但是对表格的处理属于BABY的阶段，只能直接输出为TXT文本。适合一般家庭使用。
/down/get.asp?id=2391&type=1&url=1

2。汉王文本王
汉王文本王是针对机关单位、企业及有文字录入需求的个人用户，在日常的工作中，快速的对书刊、报纸、公文、档案、报表、打印稿等印刷资料内容进行录入的应用需求而推出的。本产品采用汉王科技顶尖的OCR文字识别核心，结合特定文本扫描技术，能够识别、录入百余种印刷字体和各种中英繁表图混排格式的文本，并具备朗读校对、翻译功能，是理想的表格、文字、图像录入系统。
汉王文本王突出的优势
批量输入高速准确
*可连续进行批量扫描并识别1000页稿件。
*识别速度快，每分钟高达6000字。
*全自动识别宋、仿宋、楷、黑、圆、魏碑、隶书、行楷等百余种中文简繁，英文、数字、表格、图片混排的稿件。
*识别准确率高。
一键扫入，WORD输出，真正实现与Word无缝连接。
图文表格轻松输入
不仅高效识别图片、文字，也可全面识别表格，所需录入内容瞬间即可转化成为电子表格。

汉王文本王，是我用过最牛B的OCR软件，识别率很高，特别对表格的处理。能直接导入到DOC（WORD文档）中，是一个直正的表格，很漂亮的，还能直接导入到XLS（EXCEL文档）中，直接帮你分配好表格中的每一格每一栏。强烈推荐啊。
2.5的版本是2.3升级的。支持国货啊。还有一个叫文豪5300

202.110.201.216/soft/行业软件/办公软件/龙卷风OCR文字识别大比拼V1.0.ISO
包括：
清华TH-OCR2000千禧专业版
汉王文本王文豪5300
蒙恬认识王专业版3.0
ABBYY FineReader6.0专业版
丹青中英文文件辨识系统V4.0
尚书六号表格文字识别系统
清华紫光文通手写识别系统
XEROX TextBridge PRO9.0零售版