分享

求助: 求可以从图片中提取文字的软件

 龙凤冈 2011-09-10
从图片中提取文字方法一...从图片中提取文字

  现在许多网站都有EXE、CHM、PDF等格式的电子书下载。很多时候这些电子书可以看,但是其中的内容却不能复制。如果我们需要这些电子书中的文本内容,是不是就非得要重新输入一遍呢?当然不用这么麻烦。下面我就告诉大家如何将这些内容从资料中提取出来。

Snaglt文字提取

  Sn.agIt是一款功能强大的图片捕 捉工具,但是很多朋友可能不知道,它 还有文字捕捉的功能,能将文字从图片中提取出来。目前它的最新版本为7.O。启动SnagIt 7.O,在左侧选中“窗口文字”(如图),在左侧选择输入位置(比如屏幕、区域、窗口等),输出位置(比如打印机、剪贴板、文件等)。设置完成后,.回到要捕捉文字的文件窗口,按下“捕获”快捷键,即可将文字提取出来。
  此时我们会发现提取的文字中有很多空格或出现段落错乱等情况,这时我们可以用文字编辑工具进行重新编排。这里以WPS Offi.ce 2003为例:将提取文字复制粘贴至新文档中,依次选择菜单“工具”→“文字”下的 “段落重排”→“删除段首空格”→“删除空段”命令,这时文章已经变得很整齐了。

文字识别工具

  文字识别工具简称OCR工具。这里我们以清华紫光OCR文字识别工具为例。打开带有文字的图片(如果是电子书籍,可按下“Print Screerl”屏幕捕获键将其保存为图片),根据所要提取的文字进行裁剪。启动OCR,打开已裁减的图片,用鼠标在图片中绘制出待识别的文字区域,按下工具栏“识别"按钮即可。文字识别结束后,会自动在一个文本编辑器中打开已提取文字,将结果复制粘贴至其他文档中即可。


方法二....利用word提取

如果你需要将图片(PDF文件)中的文字提取出来。我这里就教你一个方法吧。



不过刚装的就少了这个过程了。接着在勾选 “选择应用程序的高级自定义”这里要注意的是刚装的在选择安装时要选自定义,而不是默认的“经典“

打开Office工具→Microsoft Office Document Imaging,按提示选择安装“扫描、OCR和索引服务筛选器”和“Microsoft Office Document Image Writer”


进行更新完毕后。在安装Microsoft Office Document Imaging组件后,Windows XP系统会自动安装一个名为“Microsoft Office Document Imaging Writer”的打印机(虚拟打印机)。Imaging组件可以通过这个虚拟打印机,将PDF文件所保存的信息识别,从而达到将它直接转换输出到Word等文字编辑工具中的目的。
第二步:用Adobe Reader 打开想转换的PDF文件,接下来 选择 “文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置为 “Microsoft Office Document Image Writer”


确认后将该PDF文件输出为 MDI格式的虚拟打印文件

然后,运行 “Microsoft Office Document Imaging”,并利用它来 打开 刚才保存的MDI文件,选择“工具→ 将文本发送到Word

在弹出的“将文本发送到Word”窗口中选中“所有页面”和“ 在输出时保持图片版式不变

确认后系统会提示“必须在您执行此操作前识别该文档中的文本(OCR)。这可能需要一些时间”,不管它,点击确定即可

识别完成后,系统会自动调出Word,这时你就可以看到,刚才还不能编辑的文字,乖乖的出现在Word编辑窗口中


需要说明的是,利用Office 2003实现PDF文件转的Word文档不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对。

发表于 2010-5-29 13:20
楼上的太麻烦了。
用CAJViewer 7.0就ok了。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多