分享

如何将PDF文件转换为文本文件(txt/word)汇总

 dj8888 2012-07-04

如何将PDF文件转换为文本文件(txt/word)汇总  

2009-12-27 09:40:11|  分类: 默认分类 |字号 订阅

 

 

如何将PDF文件转换为文本文件(txt/word)汇总

     1.在pc中打开PDF -—>打印,选择 Microsoft office document image writer —>保存文件.mdi格式,打开文件-> 工具->使用ORC识别文本即可

     2.(适合大量文本,少量的不如自己打字了)将图片中的文字转换为TXT文本。

首先保证你的机器上装有PHOTOSHOP,再从网上下一个清华紫光的OCR识别软件安装好。

打开PS,从文件-导入-PDF图像找到你需要的处理的文件全部导入后,将需要处理的页面

保存为BMP或者TIF文件后。打开OCR识别软件,将图片调入后进行识别,识别出来后保存就

可以了,程序自动将其保存为TXT文件。有一点需要说明:两个软件处理的时候会将每一个

页面保存为每一个文件。如果文档为英文且字体比较小的话识别时会有些错误。比如会将

i识别为l之类,在识别后你可以对照修改再保存。

   3.现在有很多“PDF”转换为“TXT”的软件,不是对中文支持不好,就是共享软件,需要注册才可以使用全部功能。其实并不需要第三方软件,用百度的硬盘搜索,也可以免费将PDF转换为文本文件。

第一步:首先进入百度硬盘搜索的主界面,在文档下选择PDF(免费下载硬盘搜索程序:http://disk.baidu.com/) 

第二步:接下来输入文件所在的目录,点击“在结果中查找”按钮,会在下面显示出所要寻找的PDF文件

第三步:在要进行转换的PDF文件右边点击“快照”按钮,就会以纯文本的形式将文件内容显示出来。需要做的就是将文件内容复制,并且粘贴到记事本中保存,这样就可以将PDF的内容转换成TXT纯文本了

4. Office2003实现PDF文件转Word文档

         经过尝试,发现可以利用 Office 2003 中的 Microsoft Office Document Imaging 组件来实现PDF转WORD文档,也就是说利用WORD来完成该任务。方法如下:

           用Adobe Reader 打开想转换的PDF文件 ,接下来 选择 “文件→打印”菜单,在打开的“打印”窗口中将 “打印机”栏中的名称设置为 “Microsoft Office Document Image Writer”,确认后将该PDF文 件输出为 MDI格式的虚拟打印文件 。

          注: 如果没有找到“Microsoft Office Document Image Writer”项,使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“Office 工具 Microsoft DRAW转换器”。

          然后, 运行 “Microsoft Office Document Imaging”,并利用它来 打开 刚才保存的MDI文件,选择“工具→ 将文本发送到Word ”菜单,在弹出的窗口中选中“ 在输出时保持图片版式不变 ”,确认后系统会提示“必须在执行此操作前重新运行 OCR 。这可能需要一些时间”,不管它, 确认 即可。

           注: 对PDF转DOC的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。

                   以上仅在 word2003 中可用,其他版本没有Microsoft Office Document Image Writer。

       5.下载PDF2TXT软件转换器程序PDF2TXT v3.1 汉化版,下载地址:http://www./soft/dl008198.html(内附汉化补丁+英文原版软件)破解注册码:71C5I$$@GQTKXO29

补:

  1、Doc格式文件转换为Pdf文件

  Doc文件向Pdf格式转换还是比较容易的,主要通过Adobe 公司提供的Adobe Distiller虚拟服务器实现的,在安装了Adobe Acrobat完全版后,在Windows系统的打印机任务中就会添加一个Acrobat Distiller打印机,如图1所示:

如何将PDF文件转换为文本文件(txt/word)汇总 - fzls - fzls

图1

  现在比较流行的DoctoPdf类软件如Pdfprint等的机理都是调用Adobe Distiller打印机实现的,如果想把一个Doc文件转换为Pdf文件,只要用Office Word打开该Doc文件,然后在“文件”—>“打印”中选择Acrobat Distiller打印机即可,如图2所示:

如何将PDF文件转换为文本文件(txt/word)汇总 - fzls - fzls

图2

这样,就可以很轻松的将Doc格式的文件转换为Pdf文件。

  2、Pdf格式文件转换为Doc文件

  Pdf格式文件向Doc文件转换相对比较难,因为Pdf格式与Doc格式解码格式不同,在Pdf下的回车符、换行符以及相关的图片格式无法直接转换为Doc文件,笔者之前一直使用复制文本,然后粘贴到Word中实现Pdf向Doc格式的转换。

  今天突然发现了一款非常好的Pdf向Doc格式转换的工具,ScanSoft PDF Converter for Microsoft Word v1.0。它是由ScanSoft公司同微软共同组队开发了一个全新的Office 2003 插件。该插件可以帮助你通过Word直接将Pdf文档转换为Word文档,并且完全保留原来的格式和版面设计。

  这个名为 ScanSoft PDF Converter for Microsoft Word 的插件是首先捕获Pdf文档中的信息,分离文字同图片,表格和卷,再将其统一到Word格式。现在你可以重新利用早先你从网络上下载或Email中收到的Pdf文件中的信息,而无需添加任何其他软件。

  ScanSoft PDF Converter for Microsoft 已经非常紧密的同Office 2003整合在一起了,有两种方式可以将Pdf格式转换成Doc文件。

  第一种方式,在Microsoft Word 2003中你可以直接通过“文件”—>“打开”来打开Pdf文件。ScanSoft PDF Converter for Microsoft Word插件会自动弹出了,如图3所示,经过转换后我们就可以得到想要的Doc文件。

如何将PDF文件转换为文本文件(txt/word)汇总 - fzls - fzls

图3

  第二种方式,ScanSoft公司也已经开发了基于此的Smart Tag(Office 2003中重要的功能元件)能够轻松的通过右键来将PDF文件转换成为 Microsoft Word 文件(如图4所示)。

如何将PDF文件转换为文本文件(txt/word)汇总 - fzls - fzls

图4

  注意,在安装ScanSoft PDF Converter for Microsoft Word的时候建议关闭正在运行的Office Word,Internet Explorer和Outlook等软件。

在 Microsoft Office Document Imaging 2003 中使用扫描仪

2009-04-22 12:01

适用于
Microsoft Office 2003

Microsoft Office Document Imaging 程序包含两个组件,扫描组件和图像处理组件。扫描组件通过使用安装的任何扫描仪来控制将文档扫描到计算机中的过程。扫描完成后,将立即自动对扫描文档执行 光学字符识别 (OCR) (OCR:将文本图像(如扫描的文档)转换为实际的文本字符。也称为文本识别。) 。您可以轻松地将多个页面扫描到单个文件中。图像处理组件使在屏幕上查看和处理扫描文档变得更容易。

扫描仪驱动程序:TWAIN 驱动程序和 WIA 驱动程序

大多数扫描仪使用 TWAIN 驱动程序在扫描仪与计算机之间传输状态和设置信息。在 Microsoft Windows? XP 以及更高版本中,扫描仪还可以包括 Windows 图像采集 (WIA) 驱动程序。Microsoft Office Document Imaging 使用这些驱动程序来确定扫描仪的性能以及从扫描仪获取图像。

Document Imaging 包含一个已识别扫描仪和驱动程序的数据库。如果 Document Imaging 识别到扫描仪,您可以选择在每次扫描时显示扫描仪驱动程序对话框并自己调整扫描设置,也可以让 Document Imaging 为您管理扫描过程。

在带有自动文档送纸器的扫描仪上,WIA 驱动程序可能无法正常工作。如果扫描仪带有自动文档送纸器,则应该安装并使用 TWAIN 驱动程序以获得最佳效果。

一些扫描仪使用 TWAIN 仿真驱动程序。Document Imaging 不支持仿真驱动程序。如果您的扫描仪使用 TWAIN 仿真驱动程序,请与制造商联系以获取最新版本的可兼容 TWAIN 或 WIA 驱动程序。

扫描文件的格式和压缩

Document Imaging 使用“Microsoft Document Imaging 格式 (MDI)”或“Tag 图像文件格式 (TIFF)”存储扫描的图像。结果文件比以“联合图像专家组 (JPEG)”格式存储的同一图像的文件要大。两种格式都可用于存储由 OCR 识别的文本和图像。

Microsoft Document Imaging 格式 (MDI)

MDI 文件格式基于专为按页面版式保存图像而设计的 TIFF 格式。在 Document Imaging 中,您可按 MDI 格式和 IFF 格式打开和保存扫描的文件。

通常,图像保存为 MDI 文件格式比保存为 TIFF 文件格式占用更少的磁盘空间。以 MDI 文件格式保存的图像质量与以 TIFF 格式保存的同一图像的质量相当。

Tag 图像文件格式 (TIFF)

TIFF 是一种适用于多种图像处理程序(包括扫描和传真程序)的常用格式。您可以使用多种其他图形处理程序来打开和编辑使用 Document Imaging 创建的 TIFF 文件。请注意:只能在 Microsoft Office Document Imaging 2003 中打开或编辑 MDI 文件。如果希望与正在使用 Microsoft Office Document Imaging 2002 或其他文档图像处理程序的用户共享文件,请将文件保存为 TIFF 格式以与其他人员使用的程序相兼容。

联合图像专家组 (JPEG)

JPEG 是 Web 图形最常用的文件格式。因为 JPEG 文件具有很高的文件压缩比,所以它们的下载速度很快。JPEG 文件使用的压缩方法会导致图像细节和清晰度方面的损失。细节的损失会影响 OCR 质量,因此不容易得到满意的 OCR 效果。这就是 Document Imaging 文件存储为 MDI 或 TIFF 格式而非 JPEG 格式的原因。

JPEG 格式用于保存从 Document Imaging 复制到其他程序的图像,包括使用“复制”或“复制图像”命令(“编辑”菜单)或者“将文本发送到 Word”命令(“工具”菜单)的场合。Document Imaging 支持复制最大为 2 兆字节 (MB) 的图像。这意味着如果在 Document Imaging 中复制一个较大的高分辨率 (600 dpi) 图像,粘贴图像的图像保真度可能会比较低,这样可以在保留原始图像尺寸的同时使文件大小保持在 2 MB 的限制内。

关于压缩和 OCR 效果的提示

Document Imaging 可用于查看使用其他程序创建的标准 TIFF 文件。通过电子邮件或计算机上的传真程序收到的传真经常存储为 TIFF 文件。为了使用传真中的文本(如将文本复制到其他程序中),您可以在 Document Imaging 中打开该 TIFF 文件,然后在“工具”菜单上,单击“使用 OCR 识别文本”以运行 OCR。在 Document Imaging 中保存 MDI 或 TIFF 文件时,会将 OCR 信息添加到文件中并压缩原始图像。运行 OCR 并保存文件后,就可以对传真中的文本进行搜索了。

以 300 dpi 左右的分辨率扫描图像可获得最佳的 OCR 效果。大多数扫描图像的分辨率是 300 dpi,而 Document Imaging 中的默认扫描预设被设置为 200 dpi 或 300 dpi。在 Document Imaging 中,最高可以使用 1200 dpi 的分辨率来扫描文档。但是,将分辨率设置高于 300 dpi 会显著增大扫描时间和文件大小,并且较高的分辨率设置不一定会获得更好的 OCR 效果。

向多页扫描文件中添加页面

在 Document Imaging 中,您可以将多个文件拖动到单独的文件中以创建一个较大的文件。例如,您可以扫描上次出差或住宅建设项目的所有收据,然后将它们放到一个文件中以便参考。如果忘记了某个收据,您可以很容易地将其添加到文件中:

  1. 在 Document Imaging 中,打开包含先前扫描的所有收据的文件。
  2. 在“文件”菜单上,单击“扫描新文档”,然后扫描要添加的收据。
  3. 在“窗口”菜单上,单击“全部重排”以显示带有新扫描收据的文档和带有先前扫描收据的文档。
  4. 在新扫描收据的 缩略图窗格 (缩略图窗格:将当前扫描的文档作为一个或多个小图像来提供。) 中,选择该缩略图,然后将其拖动到带有先前扫描收据的文档的缩略图窗格中。
  5. 请确保保存包含所有收据的文件。

您还可以使用缩略图窗格来重排多页文件中的页面。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多