pdf文字提取是怎么操作的？pdf的作用及基本特征是什么？

慕文思靜 2019-11-02

展开全文

　对于pdf文档，大家平时在工作的时候，可能会遇到很多的问题，比如不知道文字提取功能是怎么操作的，所以很多时候都浪费了时间。那么pdf文字提取是怎么操作的?pdf的作用及基本特征是什么?万兴PDF专家将为您详细介绍。

　　PDF文档

　　PDF是由Adobe公司所开发的独特的跨平台文件格式。是便携文档格式的外语简称，同时也是该格式的扩展名。它可把文档的文本、格式、字体、颜色、分辨率、链接及图形图像、声音、动态影像等所有的信息封装在一个特殊的整合文件中。它在技术上起点高，功能全，功能大大的强过了现有的各种流行文本格式;又有大名鼎鼎、实力超群Adobe公司的极力推广，现在已经成为了新一代电子文本的不可争议的行业标准。

　　pdf的作用及基本特征

　　PDF文件不管是在Windows，Unix还是在苹果公司的Mac OS操作系统中都是通用的。这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。PDF格式文件目前已成为数字化信息事实上的一个工业标准。 Adobe公司设计PDF文件格式的目的是为了支持跨平台上的，多媒体集成的信息出版和发布，尤其是提供对网络信息发布的支持。为了达到此目的， PDF具有许多其他电子文档格式无法相比的优点。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息，支持特长文件，集成度和安全可靠性都较高。 PDF文件使用了工业标准的压缩算法，通常比PostScript文件小，易于传输与储存。

　　pdf文字提取怎么操作？

　　1. 第一步：先用Adobe Reader打开想转换的PDF文件，接下来选择“文件→打印”菜单，在打开的“打印”窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”，确认后将该PDF文件输出为MDI格式的虚拟打印文件。

　　第二步：运行Microsoft Office Document Imaging，并利用它来打开刚才保存的MDI文件，选择“工具→将文本发送到Word”菜单，在弹出的窗口中选中“在输出时保持图片版式不变”，确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”，不管它，确认即可。

　　2. 情况一：如果pdf文档本身就是用pagemaker或word转换而来的(文字非常清晰锐利，很容易识别)，那你就方便了。你可以先用acrobat打开，然后点文件——>另存为——>把他保存成rtf文档，这样将把所有的pdf页保存成rtf文档，在用word打开。注意最好保存成rtf文档，要不很有可能产生乱码。小技巧：如果你只想识别pdf文件中的其中几页，那你可以现把那几页另存为新的pdf文档，再进行识别。Ny1

pdf文字提取

　　情况二：如果你所得到的pdf文档是用扫描仪扫进去的图片转换的，那么就麻烦了，不过还是比手输入快多了，所以继续往下看。首先你用acrobat把pdf文件打开，然后点文件——>另存为——>把他保存成图片格式*.tiff(这是无压缩图片格式，以便识别)，然后到网上下载文字识别软件，建议用尚书六号(现在好像出到七号了，很有名，随处都可以下到)，安装好后，打开转换好的tiff图片，点击识别，看，文字出来了吧，尚书系列文字识别软件功能十分强大，你可以在里面把文字都编辑好了，再保存成rtf或txt文件，然后粘贴到word里就可以使用了，注意过滤回车符。