对于pdf文档,大家平时在工作的时候,可能会遇到很多的问题,比如不知道文字提取功能是怎么操作的,所以很多时候都浪费了时间。那么pdf文字提取是怎么操作的?pdf的作用及基本特征是什么?万兴PDF专家将为您详细介绍。 PDF文档 PDF是由Adobe公司所开发的独特的跨平台文件格式。是便携文档格式的外语简称,同时也是该格式的扩展名。它可把文档的文本、格式、字体、颜色、分辨率、链接及图形图像、声音、动态影像等所有的信息封装在一个特殊的整合文件中。它在技术上起点高,功能全,功能大大的强过了现有的各种流行文本格式;又有大名鼎鼎、实力超群Adobe公司的极力推广,现在已经成为了新一代电子文本的不可争议的行业标准。 pdf的作用及基本特征 PDF文件不管是在Windows,Unix还是在苹果公司的Mac OS操作系统中都是通用的。这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。PDF格式文件目前已成为数字化信息事实上的一个工业标准。 Adobe公司设计PDF文件格式的目的是为了支持跨平台上的,多媒体集成的信息出版和发布,尤其是提供对网络信息发布的支持。为了达到此目的, PDF具有许多其他电子文档格式无法相比的优点。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。 PDF文件使用了工业标准的压缩算法,通常比PostScript文件小,易于传输与储存。 pdf文字提取怎么操作? 1. 第一步:先用Adobe Reader打开想转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。 第二步:运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。 2. 情况一:如果pdf文档本身就是用pagemaker或word转换而来的(文字非常清晰锐利,很容易识别),那你就方便了。你可以先用acrobat打开,然后点文件——>另存为——>把他保存成rtf文档,这样将把所有的pdf页保存成rtf文档,在用word打开。注意最好保存成rtf文档,要不很有可能产生乱码。小技巧:如果你只想识别pdf文件中的其中几页,那你可以现把那几页另存为新的pdf文档,再进行识别。Ny1
pdf文字提取 情况二:如果你所得到的pdf文档是用扫描仪扫进去的图片转换的,那么就麻烦了,不过还是比手输入快多了,所以继续往下看。首先你用acrobat把pdf文件打开,然后点文件——>另存为——>把他保存成图片格式*.tiff(这是无压缩图片格式,以便识别),然后到网上下载文字识别软件,建议用尚书六号(现在好像出到七号了,很有名,随处都可以下到),安装好后,打开转换好的tiff图片,点击识别,看,文字出来了吧,尚书系列文字识别软件功能十分强大,你可以在里面把文字都编辑好了,再保存成rtf或txt文件,然后粘贴到word里就可以使用了,注意过滤回车符。 以上就是关于pdf文字提取的详细介绍。看完文章,大家对如何提取文字是不是清楚了很多,相信大家在以后的工作之中也会感到轻松,推荐使用万兴PDF专家。 |
|