分享

pdf文字提取是怎么操作的?pdf的作用及基本特征是什么?

 慕文思靜 2019-11-02

 对于pdf文档,大家平时在工作的时候,可能会遇到很多的问题,比如不知道文字提取功能是怎么操作的,所以很多时候都浪费了时间。那么pdf文字提取是怎么操作的?pdf的作用及基本特征是什么?万兴PDF专家将为您详细介绍。

  PDF文档

  PDF是由Adobe公司所开发的独特的跨平台文件格式。是便携文档格式的外语简称,同时也是该格式的扩展名。它可把文档的文本、格式、字体、颜色、分辨率、链接及图形图像、声音、动态影像等所有的信息封装在一个特殊的整合文件中。它在技术上起点高,功能全,功能大大的强过了现有的各种流行文本格式;又有大名鼎鼎、实力超群Adobe公司的极力推广,现在已经成为了新一代电子文本的不可争议的行业标准。

  pdf的作用及基本特征

  PDF文件不管是在WindowsUnix还是在苹果公司的Mac OS操作系统中都是通用的。这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。PDF格式文件目前已成为数字化信息事实上的一个工业标准。 Adobe公司设计PDF文件格式的目的是为了支持跨平台上的,多媒体集成的信息出版和发布,尤其是提供对网络信息发布的支持。为了达到此目的, PDF具有许多其他电子文档格式无法相比的优点。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。 PDF文件使用了工业标准的压缩算法,通常比PostScript文件小,易于传输与储存。

  pdf文字提取怎么操作?

  1. 第一步:先用Adobe Reader打开想转换的PDF文件,接下来选择文件打印菜单,在打开的打印窗口中将打印机栏中的名称设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。

  第二步:运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择工具将文本发送到Word”菜单,在弹出的窗口中选中在输出时保持图片版式不变,确认后系统会提示必须在执行此操作前重新运行OCR。这可能需要一些时间,不管它,确认即可。

  2. 情况一:如果pdf文档本身就是用pagemakerword转换而来的(文字非常清晰锐利,很容易识别),那你就方便了。你可以先用acrobat打开,然后点文件——>另存为——>把他保存成rtf文档,这样将把所有的pdf页保存成rtf文档,在用word打开。注意最好保存成rtf文档,要不很有可能产生乱码。小技巧:如果你只想识别pdf文件中的其中几页,那你可以现把那几页另存为新的pdf文档,再进行识别。Ny1

pdf文字提取

pdf文字提取

  情况二:如果你所得到的pdf文档是用扫描仪扫进去的图片转换的,那么就麻烦了,不过还是比手输入快多了,所以继续往下看。首先你用acrobatpdf文件打开,然后点文件——>另存为——>把他保存成图片格式*.tiff(这是无压缩图片格式,以便识别),然后到网上下载文字识别软件,建议用尚书六号(现在好像出到七号了,很有名,随处都可以下到),安装好后,打开转换好的tiff图片,点击识别,看,文字出来了吧,尚书系列文字识别软件功能十分强大,你可以在里面把文字都编辑好了,再保存成rtftxt文件,然后粘贴到word里就可以使用了,注意过滤回车符。

  以上就是关于pdf文字提取的详细介绍。看完文章,大家对如何提取文字是不是清楚了很多,相信大家在以后的工作之中也会感到轻松,推荐使用万兴PDF专家。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多