扫描版与非扫描版 PDF 文字复制

文炳春秋 2020-10-16

展开全文

许多影印版的 PDF 书籍资料，在阅读的时候都有一个让人很烦恼的问题：无法复制书中的文字内容！尤其这几天在阅读学习《Python 数据可视化》（科斯·拉曼（Kirthi Raman）著）这本书，想要记录一下学习笔记复制一些书中文字的时候，无法复制文字的问题简直让我忍无可忍。

Google 百度了一番，尝试了 Chrome 打开 PDF 后，在打印中另存为 PDF、S mallpdf 在线移除密码，以及其他的一些 PDF 解除加密都没有效果。后来才知道，原来我从经管之家使用 100 个论坛币下载的这本《Python 数据可视化》应该是一本影印版的 PDF 文件，而非加密的文档，一开始尝试 PDF 解除加密的解决方法方向本来就不对。应该变成如何从扫描版 PDF 文件中复制文字。

关于 PDF 扫描版与非扫描版，于是 Google 了一下，有这么个答案：

PDF 非扫描版就是直接转换的 PDF 文件，并且加了密。可以通过软件解密后编辑或转换。PDF 扫描版就是通过扫描仪扫描生成位图格式的 PDF 文件，并且加了密。此文件以图片形式存在，可以通过软件解密后要进行 OCR 识别后进行编辑文字。识别的好与坏要根据扫描的分辨率来确定。
扫描版与非扫描版 PDF 一般都可以单个文字选中复制修改，最大的区别是 PDF 文字版里面的文字是以矢量格式存储的，无论怎么放大都不会有锯齿或者失真的情况，而扫描版的 PDF 文件，在性质上属于位图格式的，文字是以图片的形式存储的，放大后会有失真或者严重的锯齿情况。

那么，回到原来的问题，扫描版的 PDF 如何复制里面的文字？我是参考了《Acrobat2018怎么使用OCR识别扫描版PDF中的文字?》，完美解决了这个问题。

Acrobat 2017/2018 中不像之前的版本在编辑中能找到写有 OCR 功能的选项，那是因为 ocr 识别改名为“编辑文本和图像”了，下面我们就来看看 Acrobat2018 怎么使用 OCR 识别扫描版 PDF 中的文字教程。

1、打开要识别的PDF，如果该PDF没有加密，那么点击“编辑-编辑文本和图像”或者在任意页面鼠标右击，选择“编辑图像”，就可以进行OCR识别了。

2、进行第一步之后，默认执行的单页的识别，但是如果你要识别整个PDF文件，怎么办？

3、点击图中右下角扫描文档下的“设置”，在弹出的窗口中勾选“所有页面均可编辑”，点击确定，再点击编辑图像时，就可以全篇识别了。

4、但是面对加密的文档，会提示需要“输入口令”，这个时候需要使用软件PDFPasswordRmover，移除PDF的密码，就可以按照上面的方法愉快的OCR识别了。有时也会出现，点了“编辑图像”，但是未能进行OCR识别，只是把当页识别成一整张图片，我也用PDFPasswordRmover处理了一下，然后再进行OCR识别，就没问题了。