搜索

分享

QQ空间 QQ好友新浪微博微信

PDF文档处理为什么会用到OCR文字识别

markingben 2016-08-10

展开全文

　你曾遇到过PDF难题吗？比如，无法选择文本进行复制，或者搜索PDF文档中已有的单词时，却搜索不到任何结果，原因很简单，只要有正确的工具，问题就能轻松解决。

　　为什么PDF文档表现有所不同？

　　PDF文档根据文件创建的方式，可分为三种不同的类型，文件最初的创建方式规定了PDF内容（文本、图像、表格）能否访问，或是否“锁定”在页面图像中。

　　想要理解PDF的结构，应该按照图层来理解。上面一层只是一张图片，如果你想访问文本，则需要有第二图层，即文本层，位于图片层下面，被隐藏了。

　　“真正”或数字创建的PDF文档

　　

　　使用软件Microsoft Word、Excel，或者通过软件应用程序（虚拟打印机）中的“打印”功能创建，由文本和图像组成。可搜索，内容可访问，以便注释和重复使用。

　　“仅图像”或扫描的PDF文档

　　

　　由一体化设备和办公室扫描仪上的扫描纸质文档创建，或者转换jpg或tiff图像为PDF时创建。

　　仅包含扫描的或者拍摄的页面图像，底下不带有文本层，内容“锁定”在快照图像中。不可进行搜索，内容不可访问。

　　可搜索的扫描PDF文档

　　

　　文本层被添加到图像层，通常放在下面，可进行搜索，内容可访问，可进行注释和重复使用。可能会出现一些限制，比如图片元素和图像。

　　什么是OCR？它和处理PDF文档有何关联？

　　很多扫描仪都可以创建PDF文档，但也仅限于创建图像或文档快照，不过就是一堆黑白或彩色的点，称为光栅图像，无其他数据。要想从扫描文档或“仅图像”PDF文档中提取并利用数据，需要OCR文字识别软件，比如ABBYY FineReader，或者PDF工具，如ABBYY PDF Transformer+。

　　光学字符识别或者文本识别可以解锁“困”在扫描/拍摄的文档图像上的信息，OCR软件可以通过翻译字符图像“读取”文档里的内容，让转换文档内容和布局为可搜索和可编辑的格式成为可能。

　　

　　OCR对你处理PDF的日常工作有何影响呢？

　　现在你知道了：每次想要选取PDF文档里的内容时都会失败，要么就是无法搜索文档里的关键词，几乎就是在处理扫描的“仅图像”PDF文档。

　　有了OCR，使用ABBYY FineReader，就可以将扫描的“仅图像”PDF文档转换为包含可选择和可搜索文本的PDF文档，实现轻松管理、复制和索引内容，以及全文本搜索。

　　处理PDF文档变得更加简单和更有效率，因为：

　　可以处理扫描的纸质文档和“仅图像”PDF文档，就跟处理数字创建的PDF文档一样；

　　可以更加快速地从文档中找到并访问信息，再也不用在纸堆里翻箱倒海了；

　　可以重复使用文档里的信息，无需手动重新输入；

　　和同时协作的时候，可以选择文本进行强调、评论和添加注释；

　　可以使用“搜索和编辑”功能编辑文档中出现的机密信息。

　　本文来源于：http://www./zhishiku/fr-ocr-pdf.html　你曾遇到过PDF难题吗？比如，无法选择文本进行复制，或者搜索PDF文档中已有的单词时，却搜索不到任何结果，原因很简单，只要有正确的工具，问题就能轻松解决。

　　为什么PDF文档表现有所不同？

　　PDF文档根据文件创建的方式，可分为三种不同的类型，文件最初的创建方式规定了PDF内容（文本、图像、表格）能否访问，或是否“锁定”在页面图像中。

　　想要理解PDF的结构，应该按照图层来理解。上面一层只是一张图片，如果你想访问文本，则需要有第二图层，即文本层，位于图片层下面，被隐藏了。

　　“真正”或数字创建的PDF文档

　　

　　使用软件Microsoft Word、Excel，或者通过软件应用程序（虚拟打印机）中的“打印”功能创建，由文本和图像组成。可搜索，内容可访问，以便注释和重复使用。

　　“仅图像”或扫描的PDF文档

　　

　　由一体化设备和办公室扫描仪上的扫描纸质文档创建，或者转换jpg或tiff图像为PDF时创建。

　　仅包含扫描的或者拍摄的页面图像，底下不带有文本层，内容“锁定”在快照图像中。不可进行搜索，内容不可访问。

　　可搜索的扫描PDF文档

　　

　　文本层被添加到图像层，通常放在下面，可进行搜索，内容可访问，可进行注释和重复使用。可能会出现一些限制，比如图片元素和图像。

　　什么是OCR？它和处理PDF文档有何关联？

　　很多扫描仪都可以创建PDF文档，但也仅限于创建图像或文档快照，不过就是一堆黑白或彩色的点，称为光栅图像，无其他数据。要想从扫描文档或“仅图像”PDF文档中提取并利用数据，需要OCR文字识别软件，比如ABBYY FineReader，或者PDF工具，如ABBYY PDF Transformer+。

　　光学字符识别或者文本识别可以解锁“困”在扫描/拍摄的文档图像上的信息，OCR软件可以通过翻译字符图像“读取”文档里的内容，让转换文档内容和布局为可搜索和可编辑的格式成为可能。

　　

　　OCR对你处理PDF的日常工作有何影响呢？

　　现在你知道了：每次想要选取PDF文档里的内容时都会失败，要么就是无法搜索文档里的关键词，几乎就是在处理扫描的“仅图像”PDF文档。

　　有了OCR，使用ABBYY FineReader，就可以将扫描的“仅图像”PDF文档转换为包含可选择和可搜索文本的PDF文档，实现轻松管理、复制和索引内容，以及全文本搜索。

　　处理PDF文档变得更加简单和更有效率，因为：

　　可以处理扫描的纸质文档和“仅图像”PDF文档，就跟处理数字创建的PDF文档一样；

　　可以更加快速地从文档中找到并访问信息，再也不用在纸堆里翻箱倒海了；

　　可以重复使用文档里的信息，无需手动重新输入；

　　和同时协作的时候，可以选择文本进行强调、评论和添加注释；

　　可以使用“搜索和编辑”功能编辑文档中出现的机密信息。

　　本文来源于：http://www./zhishiku/fr-ocr-pdf.html

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： markingben > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

markingben

关注对话

TA的最新馆藏

MindManager中如何导出链接导图
xmind辅助项目管理的技巧
Mindmanager箭头快捷操作技巧
怎么在思维导图XMind中绘制鱼骨图
四点用好思维导图的技巧
FL Studio预处理效果使用教程

喜欢该文的人也喜欢更多

热门阅读换一换