分享

PDF文档处理为什么会用到OCR文字识别

 markingben 2016-08-10

 你曾遇到过PDF难题吗?比如,无法选择文本进行复制,或者搜索PDF文档中已有的单词时,却搜索不到任何结果,原因很简单,只要有正确的工具,问题就能轻松解决。

  为什么PDF文档表现有所不同?

  PDF文档根据文件创建的方式,可分为三种不同的类型,文件最初的创建方式规定了PDF内容(文本、图像、表格)能否访问,或是否“锁定”在页面图像中。

  想要理解PDF的结构,应该按照图层来理解。上面一层只是一张图片,如果你想访问文本,则需要有第二图层,即文本层,位于图片层下面,被隐藏了。

  “真正”或数字创建的PDF文档

  

  使用软件Microsoft Word、Excel,或者通过软件应用程序(虚拟打印机)中的“打印”功能创建,由文本和图像组成。可搜索,内容可访问,以便注释和重复使用。

  “仅图像”或扫描的PDF文档

  

  由一体化设备和办公室扫描仪上的扫描纸质文档创建,或者转换jpg或tiff图像为PDF时创建。

  仅包含扫描的或者拍摄的页面图像,底下不带有文本层,内容“锁定”在快照图像中。不可进行搜索,内容不可访问。

  可搜索的扫描PDF文档

  

  文本层被添加到图像层,通常放在下面,可进行搜索,内容可访问,可进行注释和重复使用。可能会出现一些限制,比如图片元素和图像。

  什么是OCR?它和处理PDF文档有何关联?

  很多扫描仪都可以创建PDF文档,但也仅限于创建图像或文档快照,不过就是一堆黑白或彩色的点,称为光栅图像,无其他数据。要想从扫描文档或“仅图像”PDF文档中提取并利用数据,需要OCR文字识别软件,比如ABBYY FineReader,或者PDF工具,如ABBYY PDF Transformer+。

  光学字符识别或者文本识别可以解锁“困”在扫描/拍摄的文档图像上的信息,OCR软件可以通过翻译字符图像“读取”文档里的内容,让转换文档内容和布局为可搜索和可编辑的格式成为可能。

  

  OCR对你处理PDF的日常工作有何影响呢?

  现在你知道了:每次想要选取PDF文档里的内容时都会失败,要么就是无法搜索文档里的关键词,几乎就是在处理扫描的“仅图像”PDF文档。

  有了OCR,使用ABBYY FineReader,就可以将扫描的“仅图像”PDF文档转换为包含可选择和可搜索文本的PDF文档,实现轻松管理、复制和索引内容,以及全文本搜索。

  处理PDF文档变得更加简单和更有效率,因为:

  可以处理扫描的纸质文档和“仅图像”PDF文档,就跟处理数字创建的PDF文档一样;

  可以更加快速地从文档中找到并访问信息,再也不用在纸堆里翻箱倒海了;

  可以重复使用文档里的信息,无需手动重新输入;

  和同时协作的时候,可以选择文本进行强调、评论和添加注释;

  可以使用“搜索和编辑”功能编辑文档中出现的机密信息。

  本文来源于:http://www./zhishiku/fr-ocr-pdf.html 你曾遇到过PDF难题吗?比如,无法选择文本进行复制,或者搜索PDF文档中已有的单词时,却搜索不到任何结果,原因很简单,只要有正确的工具,问题就能轻松解决。

  为什么PDF文档表现有所不同?

  PDF文档根据文件创建的方式,可分为三种不同的类型,文件最初的创建方式规定了PDF内容(文本、图像、表格)能否访问,或是否“锁定”在页面图像中。

  想要理解PDF的结构,应该按照图层来理解。上面一层只是一张图片,如果你想访问文本,则需要有第二图层,即文本层,位于图片层下面,被隐藏了。

  “真正”或数字创建的PDF文档

  

  使用软件Microsoft Word、Excel,或者通过软件应用程序(虚拟打印机)中的“打印”功能创建,由文本和图像组成。可搜索,内容可访问,以便注释和重复使用。

  “仅图像”或扫描的PDF文档

  

  由一体化设备和办公室扫描仪上的扫描纸质文档创建,或者转换jpg或tiff图像为PDF时创建。

  仅包含扫描的或者拍摄的页面图像,底下不带有文本层,内容“锁定”在快照图像中。不可进行搜索,内容不可访问。

  可搜索的扫描PDF文档

  

  文本层被添加到图像层,通常放在下面,可进行搜索,内容可访问,可进行注释和重复使用。可能会出现一些限制,比如图片元素和图像。

  什么是OCR?它和处理PDF文档有何关联?

  很多扫描仪都可以创建PDF文档,但也仅限于创建图像或文档快照,不过就是一堆黑白或彩色的点,称为光栅图像,无其他数据。要想从扫描文档或“仅图像”PDF文档中提取并利用数据,需要OCR文字识别软件,比如ABBYY FineReader,或者PDF工具,如ABBYY PDF Transformer+。

  光学字符识别或者文本识别可以解锁“困”在扫描/拍摄的文档图像上的信息,OCR软件可以通过翻译字符图像“读取”文档里的内容,让转换文档内容和布局为可搜索和可编辑的格式成为可能。

  

  OCR对你处理PDF的日常工作有何影响呢?

  现在你知道了:每次想要选取PDF文档里的内容时都会失败,要么就是无法搜索文档里的关键词,几乎就是在处理扫描的“仅图像”PDF文档。

  有了OCR,使用ABBYY FineReader,就可以将扫描的“仅图像”PDF文档转换为包含可选择和可搜索文本的PDF文档,实现轻松管理、复制和索引内容,以及全文本搜索。

  处理PDF文档变得更加简单和更有效率,因为:

  可以处理扫描的纸质文档和“仅图像”PDF文档,就跟处理数字创建的PDF文档一样;

  可以更加快速地从文档中找到并访问信息,再也不用在纸堆里翻箱倒海了;

  可以重复使用文档里的信息,无需手动重新输入;

  和同时协作的时候,可以选择文本进行强调、评论和添加注释;

  可以使用“搜索和编辑”功能编辑文档中出现的机密信息。

  本文来源于:http://www./zhishiku/fr-ocr-pdf.html

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多