分享

pytesseract-谷歌 Tesseract OCR引擎包装的python库

 CNStudent 2021-01-03

Python-tesseract是用于python的光学字符识别(OCR)工具。也就是说,它将识别并“读取”图像中嵌入的文本。

  Python-tesseract是Google Tesseract-OCR Engine的包装。它也可以用作tesseract的独立调用脚本,因为它可以读取Pillow和Leptonica图像库支持的所有图像类型,包括jpeg,png,gif,bmp,tiff等。此外,如果将Python-tesseract用作脚本,它将打印识别的文本,而不是将其写入文件。

用法

快速开始

注意:测试图像位于tests/dataGit存储库的文件夹中。

先决条件:

Python-tesseract需要Python 2.7或Python 3.6+

您将需要Python Imaging Library(PIL)(或Pillow fork)。在Debian / Ubuntu下,这是python-imaging或python3-imaging软件包。

安装Google Tesseract OCR (有关如何在Linux,Mac OSX和Windows上安装引擎的附加信息)。您必须能够将tesseract命令作为tesseract调用。如果不是这种情况(例如,因为tesseract不在您的PATH中),则必须更改“ tesseract_cmd”变量pytesseract.pytesseract.tesseract_cmd。在Debian / Ubuntu下,您可以使用软件包tesseract-ocr。对于Mac OS用户。请安装自制软件包tesseract。

注:请确保您也已安装tessconfigs并configs从正方体-OCR / tessconfigs或通过OS包管理器。

  通过pip安装:pip install pytesseract

或者您也可以通过网盘下载pytesseract的源代码进行手动安装。

测试

要运行该项目的测试套件,请安装并运行tox。确保已tesseract 安装并且在PATH中。

pip install tox 
tox

pip install tox

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多