分享

tesserocr-用tesseract ocr API的包装实现的字符识别python库

 CNStudent 2021-01-03

tesserocr是用tesseract ocr API的包装实现的字符识别python库。

tesserocr使用Cython直接与Tesseract的C ++ API集成,从而提供了简单的Pythonic和易于阅读的源代码。当threading 在tesseract中处理图像时释放GIL时,它与Python模块一起使用时可以实现真正的并发执行。

tesserocr设计为Pillow友好的,但也可以与图像文件一起使用。

要求

需要libtesseract(> = 3.04)和libleptonica(> = 1.71)。

在Debian / Ubuntu上:

$ apt-get install tesseract-ocr libtesseract-dev libleptonica-dev pkg-config

您可能需要手动编译tesseract以获取最新版本。请注意,LD_LIBRARY_PATH如果您安装了多个tesseract / leptonica ,则可能需要更新环境变量以指向正确的库版本。

Cython(> = 0.23)是构建和可选Pillow支持PIL.Image对象所必需的。

安装

使用pip安装:pip install tesserocr,或者通过网盘下载tesserocr的源代码进行手动安装。

设置脚本尝试检测包含/库目录(通过pkg-config,如果可用),但是您可以使用自己的参数覆盖它们,例如:

$ CPPFLAGS = -I / usr / local / include pip install tesserocr

用法

初始化并重新使用tesseract API实例为多个图像评分:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多