更新时间:2020年04月02日 09:20:49 作者:广州萤火虫
这篇文章主要介绍了python3安装OCR识别库tesserocr过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
OCR简介 OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由字符稍加扭曲变换得到的内容,我们可以使用OCR技术来讲其转化为电子文本,然后将结果提取交给服务器,便可以达到自动识别验证码的过程。 window环境 环境材料准备
安装tesserocr 1、打开链接,https://digi.bib./tesseract/,见下图。
下载最新版的tesseract-ocr-w64-setup-v5.0.0.20190623.exe,然后安装,本人直接安装在C盘目录下。安装完毕后,如下图。
配置环境变量,有两个步骤。 在系统变量里,修改path,如下图。
在系统变量里,创建一个新的变量名为:TESSDATA_PREFIX,值为:C:\Program Files\Tesseract-OCR\tessdata(根据自己安装的tesserocr安装路径为准),如下图。
检查Tesseract-OCR是否安装完成,如下图。 Python3.7加载tesserocr 1、安装Python的OCR识别库
2、python加载Window的tesserocr应用,要修改pytesseract三方库的pytesseract.py脚本。 打开pytesseract.py,将Window的tesserocr应用的tesserocr.exe绑定好。
3、到这里Python的绑定window的tesserocr应用已经完成。 读取验证码图片
输出: 读取中文文本图片 1、因为OCR读取不同语言需要加载语言包,因此需要下载简体中文语言包。 现在,我们来读取如下图片的中文文本内容。
代码如下:
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。 |
|
来自: wenxuefeng360 > 《待分类1》