python 识别图片上的数字

中间件 2022-01-04

展开全文

python 识别图片上的数字，使用pytesseract库从图像中提取文本，而识别引擎采用 tesseract-ocr。

Tesseract是一款由Google赞助的开源OCR。OCR，即Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。

pytesseract是python包装器，它为可执行文件提供了pythonic API。

1、安装必要的包：

pip install pillow

pip install pytesseract

2、安装tesseract-ocr的识别引擎

* 下载地址：https://github.com/UB-Mannheim/tesseract/wiki

或者更多版本的tesseract下载地址：https://digi.bib./tesseract/

　　* 装完成后配置环境变量：我的电脑 ->属性 -> 高级系统设置 ->环境变量 ->系统变量，在 path 中添加安装路径。

在命令行 WIN+R 输入cmd ：输入 tesseract -v ,出现版本信息，则配置成功。

3、解决pytesseract 找不到路径的问题。

在自己安装的pytesseract包中，找到pytesseract.py文件

打开pytesseract.py文件，修改 tesseract_cmd 的值：tesseract.exe 的安装路径。为了避免其他的错误，使用双反斜杠，或者斜杠

4、简单使用

import pytesseract
from PIL import Image


if __name__ == '__main__':
    text = pytesseract.image_to_string(Image.open("D:\\test.png"),lang="eng")
    print(text)

测试图片：

输出结果：

对于数字和英文识别效果比较好，但是对于中文的识别效果不太好，可以考虑加入机器学习来进行改进。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：中间件 > 《IT》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

中间件

关注对话

TA的最新馆藏

[转] 使用Hackintool工具生成全新的序列号及更改黑苹果SN三码序列号教程
[转] 神奇的181周线和453均线
[转] 站在40月线上的龙头股大胆买入
[转] 20日均线战法，被称为万能均线，学会一买就上涨....【绝密】最可靠的20日万能均线战法，句句肺腑，散户收藏！
[转] 通达信选股公式：前30日内有过3天2涨停的选股公式
[转] 通达信：涨停后横盘调整5天内到15天内的选股公式

喜欢该文的人也喜欢更多

热门阅读换一换