分享

OCR工具见多了,但今天这个效果真的惊艳!

 网罗灯下黑 2022-05-19 发布于河南

掐指一算,感觉自己好久没写过 OCR 识别工具了。

当然,没写是有原因的,去年 7 月份的时侯向大家安利了能调用 N 个大厂接口,一步到位的 PandaOCR

强大确实很强大,当时我利用集大成的 PandaOCR 一口气申请了 10 余个大厂接口,但用了仅一个月就把它冷落到了电脑角落。

因为对于我这种 OCR 需求量小的用户来说,PandaOCR 的操作显得复杂了些,至少没有 QQ 截图、Quicker 动作实现起来方便。

注意,这里不是说 PandaOCR 识别效果差,识别效果还是要看软件调用的谁家的识别引擎,毕竟无论是白描、天若,还是 QQ 截图、Quicker 动作,归根结底用的都是大厂的接口。

但想白嫖使用大厂的 OCR 服务就不得不考虑一些问题——

要么直接用公用接口,用户一多就会变得不稳定;要么自己申请接口,门槛高,且调用接口的工具特别依赖作者维护。

而且抛开接口不谈,更关键的是用大厂的 OCR 接口需要联网,这对于想本地无网进行 OCR 识别的小伙伴来说很不友好。

所以后面我专门留意了一下支持本地离线 OCR 识别的免费工具,今天安利给有需要的小伙伴。

Umi-OCR

有一说一,知道 Umi-OCR 这个软件的过程其实挺曲折的,前两个月网上不是都在传一个修复版本的天若 OCR 嘛,说是内置有本地的 OCR 模型,可离线使用。

我顺着网线找到了这个修复版本的开源地址。


作者 @唉可悲 在项目介绍里有提到,其实是在 19 年最后开源的天若 OCR 的基础上,内置了「Chinese-lite」和「Paddle-ocr」两种支持本地识别的模型。

其中作者推荐的是 Paddle-ocr,不了解的小伙伴或许会陌生,但我挺耳熟的,因为之前就有小伙伴给我说过。


当时我研究一番无果,就把 PaddleOCR 抛之脑后了,但 PaddleOCR 这个商业团队的开源项目确实很牛,GitHub 上 2.1 万的 Star 绝非浪得虚名。

所以这次见到天若 OCR 本地版后,我又去 GitHub 上搜了一番现成的工具,这才找到了今天的 Umi-OCR。

不过 Umi-OCR 不是传统意义上的「截图-识别-提取文字」的实时工具,而是一个专精批量图片识别的 OCR 软件。

下面和大家说说这个软件怎么用,以及效果如何。

使用步骤

最简单的使用姿势,就是拖拽图片到 UmiOCR 内,然后点击右上角的「开始任务」,等它识别输出文本文件。

当然,选中多张图片,或直接拖拽文件夹导入 UmiOCR 也是 OK 的:

而在 UmiOCR 中,会显示耗时和识别的置信度(可靠程度):

输出的文本文件默认保存在图片的同一级目录,在 UmiOCR 的「识别内容」栏里也能直接查看访问的内容:

而在「设置」栏里,能选择输出的文本格式,以及指定输出的目录和文件名。

当然,OCR 识别工具硬不硬还得看识别效果,我想这也是大家最关心的地方,直接来看结果——

第一张耗时 8 秒的是一个这样的表格文件:

UmiOCR 识别的效果喜人,所有链接都可以直接复制到浏览器正常打开:

第二张耗时 4 秒,是常规的截图,但有排版的需求,可以看出来,识别效果一如既往的稳定:

第三张我增加了难度,从网上找了个手机拍的照片,有对焦不准发虚的问题,也有右下角的阴影。

耗时 6 秒,UmiOCR 的效果是这样的,我一个字一个字对照过了,只错了一处,把「睡觉」的「觉」,识别成了「党」。

有对比才会有伤害,我用 ABBYY 识别了这张图片,UmiOCR 完胜。

最后一张我试了试从百度百科上扒下来的身份证截图,可以看到,在水印的打扰下,UmiOCR 的表现同样不俗,该有的都有,美中不足就是识别了一些水印,但这效果已经够给力了。

你说这些水印打扰能不能无视?有办法的,UmiOCR 独家技能,「设置」栏里有个忽略区域的选项,我们点击「添加区域」。

然后 UmiOCR 会分析你导入的图片,我们只用点击「忽略区域」,然后在图片上拉个框,框里的内容就会在识别过程中跳过。

重新「开始任务」后,水印的内容就消失了。

但美中不足的是,UmiOCR 不支持 Win7,而且只默认识别中英两种语言。

前者没啥办法,后者却有解决方案,因为 PaddleOCR 这个项目是支持多语言的,比如韩文、日文、繁体中文、拉丁文、阿拉伯字母,梵文字母等等模型。

我们可以下载模型,然后自己添加,扩展功能。

还记得之前测试的第二张图嘛,这是作者写的一份说明书,里面除了更换语言模型,还有更新中英模型的方法,写得很详细了,我就不反复造轮子了,如果大家搞不定,我再找时间写个教程。。。


总结

其实就我知道的本地离线 OCR 工具,不只 UmiOCR 一个,但 UmiOCR 真的是我用过效果最好的那个。

至于其他的,怎么说呢,要不然是识别成功率表现不佳,要不然就是使用门槛太高,没有现成好用的工具。

所以挑来挑去,今天这个调用 PaddleOCR 的 Umi-OCR 绝对值得一用。

这是 UmiOCR 的 GitHub 地址:

https://github.com/hiroi-sora/Umi-OCR

这是作者写的说明书:

https://github.com/hiroi-sora/Umi-OCR/blob/main/README.md

当然,我也存了 UmiOCR 的压缩包在蓝奏云,如果你没有其他语言的需求,那直接用这个版本就好了。

PS:我再找找看有没有用 PaddleOCR 实现的工具,有结果了再告诉大家,over。

获取方式

回复关键字OCR获取上述软件

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多