分享

去年最好用的OCR工具又进化了!

 伊伊爸 2023-05-12 发布于湖北

去年的时候 Umi-OCR 还不是传统意义上「截图-识别-提取文字」的实时工具,而是需要你本地有截图,再用 OCR 识别引擎进行识别。

彼时还是 1.2 版本的 Umi-OCR,主打的特点是:开源、免费、本地、批量、精准、高效。

当时我做的有测试,比如这样一份表格截图。

图片

8 秒后 Umi-OCR 识别的效果喜人,所有链接都可以直接复制到浏览器正常打开:

图片

哪怕增加难度,从网上找了个手机拍的照片,有对焦不准发虚的问题,也有右下角的阴影。

图片

耗时 6 秒,Umi-OCR 仍然可以很好的识别出来,小小的遗憾是错了一个字。

图片

不过,上面这些只是 Umi-OCR 一年前的效果,前两天我又去 GitHub 上瞅了瞅,不仅仅是 Star 翻了好几倍,在过去这一年里,作者一直坚守在一线,从未断过优化迭代。

图片

现在的 Umi-OCR 支持了快捷键截图:

图片

同样的内容,识别速度从过去的 6 秒变成了 0.43 秒,而且这次识别率更高。

图片

过去只支持中英两种语言的 Umi-OCR,现在不用手动 DIY,只要你下的是多国语言版。

图片

在设置里,可以选择识别语言,可以配置识别文字段落,还有各种可能会用到的选项,对了,Umi-ORC 现在支持命令行调用了,扩展属性喜 +1。

图片

简单说就是,实用、好用、值得用,有本地 OCR 需要的小伙伴可以试试看,不知道当初被安利的小伙伴,有没有用上最新版。

图片

不过有一说一,OCR 工具虽然有用,但对于大多数人来说,它不是什么高频需求,尤其是微信图片可以直接复制提取文字后,我就很少折腾 OCR 工具了。

图片

因为一个办公时必须打开的微信,就已经能够满足日常 OCR 的需求了。。。

当然,微信不够看,需要上强度的时候,手里备一个 14 版的 ABBYY,备一个白描,备一个夸克,备一个千百 OCR 肯定没毛病。

但,像 Umi-OCR 这样的开源项目,有没有更广泛的用法呢?我在小众软件论坛上看见个帖子,把 Umi-OCR 玩出了新高度。

图片

简单说,作者写了个脚本,把 Umi-OCR 和大名鼎鼎的 Everything 联系了起来。你可以利用 Umi-OCR 的识别,然后实现搜图片里文字的效果。

正常的截图没啥好测试的,毕竟 Umi-OCR 识别效果实打实的好,不过为了让搜图更给力,我去网上下载了 2000 多张表情包,表情包质量都是这样的:

图片

下面我们来聊聊这个脚本该怎么用。

具体操作

脚本的实现思路就像我前面说的那样,用进化了的 Umi-OCR 先去识别当前文件夹下的每一张图并输出成 TXT 文本,然后脚本把文本收集起来,当你打开 Everything 后,即可用脚本的快捷键去文搜图。

所以在使用脚本前,我们需要在 Umi-OCR 上做一些设置,具体的设置是红框框里的那些——

1、勾选递归是为了找出所有的图片

2、独立 txt 是为了一张图对应一个文本

3、不含文字不输出,不会创建多余文本

4、段落合并,整句搜索更准确

所以设置下来是这个样子。

图片

然后,用 Umi-OCR 批量识别你存放图片的文件夹,拖拽文件夹到工具内即可。

图片

2000 多张表情包,大概花了 48 秒左右,速度这里,因为 Umi-OCR 识别是走本地的,当然会和硬件以及图片上文字数挂钩,2000 多张 PDF 纯文字截图花的时间肯定也不是 48 秒,这里提一下,免得大家误会。。。

图片

此时,存放图那个目录下,就会生成与图片同名的文本文件。

图片

该去配置脚本了,解压后的脚本是这个样子,先去找「setting」的配置文件,打开方式选记事本就行。

图片

配置文件很简单,长下面这个样子,简单说就是文件目录前如果加 0,那么脚本会找当前目录下的图片;文件目录前如果加 1,那么会递归找到目录下所有文件夹的图片。

图片

前两行是脚本作者自带的示例,删了,留我们自己的文件目录即可,千万记得保存推出。

运行「收集 txt」脚本,你会发现图片目录里的文本没了。

图片

实际上被转移到了「案记」的目录下。

图片

做好了这些准备工作,再启动「案记锁图」脚本,开启 Everything,快捷键「Ctrl+Alt+F」即可完成文搜图。

图片

Everything 搜文件有多快,脚本搜图速度就有多快,全部都是本地完成,没有风险。

为啥敢这么说,打包前的 AHK 脚本代码不是在那吗,文本打开瞅一眼,没有任何泄露风险的代码。

图片

如果不放心,可以根据这个本文思路,自行打包,或者安装个 AutoHotkey 直接用。。。

总结

其实抛开这个脚本不谈,进化后的 Umi-OCR 也是值得被分享的,如何取舍就看大家的需求了,我把这篇文章涉及到的链接都放这里。

Umi-OCR 项目地址:https://github.com/hiroi-sora/Umi-OCR

Umi-OCR 作者提供的蓝奏云:https://hiroi-sora./s/umi-ocr

我存了一份多语言版的蓝奏云,这是 GitHub 上有,但限于大小,作者提供的蓝奏云里缺少的部分,如果要体积更小的通用版(中、英),去作者那里下就行。

多语言版:https://www./s/LyaDVv-RXECd.html

小众软件帖子:https://meta./t/topic/43188

你可以去帖子里下载脚本,我也存了份蓝奏云,大伙看着选就行。

蓝奏云:https://wwul./i9mI60v0c9dg

大体上这篇就这么多内容了,我发现 OCR 工具还真的是一年一写,今年暂定的 C 位仍是 Umi-OCR,希望后面有更强更好用的选择。

你的点赞就是对我最大的支持,有缘下篇见咯,over。

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多