OCR 识别文字这个大家不陌生吧。 别说工作上可能会用得到,就说生活里会碰到那种动不动就甩过来一张图,让你复制编辑一下的情况。 这不得抓耳挠腮,心里偷偷骂句 mmp。 之前有小伙伴问我哪个 OCR 工具好用,手机上完全可以用微信的提取文字凑合一下。 但我觉得更多的场景是电脑上用得上,所以我来分享一下我用了一年多的 OCR 识别工具,天若 OCR 5.0 开源版。 天若OCR 天若 OCR 是 2018 年的时候,吾爱破解上的大佬「天若幽心」利用大厂接口搞出来的工具,还开源了出来。 大体上就是利用开源的截图工具,配上大厂的接口,写了个图形界面,赋予了该有的逻辑搞定的。 某种意义上说,这是个超级缝合怪。 敲黑板,这里的缝合怪可不带任何贬义啊。 OCR 文本识别这种需要依靠大量的数据来提高准确率的技术,你让个人从 0 实现那不开玩笑嘛。 先不说什么重复不重复造轮子的事,没团队,没资源的凭一腔热血搞出来的 OCR 工具,真不会比大厂出品的工具强。 现在个人开发者搞出来的 OCR 工具,和之前说的那些翻译工具一样,都是接口怪。 说到接口,这种开源工具提供的公用接口虽然能用,但指不定什么时候会出岔子。 而商用的接口又需要钱,所以很多工具都从最开始的免费变成了会员制。 但个人而言,5 分钟申请一个免费的个人接口白嫖岂不更香,天若 OCR 就提供有填写个人接口的地方。 但后来天若 OCR 从 4.49 版开始不再开源,现有的免费版天若 OCR 已经拒绝填写自己的接口了。 而我用的那个天若 OCR 5.0 开源版,是另一位作者 AnyListen 对最后一版开源的天若 OCR 简单重构后造出的绝唱。 当然提供填写个人接口这个功能一直没变。 虽然现在作者停止了维护,但我用的这一年多,倒没出过什么差错,所以来分享给大家。 轻量且细节 为啥会选用天若 OCR 5.0 开源版,除了上面提到的接口问题,最重要的是它足够轻量。 无需安装,总共不到 5M 的小东西,打开以后会乖巧的待在后台。 当你在电脑上(全局),只要 F4 唤出截图框,框选住你待选的文字,松开即自动识别了。 所以无论是文本文字,还是图片文字,对于天若来说是没有区别的。 文本: 图片: 这是什么,这不就是妥妥的活好不粘人嘛。 至于识别速度,得看提供的截图质量和文字多少了,你看上面的两次识别,都没超 1s 的。 如果你觉得「F4」翻天若牌子不顺手或者和其他工具有冲突,完全可以在设置(右下角右键图标)里更改。 不过便捷、轻量只是我发现天若以后的第一感觉,但真正留住我的还是细节。 我随手实拍了个书上的内容,来看看天若的表现: 还有手写文字的识别,一点毛病都没有: 不过这并不能说是天若多厉害,而是大厂接口很给力。 天若 OCR 支持搜狗、腾讯、有道、百度四个接口,不过腾讯的接口失效了,百度的接口我用的是自己申请的。 说说实测感: 搜狗的 OCR 准确度更高,有道的 OCR 速度更快,百度则有点中规中矩的感觉,但用起来比较稳定和丝滑。 而天若的细节突出表现在它识别后的文本处理,比如可以合并句子,整体翻译: 当然也能反过来按行拆分段落,别的什么字体、加粗、更改字体颜色、查找替换这些小功能一个不差。 甚至还有朗读功能,但这个会有明显的延迟,我几乎没用过。 我重新下载了一遍天若 OCR,发现现在百度的接口好像也失效了,所以下面说说怎么申请自己的百度接口。 申请接口 同样打开设置,在「密钥」栏点开接口申请,输入自己的百度账号即可: 然后在「人工智能」找到「OCR 文字识别」里的「通用场景文字识别」。 当然你也可能碰到的是这个: 反正流程不变,选择「创建应用」。 然后「应用名称」和「应用描述」都随便填,记得「应用归属」选个人。 最后立即创建,从「应用列表」把 API Key 和 Secret Key 记录下来。 回到天若设置里把账号、密码给粘贴一下就好了。 建议大家都去弄个实名认证,这种白嫖更多使用次数的认证,多香啊! 这里再多提两嘴,如果你不满足于微信的提取文字,可以试试小程序「微软 AI 识图」,手写识别的效果也很喜人,不过一周只能白嫖 3 次。 偶尔一样的小伙伴可以安排上。 如果你想用离线本地版的 OCR 工具,我建议考虑一下汉王 OCR,不过都是特殊版本,我就不多说了。 大家自己搜一下就能找到。 前面不是说,识别的成功率和速度与图片质量有关嘛,图片扭来扭去的或者光线阴影啥的,有个个人开发的工具可以搞定这个问题。 图片漂白 相信大家都碰到过这种手机拍出来的图吧: 万恶的阴影会很大程度上影响到 OCR 工具的识别,有时候肉眼都看不清。 可千万别说用啥补光灯,或者上扫描仪之类的的操作。 咱倒是想,但总不能真的就这么怼上去吧。 不过话说回来,要是真怼上去想想还挺刺激的。 真哪天我这么怼同事或者领导了,我再给大家分享一篇《职场作死是怎样炼成》的文章。 所以面对这种图片该咋办? 当然是往设备上糊 84 物理漂白借助科技的力量,比如我常用的 PictureCleaner。 从它默认的界面你应该可以看出来了,三种漂白算法,支持实时预览,支持图片校正,还可以手动设置更多参数。 使用流程就是从左侧选择图片(找不到的话去「文件」里更改输入目录),然后自己调整一下角度或裁剪一下,最后执行,搞定。 前面那张图是这样的: 换了个有弧度的是这样的: 我还从网上找到这样一个申请表,漂白过后效果也很 nice: 没啥好介绍的了,看着界面挺复杂,其实用起来超简单。 说说它的不足吧,我用到现在有两点不足: 一个是图片弧度大的话,四角检测会导致应用卡死。 另一个则是漂白过后的图片还是有色差,前面那几张阴影过分的图你就能看出来了。 不过再配上 OCR 就 ok 多了。 你看,是不是很棒。 总结 说实话,我有段时间没了解过 OCR 工具了,因为对我而言 OCR 工具并非刚需。 要不是那个小伙伴问我用什么 OCR 工具,我也没想着把自己过去用过的这些工具给集结起来攒一篇文章。 所以我一直觉得搞公众号不仅是在和大家分享我的发现,更是一个共同成长的过程。 就像前面那个 DeepL,要不是小伙伴安利,我也不会收获一个新的宝藏。 在这次写天若的过程中,我还发现了不少「强大」的 OCR 工具,比如 GitHub 上的 PandaOCR。 说它强大,是因为它现在几乎支持市面上所有的 OCR 识别接口,足足有 20 多个。 那为啥这次没有安利给大家,绝对不是我想吃独食哈。 而是我自己刚入手用了两天,我想着等自己把它的优劣全都搞明白了再和大家分享。 反过来说,接口多也不一定意味着是十全十美的好事,最少从使用上来说麻烦了一个量级。 如果你和我一样需求有限,天若 OCR + 微软 AI 识图 + PictureCleaner 已经能很好的满足需求了。 好了,这一篇到这里就结束了,我们有缘下一篇再见咯。 获取方式 回复关键字【OCR】获取上述软件 ![]() |
|