分享

到底哪款OCR软件识别率最高?免费版居然表现最佳?

 网罗灯下黑 2020-11-12

OCR软件想必大家都在用,不管是学生党还是上班狗,遇到没有电子文档的时候,拿起手机拍一张,稍稍校对修改一下就能省去手打的麻烦,实在是生产力利器。

然而问题来了,市面上这么多的OCR工具,到底哪款软件最好用呢?网上有不少文章介绍了很多各种各样的OCR工具,多是从功能方面介绍,很少有针对识别率进行对比的,到底哪个识别率最高呢?

黑哥今天就尝试着做个小实验,对比一下到底哪款软件最给力!

特别说明:为充分对比软件识别效果,本文图多,如果不想看细节对比(都是我的心血啊,好意思吗?)可以直接拉到最后看结果。

一、评测准备

本次选中的是Textgrabber、扫描全能王以及白描这三款。

1、主角背景:

A.textgrabber 如果你在电脑上用过ABBYY FineReader Professional,那么你就不会对这款软件感到陌生,都是由OCR界的扛把子ABBYY开发的,在文档识别,数据捕获和语言技术的开发中居世界领先地位。

B.扫描全能王 一款国产软件,其公司在OCR、人工智能、手写识别、图像处理及自动图像增强等领域达到世界领先水平。核心产品名片全能王全球下载用户超过3亿人,扫描全能王全球下载用户3.4亿。

C.白描 这个软件名气不大,出自国人独立开发者之手,开发者陶新乐,一名 iOS 软件工程师。

为什么会拿一款独立软件去跟大厂去怼呢,别着急,往下看你就明白了。

大家知道,作为OCR软件,我们最关心的就是识别率,因此,本次主要从这个方面进行评测对比。

另外,考虑到大家最常用的使用环境是中文、英文文档识别,将对中文、英文、中英文混排三种应用场景分别进行对比。

2、参评软件版本号:

Textgrabber:iOS 平台 6.5.0.1

扫描全能王:Android 平台 5.4.0

白描:Android 平台 1.0.4

别问我为啥平台不统一,textgrabber是App Store限免的时候入的,为了省钱呗。。。

目前三款软件均支持iOS和Android。

3、校对软件:Word 2016

简单介绍一下校对过程,在 Word 2016 里面打开审阅标签,选中对比,即可对原文本与目标文本进行对比。中间为校对区,右上为软件识别文本,右下为原稿。

实际过程中发现对比也会有判断错误的地方,如果大家有更好的文本对比软件,可以介绍给我。

4、原文件 为了尽量减少拍照这一环节对识别结果的影响,在识别对比时,采用的是同一张照片导入三个软件进行分别识别,字号均为五号字。

二、中文文档识别

本文档来自《三体》,共1155个字符。

Textgrabber

经与原文对比,共检查出113处修订。

错误表现:

1、首行缩进均未能正确识别。

2、标点符号识别错误,中文双引号“识别为英文引号"。

3、部分字符识别错误,汪淼识别为汪森。

4、文本识别丢失。

5、右侧边缘文本会莫名其妙插入空格。

扫描全能王

经与原文对比,共检查出103处修订。

错误表现:

1、首行缩进均未能正确识别。

2、标点符号识别错误,中文双引号识别为英文引号,省略号……识别为······

3、在原文换行处错误识别为断行,没有纠正为自动连接。

4、字符识别错误比例低于abbyy,更多来自于格式以及换行错误。

白描

共检查出71处修订。

错误表现:

1、首行缩进均未能正确识别。(目前所有OCR软件的通病,后边不再一一列出。)

2、大部分错误来自标点符号识别错误,特别是段首的标点部分丢失,段尾的标点符号几乎全部丢失,但识别到的中文双引号基本正确,不存在错误识别为英文引号。

3、亮点在于文字的识别率几乎是100%,仅就本测试文档来说,文字全部识别正确。

小结:白描的文字识别率出乎意料地高,而且对原文版式的还原最准确,很少出现错误断行的情况。缺点在于对标点符号的识别上,段首标点部分识别,段末全部阵亡,经与作者反馈,证实确实存在这种情况,将在后续版本进行优化。

中文识别率排名:白描>textgrabber>扫描全能王

三、英文文档 

出处忘了,好像是来自一篇小说吧,共498字。

Textgrabber

共检查出27处修订。

错误表现:

1、单词识别率很高,个别单词存在识别错误。

2、部分单词识别丢失。

3、个别标点符号识别错误。整体来说识别率很高。

扫描全能王

共检查出107处修订。

错误表现:

1、部分单词识别错误,准确率要低于abbyy,但优于白描。

2、一个奇怪的发现是word文档对比时将扫描全能王的部分识别结果全部判定为错误,而实际上当我把眼看瞎了也没发现错在何处,所以实际的正确率是要高于对比结果的,难道word跟这货有仇吗?

4、扫描全能王一贯的老毛病依然存在,在换行处未能正确识别,出现多处断行。

5、部分大小写识别错误。

白描

共检查出141处修订。

错误表现:

1、单词识别正确率较高,但由于多处大小写未能正确识别,拉低了识别率。

2、单词之间的空格出现大面积识别丢失。

3、习惯性未能识别出每段段尾的标点符号,及部分段首的标点符号。

4、个别情况出现断行错误。

小结:在这个环节,国际大厂出品的textgrabber不负众望,对英文的识别率及其优异,包括对原文版式的还原也非常不错。从校对结果就能看出很少出现红色勘误。白描在这个环节表现较差,容易出现空格丢失以及大小写识别错误,在英文文本识别中非常吃亏。扫描全能王的表现介于两者之间,同样是识别率不错,但断行习惯性出错。

英文识别率排名:textgrabber>扫描全能王>白描

四、中英文混排文档

出处来自于威锋一篇帖子,759字。

Textgrabber

共检查出69处修订。

错误表现:

1、文本识别结果习惯性在右侧边缘会莫名其妙插入空格。

2、部分字符识别错误,如将mbp15识别为mbpl5。

3、个别标点识别错误。

扫描全能王

共检查出182处修订。

错误表现:

1、依然在换行处未能正确识别,出现多处错误断行。

2、中英文混排的字符出现部分识别错误,如fy识别为行,firefox识别为firefo×。

3、标点符号识别错误率较高。

白描

共检查出142处修订。

错误表现:

1、习惯性问题依然存在,未能识别出每段段尾的标点符号,及部分段首的标点符号。

2、中文识别率较高,中英文混排识别率一般,如将html5test识别为ntml5test。

3、标点符号错误率较高。

小结:该环节各家表现综合了前两轮表现特点,textgrabber在该环节依然稳健,没有特别明显的短板,白描和扫描全能王在前两环节的亮点和缺点也延续在此环节,综合来看,textgrabber表现最佳。

中英文混排识别率排名:textgrabber>白描>扫描全能王

五、综合对比

1、识别率

白描作为一款独立应用,中文的识别率出乎意料地令人印象深刻,同时对原文版式的还原度最高,如果后期对标点符号识别继续优化的话,在中文识别领域里几乎就不存在对手了。

大厂出品的textgrabber表现最为稳定,毕竟是号称OCR界的老大,延续了桌面到手机端的优势,其对英文识别的准确度可谓赏心悦目。

扫描全能王的识别率在于两者之间,没有特别明显的短板,但也没有特别优异的亮点。它的优势在于对文档扫描及文档管理上,但在识别这个环节表现中庸。

总的来说,识别中文文档推荐白描,识别英文文档推荐 Textgrabber。

2、性价比

相较于TextGrabber 30元,和扫描全能王 30 元/月的相比,白描Android版普通版免费,iOS版 6 元的入门价格几乎称得上是白菜价啦!

必须值得一提的是,白描的iOS版还支持表格扫描,其余两款均不支持。为了尝试这个功能,我还特地付费下载测试了一下,虽然在识别格式上还存在很多优化的空间,但总归迈出了值得期待的一步!

对了,白描还有个特别酷炫的功能,其他两款都没有,那就是支持最多9张图片的批量OCR识别,并且还能合并为一个文档!

不然这些爆炸好评怎么来的——

你说,识别率这么高,还卖得这么便宜,你还让不让别人活了,黑哥觉得这款软件卖个三四十块它一点都不贵呀!要下的趁早,说不定哪天就真的提价了,我已经在iOS和Android上都已付费购买,这款良心软件真的值得付费支持!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多