分享

古联公司古籍OCR系统上线,欢迎您来试用

 栖凤轩2013 2022-05-24 发布于辽宁
文章图片4

我国1970年代末开始进行汉字OCR的研究工作,在1990年代以后推出了许多成熟的印刷体简体中文OCR软件及搭载OCR软件的扫描仪、扫描笔,然而中文古籍的学习者、研究者、整理者,仿佛被遗忘在了笔耕砚田的时代中。市面上可以处理繁体竖排、手写体的OCR产品凤毛麟角,更别说能处理古籍的了。面向工程化生产的古籍OCR系则往往需要大量人工干预,效率低、成本高、周期长,仅适合大型项目,个人工作、学习中无缘得见。

直到2017年AI元年到来,深度学习飞速发展,多个算法模型在自然语言处理、图像识别领域大放异彩,我们终于有机会畅想:如果古籍OCR也能应用前沿AI技术实现识别准确率的突破,那么什么样的应用系统,才是中文古籍的整理、出版、研究工作最需要的?

文章图片5

古联的OCR探索笔记

2018年10月,古联公司开始带着实现古籍整理出版数字化转型的展望和在以往古籍数字化工程中遇到的问题,与图像识别、自然语言信息处理、云计算等相关领域的研究团队、技术公司接洽,想要研发一款面向中文古籍的整理、研究、出版的智能OCR技术。

文章图片6

中文古籍OCR技术

核心需求

可处理刻本、稿钞本、石印本等古籍图像。

识别准确率高于95%;单页识别时效在1s内。

便捷、高效的人工校对功能。

识别和编辑结果,符合阅读顺序,方便导出或复制。

2020年1月,古联公司正式启动智能OCR技术的研发,经过了漫长而曲折的技术路线实验,与多个合作伙伴的磨合、探索,古联研发团队从理论到实践的成长,终于初步完成了应用级的OCR算法。

目前,古联研发的OCR系统使用Cascade R-CNN模型进行版面分析、CRAFT模型进行文字检测、CRNN进行文字识别,可以实现对版刻、稿钞本古籍图片的智能OCR,一般版刻、精抄本的文字识别准确率接近为98%。对古籍常见版面,不仅能准确识别文字,而且通过针对性训练优化分区效果,从而避免出现虽然单字识别正确,但颠倒错乱不能复用的情况。

文章图片7

含眉批页面示例

文章图片8

跨页复杂表格示例

在本次推出的面向个人的轻量型OCR系统中,实现了在页面综合图文校对中,提示系统自评分不高的潜在误字及其候选字,并实时提示图文的对应位置。也可以双击原图中需校对的地方,快速进入模拟传统折校法的逐行校对模式,有效提升精校工作时的专注度。

文章图片9

折校示例

识别、校对结果可以导出Word文档下载至本地,文档中还会保留版面中体现的内容成分特征,如眉批与版框内容分开,小字注释与大字有不同的样式,甚至表格都会转换出来。

文章图片10

含眉批页面导出示例

文章图片11

复杂表格页面导出示例

在过去9个月,古联OCR算法已通过内部批处理的方式为许多文献整理工作提供了OCR服务,识别结果经过作者、校对者、编辑的验证,一般情况下都比较理想。但每次对研发同事表达惊喜、赞叹之后,我们总会追问,还可以更好吗?反应速度好像还有些慢,识别错漏似乎还有点多,又遇到表现不好的版面了,输出结果要做的后处理还比较麻烦……

优化永无止境,我们是时候做个复盘,邀请所有热爱古籍、从事古籍整理研究事业的朋友们来讨论,对于中文古籍的整理、研究、出版来说,什么样的OCR系统是好用的、真正需要的系统?

文章图片12

举例来说,在一开始研发OCR系统时,整理的功能需求包含了过去工程化的OCR系统各流程的自动处理算法和手动编辑工具。如图像的预处理、版面切分校正、文本顺序调整、内容成分标注,以及尝试在行识别算法中让语义分析发挥作用……

文章图片13

历史测试记录示例

在这些功能反复折磨测试人员和开发人员许久之后,我们决定先搁置其他需求,将优化OCR识别算法及输出效果作为核心目标。当前版本的OCR系统中,图像处理、分区、调序、成分标注功能都被舍弃了,上传图像、自动OCR、校对、下载结果在一个页面上一气呵成。

文章图片14

籍合网古籍OCR界面示例

但由于算法的完成度较高,一般古籍图像不经过严格预处理也不影响识别效果,网页输出结果和下载文件基本符合人的阅读习惯,整体而言用起来似乎更方便了。那么之前被搁置的那些功能需求,是否还有必要重新考虑呢?

在本次系统上线期间,算法团队还在进行一些特殊版面、字体、应覆盖未覆盖的汉字的标注和训练,前端开发团队在紧锣密鼓地搭建一个支持整本书多页图像批处理且提供自动标点、富文本编辑等OCR后处理服务的工作平台,待论证的研发计划里还有书名牌记页面的识别、合理引入NLP算法等等。这些设想里,会有没有真实使用场景的伪需求,或者是令人感觉“可以但没必要”的假创新吗?

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多