分享

技术发布 | 如是古籍数字化工具平台用户手册

 文化心美育 2022-11-23 发布于中国香港

图片

如是古籍数字化工具平台用户手册

V1.0

(2021-11-17)

本手册适用于“如是古籍数字化工具平台”用户,据此,您将了解平台的功能及操作 。

一、平台简介

“如是古籍数字化工具平台”是由北京如是人工智能技术研究院(简称“如是研究院”)自主研发的、开放的古籍数字化系统,旨在为古籍数字化相关单位和个人提供一套强大而又简单易用的古籍数字化生产工具。

平台采用了先进的深度学习OCR算法,基于大量的古籍标注数据,从而实现了古籍文字识别的高准确率,同时提供一套基于浏览器的、简便易用的校对工具,从而有助于用户简单、高效的完成古籍数字化作业。

平台网址是:https://guji.:800,海外用户如无法访问,则可以访问镜像网站:https://guji.world.

图1-1 如是古籍数字化工具平台首页

平台提供如是OCR、智能标点、标点迁移、多文本比对等功能。

1

如是OCR

  • 基于人工智能的古籍OCR技术

  • 切分校对:调整字框、列框和栏框

  • 文字校对:提供按列校对、按页校对模式

  • 数据管理:对用户上传的图片数据进行管理

智能标点

  • 基于人工智能的自动标点技术

  • 数据管理:对用户上传的标点数据进行管理

2

3

标点迁移

  • 两份相似文本,一份含标点,一份无标点,将标点一键迁移至无标点的文本中

  • 数据导出

多文本比对

  • 对多份文本同时进行比对,列出异文

  • 数据导出

4

个人用户可以在“我的图片”“我的标点”中,对OCR数据和标点数据进行管理。

另外,平台还支持团队用户模式(需向我们提出申请),团队管理员可以进入“管理后台”,对团队成员和数据进行管理,还可以进行任务分派等操作,从而实现团队的分工与协作。

注:“如是OCR”和“智能标点”功能,需注册登陆后才能使用。“标点迁移”和“多文本比对”无需注册,可直接使用。

二、用户注册

2.1 用户注册

图2-1 用户注册页面

2.2 团队用户

团队用户指的是一个团队的所有用户,包括团队普通用户团队管理员两种角色。

与个人用户不同,团队用户的所有数据,都属于团队,不属于个人,团队管理员可以将数据指派给其他人。

团队管理员可以在管理后台对团队数据和用户进行管理,可以将数据从用户A指派给用户B。指派后,用户A的“我的图片”或“我的标点”中就不存在该数据了。

1. 什么情况需要申请团队用户?

如果需要校对的古籍图片数量较大,或者需要安排初校、审校等多个校对环节,则建议申请成为团队用户。

2. 团队管理员具有哪些权限?

  • 组建团队。可以邀请某注册用户(输入对方的邮箱或手机)加入团队,一旦对方接受邀请,就会自动加入该团队。

注1:对方需先在平台注册,成为注册用户,之后管理员才能发送邀请。

注2:加入团队操作不可逆,一旦加入,就无法退出。如果某用户既需要参与团队工作,又有自己的校对工作,则建议申请两个账号,以作区分。

  • 删除团队成员。删除后,该团队成员的所有数据都将收回。管理员可重新指派给其他人。

  • 管理团队数据(包括图片数据和标点数据)。查看数据列表、检索数据、修改、浏览、删除、备注等;

  • 指派数据。将数据指派给某团队用户。

3. 如何成为团队用户

扫描下面企业微信二维码,添加如是研究院微信客服(该二维码在平台首页右下角也有),获取团队用户申请表,填写后提交申请。待审批通过后,平台管理员将为您开通团队管理员相关权限。

三、工具介绍

3.1 如是OCR

“如是OCR”功能允许用户上传图片(单页上传或批量上传)至系统后台,后台将调用基于人工智能的古籍OCR技术进行处理,然后将处理结果返回浏览器客户端,用户可以在浏览器界面上对OCR结果进行校对。

如果您仅需要最终文本,则可以直接进行文字校对,平台提供按列校对、按页校对两种文字校对方式。

如果您除了文本外,还需要准确的坐标数据,则可先进行切分校对,校对字框、列框、栏框的切分坐标,然后再进行文字校对。

注:如果用户需要标注数据来训练OCR引擎,则需要坐标数据。又或者,制作双层pdf时,需要根据坐标来排布文字,也需要坐标数据。

进一步,个人用户可以对个人的图片数据进行管理,团队用户可以对团队的图片数据进行管理。

因此,“如是OCR”不仅是一个古籍OCR工具,它支持完整的古籍数字化校对业务,更是一个古籍数字化的校对平台。

3.1.1 第一步:上传图片

上传图片支持“单页上传”“批量上传”两种模式。

3.1.1.1 单页上传

图3-1 单页上传

首先,选择文件。选择单页图片,大小不超过2MB,单字像素建议在45px以上,支持jpg、png、tiff、gif等格式,不支持黑底白字。

其次,选择版面。系统将根据用户选择的版面,将图片分成单栏、上下两栏、上下三栏的布局。同一栏内的文字是连续的,而栏与栏之间的文字会被切割开来。

最后,选择完成后进行哪个操作:切分校对、按列校对(默认)、按页校对。

OCR完成后,系统将根据用户的选择,进入到对应的操作界面。

3.1.1.2 批量上传

图3-2 批量上传

批量上传支持zip和rar两种格式的压缩包,压缩包内文件要求同“单页上传”。

批量上传后,系统将进入“我的图片”中,用户可以看到已上传的图片数据。后台将同步调用OCR引擎对图片进行处理,处理完成后,就可以看到“字框数”了。

注:字框数为空时,表示后台尚未进行OCR处理。

3.1.2 第二步:进行校对

校对包括“切分校对”和“文字校对”。

切分校对的目的是检查和完善各种切分框(字框、列框、栏框)的坐标和顺序。调整字框坐标(即切分校对),从而使得字框的位置与大小恰好包围住图片上的文字。调整列框和栏框,从而确定哪些字框属于同一列,哪些列框属于同一栏。调整字框顺序(即字序校对),从而使得同一列内文字的顺序与阅读顺序一致。调整列序和栏序,使得列和栏的顺序与阅读顺序一致。

文字校对的目的是检查和完善OCR生成的文字,最终得到与古籍图片一致的文字内容。系统提供按列校对和按页校对两种文字校对方式。

两种校对既可以顺序进行,即先做切分校对后做文字校对;也可以交叉进行,即在做文字校对时如果发现切分框有误或文字顺序有误并且影响到文字校对时,则可切换到切分校对进行修改,改完之后再回到文字校对界面。

大多数用户的需求是为了得到准确的文字内容,则可以直接进行文字校对,无需进行切分校对,因此,接下来先介绍文字校对。

部分用户的需求除了得到准确的文字内容外,还需要得到准确的坐标数据,以便进行诸如训练OCR引擎、制作双层pdf之类的需求,则建议先做切分校对,后做文字校对。

3.1.2.1 文字校对

文字校对提供两种方式:按列校对按页校对

3.1.2.1.1 按列校对

按列校对指的是“将图片切割成列,在每列图片右边排布该列图片对应的文字”,以便用户按列对文字进行校对。如下图所示。

图3-3 按列校对界面

整个界面分为上中下三部分:上面(蓝色方框区域)是工具栏;中间左边(红色方框区域)是图文对照区,右边(绿色方框区域)是校对面板;下面(蓝色方框区域)是状态栏。

用户逐列检查列图和对应的文字,发现有误时,可用鼠标点击该文字,系统将会以该文字作为“当前文字”(如上图中红色箭头所指之处)。当前文字将以红色字体高亮显示,同时在校对面板显示当前文字的相关信息,以便用户进行校对。

(1) 工具栏

按钮

功能


返回“我的图片”


[h]打开帮助文档弹窗


查看原图


[+]放大图片

[2-5] 放大图片至2-5倍


[1]恢复图片原始大小


[-]缩小图片

[6-9] 缩小图片至60%-90%


切换列图排列布局

1. 流式排列:从右至左铺满浏览器显示区域后,重起一行进行排布。

2. 原图排列:按照原始图像的列图位置进行排布。


切换当前文本

1. 切换当前显示文本。包括:显示校对文本,显示字框OCR,显示列框OCR。

注:切换显示文本,仅仅是界面上显示不同类型的文本,不改变校对结果。

2. 切换当前选用文本。包括:选用字框OCR,选用列框OCR。

注:切换选用文本,指的是校对文本以哪个文本为基准,将改变校对结果。切换时,仅仅影响那些用户尚未校对的文字,已经校对的文字不会受影响。


复制当前文本


批量查找、替换

选中要修改的字,然后在候选文字中选择替换的字,然后点击按钮,系统会自动将文字填入对应的输入框。


显示或隐藏右侧校对面板

按页校对

切换至按页校对

切换后将保留用户校对结果

切分校对

切换至切分校对

表3-1 按列校对工具栏

(2) 校对面板

校对面板上方显示“当前文字”相关信息,包括候选文字、文字校对历史等。校对面板下方是校对区域,用户可以对文字进行修改,或对文字属性进行标注,或对该字进行备注等。

候选文字指的是OCR引擎提供的候选文字列表,其中,红色下划线来自OCR列引擎,蓝色下划线来自OCR字引擎,其余9个来自OCR字引擎推荐。

用户点击候选文字时,系统会将该文字自动填入校对面板下方的文字输入框,以便用户校对。

(3)  图文对照区

图文对照区是用户校对的主要区域,按列校对是“一列图片对应一列文字”的方式排布。

其中,如果OCR引擎文字和OCR字引擎文字不一致(称为“异文”),则会以黑色下划线提示;如果文字已被修改,则以深红色字体提示。

(4) 状态栏

状态栏可分为左中右三部分:左侧显示图片名字;中间显示提示信息;右侧显示当前文字的编码信息。

3.1.2.1.2 按页校对

按页校对指的是“保持页面的原始样貌,在整页图片右边排布图片对应的文字”,以便用户按页对文字进行校对。

图3-4 按页校对界面

按页校对的界面与按列校对相比,整体布局类似,也包括工具栏、图文对照区、校对面板和状态栏。

工具栏和图文对照区有所不同,校对面板和状态栏相同。以下介绍工具栏和图文对照区域。

(1) 工具栏

以下列表将按页校对工具栏的功能列出。其中,与按列校对相同的功能,不再列出。

功能


显示或隐藏图片


显示或隐藏字框


显示或隐藏列框


显示或隐藏栏框


显示或隐藏字序


显示或隐藏文本


增加文本字号


缩小文本字号

按列校对

切换至按页校对

切换后将保留用户校对结果

表3-2 按页校对工具栏

(2) 图文对照区

图文对照区与按列校对有所不同,按列校对是“一列图对应一列文”,按页校对是“左边整页图、右边整页文”。

文字区域中,如果OCR列引擎文字和OCR字引擎文字不一致(称为“异文”),则会以黑色下划线提示;如果文字已被修改,则以深红色字体提示。这一点与按列校对相同。

不同之处在于:鼠标悬停在黑色下划线提示的异文处时,将会弹框显示校对文本、字框OCR、列框OCR。如下图所示。

图3-5 弹框显示异文信息

3.1.2.1.3 常见问题

1. 如何增加文字?

如果您仅需要最终的文字内容,则可以点击待增加文字的前一个文字作为当前文字,然后在校对面板中将它修改为多个文字。

如果您需要文字和字框一一对应,则需要进入切分校对,先增加字框,然后回到文字校对修改该字框对应的文字。

2. 如何删除单个文字?

如果您仅需要最终的文字内容,则可以直接将待删除的文字校对为空即可。

如果您需要文字和字框一一对应,则需要进入切分校对,删除该字框,再回到文字校对时,则已删除文字。

3. 如何批量删除文字?

建议在切分校对界面中,按快捷键v进入多选模式,然后用鼠标拖拽画框,选中待删除的字框(将以红色高亮显示,表示选中),然后按del键或x键删除。这种方式最为迅速、高效。

当然,也可以在文字校对界面,逐个将待删除的文字校对为空。

4. 如何调整文字顺序?

一般而言,计算机给出的文字顺序都是准确的,即使是包含有双行夹注的复杂版面,计算机也能给出准确的文字顺序。

注:如果是上下多栏的情况,用户需要在进行OCR时,选择好相应的版面参数,否则,将会视为单栏处理,文字列将会从天头一直贯到地脚。如果在OCR时没有选择好版面,也可以进入切分校对,调整栏框来进行修改。

一些特殊的版面,其文字顺序与正常顺序不一致,或者版面图文混排、过于复杂,计算机给出的顺序不是用户想要的顺序时,需要进入切分校对调整字序,然后再来进行文字校对。文字校对界面,无法修改文字顺序。

3.1.2.2 切分校对

切分,指的是用方框将古籍图片上的文字或图像边界包围,从而将其标识出来的操作。切分校对,指的是人工对计算机的切分结果进行检查和修改。

切分校对包括两个步骤:校对切分框(包括字框、列框、栏框三种)的位置和大小;校对切分框的顺序。为了简化起见,前者称为切分校对,后者称为字序校对

注1:切分校对对应两个概念,大的概念指的是对切分框位置和大小的校对以及切分框顺序的校对,小的概念仅指的对切分框位置和大小的校对。

注2:字序校对的内容包括字序、列序和栏序,由于字序为主要内容,因此称为“字序校对”。

如果您仅需要最终的文字内容,则除了批量删除文字外,一般情况下无需使用切分校对。

如果您需要文字和字框一一对应,则需要进行切分校对。

几点说明:

  • 字框删除后,该字框对应的OCR文字也被删除;

  • 新增和修改字框后,系统不再重新进行OCR识别,因此调整字框大小不会改变OCR结果;

  • 新增字框后,其对应文字自动填充为空字符,需在文字校对时将空字符手动校对为正确的文字;

  • 字框、列框、栏框修改后务必要点击“保存”按钮,保存成功后再进入按列校对按页校对,否则修改无效。

3.1.3 第三步:我的图片

点击平台首页顶部“我的图片”,则会进入“我的图片”列表页面。

图3-6 我的图片

页面中包含了用户上传的所有图片,用户可对图片进行管理,包括:对列表进行搜索;对每条数据进行切分校对、按列校对、浏览、更新、导出、删除等操作。

删除后的数据将进入回收站。点击搜索框左边的回收站标志,即可进入回收站,用户可在回收站中还原已删除的数据。

浏览将以按页校对的方式显示图片和文字内容,稍有不同的是,在工具栏右上方提供了备注、前一页、后一页的操作。如下图所示:

图3-7 浏览页面

备注,允许用户对当前页面数据进行备注。上一页,允许用户往前翻页。下一页,允许用户往后翻页。

用户可以对图片列表进行搜索后,检索到“目标数据集合”,然后点击浏览。上一页,对应的是目标数据集合中当前页面的上一条数据。下一页,对应的是目标数据集合中当前页面的下一条数据。

注:如果用户没有进行搜索而直接浏览,则目标数据集合就是用户的所有图片。

通过搜索和浏览中的备注、上一页和下一页操作,用户可以实现很多场景的需求。比如,可以沉浸式的进行校对,校对完当前页后备注“已完成”,然后点击下一页继续校对。又或者需要检查某些数据时,首先搜索到这些数据,然后进行浏览检查,边检查边备注。

3.1.4 第四步:导出数据

平台提供两种数据导出方式,单页导出、批量导出。

(1) 单页导出

直接点击某条数据对应操作中的“导出”,即可以文本格式或json格式导出该数据。

(2) 批量导出

先选中待导出的图片,然后点击列表左上角的“批量导出”,即可批量导出选中的图片的数据。导出时可以选择纯文本和json两种数据格式,导出结果将以zip包下载。

json数据格式说明如下:

















































{{        "name": "1635567430",             //系统序号        "img_name": "BS_1_1",             //图片名称        "width": 462,                     //图片的宽        "height": 704,                    //图片的高        "layout": "上下一栏",              //图片版面        "blocks": [                       //栏框                {                        "x": 9,           //X轴坐标                        "y": 38,          //Y轴坐标                        "w": 428,         //栏框的宽                        "h": 527,         //栏框的高                        "cid": 1,         //栏框的id                        "block_no": 1,    //栏框的序号                        "block_id": "b1"  //栏框的序号id                }        ],        "columns": [                      //列框                {                        "x": 406,         //X轴坐标                        "y": 38,          //Y轴坐标                        "w": 31,          //列框的宽                        "h": 527,         //列框的高                        "cid": 1,         //列框的id                        "block_no": 1,    //所属栏框的序号                        "column_no": 1,   //列框的序号                        "column_id": "b1c1", //列框的的序号id                        "ocr_txt": "燕年臣" //列框的OCR结果                }         ],        "chars": [                       //字框                {                        "x": 406,        //X轴坐标                        "y": 38,         //Y轴坐标                        "w": 28,         //字框的宽                        "h": 23,         //字框的高                        "cid": 1,        //字框的id                        "block_no": 1,   //所属栏框的序号                        "column_no": 1,  //所属列框的序号                        "char_no": 1,    //字框的序号                        "char_id": "b1c1c1",   //字框的序号id                        "alternatives": "莊難蘢羅㽵載站雍黇魏",//字框OCR候选文字                        "ocr_txt": "莊", //字框OCR识别结果                        "ocr_col": "燕"  //列框OCR识别结果                }         ],        "txt": ""                        //校对文本}}

3.2 智能标点

“智能标点”功能允许用户上传古籍文本到系统,系统将调用人工智能自动标点引擎对文本进行标点,然后将结果返回至浏览器客户端。用户可以进一步对标点结果进行修改、保存或复制导出。

3.2.1 操作步骤

第一步:上传文本,进行标点

图3-8 智能标点上传界面

将待标点的文本输入或粘贴到文本框,然后选择文本框下面的标点类型:现代标点句读。如果文本中已有标点,需要先“清除标点”,然后点击“进行标点”。

第二步:修改、保存和复制导出

系统将调用人工智能自动标点引擎对文本进行标点,然后返回浏览器客户端。

用户可以对标点结果进行修改,修改过程中随时可以进行保存。修改完成后,可以将标点结果复制导出。

图3-9 智能标点结果界面

点击“新建标点”,可以回到第一步,重新开始上传文本。

3.2.2 我的标点

用户上传的所有文本,都可以在“我的标点”中进行管理,包括搜索数据列表,以及针对每条数据进行查看(继续修改标点)、更新(名称或备注)以及删除

注:删除后的数据将进入回收站,用户可以在回收站中还原已删除的数据。

3.3 标点迁移

在对古籍进行标点时,常常需要用到或参考他人已有的标点成果。

由于他人标点所用的文本跟我们整理的文本之间不尽相同,无法直接使用他人的带标点的文本,而是需要将标点迁移至我们的文本中,即“标点迁移”。

标点迁移,指的是针对“两份相似文本,一份有标点,另一份没有标点”的情况,将标点符号从有标点的文本迁移至无标点的文本的过程。其中,有标点的文本称为“来源文本”,无标点的文本称为“目标文本”。

3.3.1 操作步骤

1. 准备来源文本数据(带标点的文本);

2. 准备目标文本数据(如带标点,则需要使用“清除标点”功能进行标点清除);

3. 把来源文本和目标文本分别复制到对应的文本框中。

图3-10 标点迁移前

4. 点击“进行迁移”。系统将调用“标点迁移”算法,将标点从来源文本迁移至目标文本中。

图3-11 标点迁移后

标点迁移后,用户可以点击“复制结果”,系统会将比对结果复制到剪切板,用户可进一步粘贴至记事本、word等文本编辑器中。

3.4 多文本比对

古籍整理中,常需要对多份相似文本进行比对,找出其中的差异(即“异文”)。比如,多版本校勘时,需要比对多份文本的差异,进而形成校勘记。再如,同本异译的多份文本之间,也需要比对多份文本差异,以便进一步研究。

一般的文本比对技术,仅仅能对两份文本进行比对,本平台的多文本比对功能则可以对多份相似文本进行同时比对。

系统默认提供10个文本框,您可点击"+"号,手工增加文本框。比对时,如果文本框中的文本为空,则将会自动忽略。

注:比对结果的换行以底本为准,比对时将自动去掉其余文本中的换行符号。

3.4.1 操作步骤

1. 把底本和其它校本的文本依次复制到对应的文本框中;

注:如果不希望比对标点,则可以使用“清除标点”功能自动清除当前文本框内的标点符号。

2. 点击“进行对比”,提交系统后台;

3. 后台将调用“多文本比对算法”,对用户提交的多份文本进行比对,异文将以红色高亮显示。用户点击异文时,将弹框显示各个版本的用字情况。

注:弹框上有“<”“>”功能按钮,方便查看上一条、下一条异文。

图3-12 多文本比对界面

文本比对后,用户可以点击“复制结果”,系统会将比对结果复制到剪切板,用户可进一步粘贴至记事本、word等文本编辑器中。

3.5 管理后台

团队管理员可以通过首页顶部的“管理后台”进入到管理后台界面。通过“管理后台”,团队管理员可对本团队的用户、图片和标点进行管理。

3.5.1  用户管理

“用户管理”功能允许团队管理员了解本团队有哪些用户,以及用户的基本资料和角色等信息。

图3-13 用户管理界面

管理员可以通过“邀请用户”功能,输入用户注册时填写的邮箱或手机,向Ta发送团队邀请。

图3-14 邀请用户弹框界面

被邀请用户登录后,头像右上角将会显示红点“”,表示有团队邀请消息。点击头像进入个人信息页。

图3-15 被邀请用户的个人信息页

用户个人信息页的下方,将会显示团队邀请信息:某人邀请您加入团队某团队 @ 某时间。用户可以选择加入不加入

注:用户加入团队时,用户个人所有的图片和标点数据,以及使用额度,都将属于该团队所有。

3.5.2  图片管理

“图片管理”功能允许团队管理员对本团队的所有图片数据进行管理,包括:查看和搜索图片数据列表;针对每条数据,进行切分校对、文字校对、浏览和更新操作。

注:切分校对、文字校对、浏览和更新操作与“我的图片”中的操作相同。

3.5.2.1 数据检索

系统提供两种检索方式:

快速检索。直接在页面右上角的检索输入框输入图片编码、图片名或者备注信息进行检索。

综合检索。点击页面上“综合检索”按钮,可以输入更加精确的检索条件。

图3-16 综合检索弹框

提示信息“默认为模糊匹配,加=为精确匹配”,指的是,如果不加=,则进行模糊匹配,加=,则进行精确匹配。如在“图片名”字段中输入“GJ_1”,则会命中“GJ_1”“GJ_1_1”“GJ_1_2”等数据;输入“=GJ_1”,则仅会命中“GJ_1”数据。

通过图片名和备注,可以很好的实现任务的分批与分工。不同批次的任务,图片名可设置为不同的前缀编码。备注中,可备注“已完成初校”“已完成二校”“已完成审核”“图片有误”等,从而对任务状态和进度进行区分。

3.5.2.2 批量指派

在列表左上角,系统提供了“批量指派”功能。

1. 管理员首先搜索、选中待指派的数据,然后点击“批量指派”;

图3-17 图片管理-批量指派

2. 系统将弹出对话框,进一步选择待指派的用户;

图3-18 批量指派-选择用户

3. 点击“指派”。系统会将这些数据指派给对应的用户。

3.5.3  标点管理

标点管理”功能允许团队管理员对本团队的所有标点数据进行管理,包括:查看和搜索标点数据列表;针对每条数据,进行查看、更新和删除操作。

注:查看、更新和删除操作与“我的图片”中的操作相同。

标点管理也提供“综合检索”“批量指派”,其操作与功能与图片管理类似,不再详细说明。

四、常见问题

问:注册后,可以免费使用的额度是多少?

答:个人用户注册后,如是OCR的免费额度请咨询客服。

问:是否可以多人协作进行一个古籍数字化项目的文字校对?

答:如前所说,可以。如果您需要用团队的方式进行多人写作,请跟我们联系,进行团队用户以及团队管理员的设置。我们会提供简单的培训,指导如何组建团队以及如何进行任务的分配,以及更多的团队管理操作。



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多