讲堂 | 古籍电子数据的类型

文冠厚朴 2017-02-11

展开全文

经典古籍库

“

作者简介：杨成凯，男，山东招远人，1941年生。中国社会科学院语言研究所研究员，曾主编《新世纪万有文库·传统文化书系》等。

根据电子数据的制作和加工方式，古籍数据可以分成图像、文本和数据库三种。制作图像数据不必校对，最为迅捷。制作文本数据需要校对，很费时间和精力。数据库是对图像数据或文本数据加工处理，安排成便于使用的形式，除阅读外，还加上一些其他功能。古籍数据库制作工作繁重，但是功能强大，便于使用，目前是古籍电子化最理想的成果。

一、图像

制作电子版古籍最为简单的方式就是通过光电扫描，把古籍的页面图像转化为数字信息，用计算机予以保存和加工，经过加工处理的古籍图像数据可以存储在各种载体中使用和流通。

书籍的电子图像版，相当于影印本。图像数据本质上就是照片，只是图像的明暗和色彩要转化为数字存储，以便电脑操作和再现。制作图像数据跟照相的过程相似，把要制成数据的书页用扫描仪、数码相机或数码摄像机摄取下来，转化为数字存储起来就成为图像数据。一本书有八十页，“拍照”八十次，得到八十张图像页。

我们知道《四库全书》包含三千四百多种，三万六千多册，七亿汉字，扫描成图像版还不到100G的数据量。这些数据可以存在计算机中随时阅读，也可以存在小小的硬盘上随身携带，制成光盘也只有一百五十多张，摞在一起也不过半尺多高，随时随地都能插入计算机中阅读，比起三万多册线装原书来，储存和阅读是何等方便！

《四库全书》史部

二、文本

古籍的电子文本版，相当于排印本。文本数据就是电子排版录入的文字资料，跟图像版以一个图像页为一个单位不同，文本数据是以一个汉字或者一个符号为一个单位。以字为单位，书页上的文字就像文稿一样，可以按照需要编辑加工，也可以让电脑查找某一个字或某一些字，或者拷贝书页中的文字，这是文本数据的巨大优越性。

古书的文本形式可以像排版印刷一样，由人工录入电脑，这是编辑工作者都很熟悉的事情。人工录入工作十分繁琐，先进的方法是由计算机自动把图像页面转化为文本页面，这就要使用所谓OCR软件，也就是印刷体汉字的计算机自动识别技术。通过OCR技术处理，图像页面可以转化为文本形式，识别过程可能出现错误，这就要由人工做复核校对工作。目前计算机识别汉字的技术正在飞速发展之中，技术界已经开发出很好的OCR软件，这些适合古籍文字扫描识别使用、针对古籍复杂版面的识别和校对技术，值得关注。

汉字转化为文本数据时有编码问题需要考虑。在电脑中，一个汉字或者一个符号对应一个数字，不同的数字代表不同的汉字或符号。汉字数量很多，迄今为止，机器编码还不能包括所有的汉字。中国内陆开始时使用简体汉字国标编码GB，只有6763个汉字；1995年发布GBK编码集，有20902个汉字；2000年发布GB18030-2000编码集GB18030-2000编码集，有两万七千多字。台式电脑操作系统DOS平台只支持GB，Windows2000和WindowsXP系统从95到98和Me一直支持GBK，直到Windows2000和WindowsXP系统才能支持GB18030-2000汉字集和Unicode汉字超大字符集。上述标准编码集中的汉字有固定的编码，超出范围的汉字临时造字时自定编码，不同的系统造字各有各的编码，彼此就不大可能一致。台湾和其他地区使用的繁体Big-5编码，有一万三千字，跟上述编码集不同。

目前古籍文本数据还是在不同的平台上录入电脑，使用的汉字编码标准并不相同。在把古籍文字录入电脑时，首先要结合上述汉字编码集对原书文字加以处理，确定用繁体还是用简体，异体奇字要不要归并为通用字等等。特别是，古籍使用的汉字数量众多，不要说GB汉字数量不够，即使经过几次扩充，仍然不能包括古籍中所有的汉字，所以都免不了要临时造字。

除了文字以外，古籍录为文本数据时还要考虑是不是要添加标点和划分段落。这个问题跟古籍数据库的功能和使用有很大关系。

尽管古籍的文本数据校之图像数据有许多优越之处，但是制作文本数据的工作性质跟重新排版一样，不能像图像数据一样再现原书页面原貌和文字原形。文本数据有繁重的文字录入和校对工作，需要投入大量人力，成本高，售价高，影响数据库的编制和普及。文本数据的校对质量对数据库的效果有很大影响，所以目前重要的数据库采用图像和文本对照的方式，可以随时调出原书页面图像核对文本文字是否正确。

微信古籍库专业版原书图像

三、数据库

书籍分类上架，编制目录索引，才便于索取阅览。电子数据同样需要编排和管理，一张张图像页面，一段段文本数据，既需要分类安置，又需要相互串联，组成一个有秩序的整体，以便从不同的角度去查找和使用。这就需要建立一个分类系统和检索系统，把所有的数据联系起来，使用者用系统提供的方式索取就能迅速找到需要的数据。

古籍数据库检索书籍时，一般有从书籍分类查找书籍和从书名或作者名查找书籍等几种索书方式。由文本数据构建的数据库不仅能检索书籍，还能在数据库所包含的古书中查找使用者所需要的字句，这就是所谓“全文检索”功能。全文检索功能可以在几秒或几十秒内从数据库包含的一部书、一批书或所有的书中迅速检索出一个字或者一些字的所在，对古籍整理出版和学术研究都有极其巨大的裨益。

古籍数据库为了使用者方便，还可以附加其他功能。图像页面虽然是一个整体，但是使用者可以对页面加工，添加标点和批注，还可以打印在纸上。文本页面以字为单位，除了加标点和批注外，还可以把字跟电子字典连接，点击某一个字时，显示该字的读音和解释，甚至还可以发声读出字音。利用电脑的海量存储和迅速处理能力，古籍数据库还可以附加别的功能和资料，例如干支公元对照表和各种工具书等，都很容易编入数据库，通过链接可以随时查考，给使用者提供更多的方便。