李明杰：中文古籍数字化基本理论问题刍议

对于中文古籍数字化的探讨，可谓由来已久，相关论文也发表了很多，算不得一个新鲜话题。但笔者在查阅这些文献后发现，这些研究大多停留在对古籍数字化的现状、发展趋势及对策的探讨上，间或也有古籍数字化技术的介绍，虽也不乏优秀论文，但给人总的印象是宏观论述的多，具体研究的少；一笔带过的多，真知灼见的少；实践探讨的多，理论研究的少。其实，中文古籍数字化的技术已基本成熟，换句话说，当技术已不再是问题时，基本理论问题才是关系到古籍数字化方向和成败的关键性问题，应该引起我们的高度重视。正如史睿先生在《试论中国古籍数字化与人文学术研究》一文中所指出的，“古籍数字化的理论问题比技术问题更为重要，因为一旦理论发生了偏差，技术越高明，则解决方案越是难以成功。”[1]笔者深有同感，故不揣浅妄，在此抛砖引玉，祈请方家指正。

1 什么是古籍数字化？

这似乎不应该成为一个问题，但它关系到对古籍数字化的定位，故有必要作深入探讨。应该说，在这个基本问题上人们的认识是存在一定误区的，最常见的就是把古籍数字化仅视为存储介质的转换，其目的也只是保护和储存古籍。如：“古籍数字化就是利用数字技术将古籍的有关信息转换成数字信息存储在计算机上，从而达到使用和保护古籍的目的。”[2]“古籍数字化就是采用计算机技术，对古籍文献进行加工、处理，制成古籍文献书目数据库和古籍全文数据库，用以揭示古籍文献中所蕴涵的极其丰富的信息资源，从而达到使用和保护古籍的目的。”[3]“所谓古籍数字化，是利用现代信息技术，将历来抄写本、刻铸本、雕版、活字版、套版及铅字印刷等方式所呈现的古代文献，转化为电子媒体的形式，通过光盘、网络等介质保存和传播。”[4]类似的观点还很多，兹不一一列举。诚然，古籍储存介质的转换可以解决长期困扰人们的古籍保存问题，也在一定程度上方便了人们使用，但笔者以为，这些定义尚不足以反映古籍数字化的实质。从本质上讲，古籍数字化不是一个单纯的技术问题，而是一个文化问题和学术问题。

早在1959年，C.P.Snow教授在《两种文化》[5]一书中指出，科学与人文之间存在着鸿沟，并成为两种互不沟通的文化，引起了西方世界的极大震动。时至今日，如何调和这两者之间的矛盾，仍是西方国家关注的重要课题。反观国内，由于我国文化历史悠久，积累深厚，加上数十年来对人类最新科技成果的生吞活剥，使得这一矛盾更为凸现。其中一个最明显的例证就是，一方面我们自认为是文明古国的后裔，拥有灿烂傲人的传统文化；另一方面却生活在由电缆、芯片和水泥构筑的城堡之中，古典文献离人们的日常生活越来越远，数千年来的人文积累在时下年轻人身上难觅痕迹。而古籍数字化用强大的技术手段，将博大精深的中华文化典籍缩微到计算机存储介质中，并让它活络起来，以无可比拟的速度传播开去，极大地方便学者研究和普通知识受众的学习浏览。从这层意义上讲，古籍数字化在科学与人文之间架起了一座桥梁，拉近了传统与现代的时空距离，善莫大焉。

但古籍数字化并不只是抢救、保存和普及传统文化，也不是简单地复制和再现典籍的原貌，而是将现代工具与传统内容实现完美的结合，形成工具与内容的统一体。记得傅斯年先生说过“上穷碧落下黄泉，动手动脚找资料”的话，可见人文学术研究很大程度上是建立在资料占有的基础上，而古籍数字化可为人文社会学术研究提供多种有效、快捷的检索途径，使学者多出成果，快出成果。对于以文字为主的中国古籍来说，它的数字化绝不只是纸张载体版本的翻版。扫描是必要的，但扫描在很多情况下只是数字化的预处理。据北京书同文数字化技术有限公司的实践，扫描仅占数字化工程的2%[6]，因而将古籍数字化看作是简单的“扫描”和“录入”的观点是片面的。在古籍数字化进程中，最主要的就是实现知识关联的全文检索。越是面对内容丰富的典籍，越是需要非顺序式的阅读。数字化则是将亿万汉字所表征的信息，贯穿电子的经络，使得字字可查、句句可检成为现实。而且，通过古籍文本内容的深入揭示和关联重组，可以实现知识发现的功能。所谓知识发现（Knowledge Discovery in Database，简称KDD），又称数据挖掘，是指从大量隐含的、以前不知道的、潜在有用的信息进行有价值的知识提取，并从中发现知识之间的关联关系，从而达到知识创新的目的。因而从此意义上讲，古籍数字化对于学术研究还具有重要的工具性意义，是学术研究工作的一部分。

但古籍数字化又不同于一般的学术研究，而是属于古籍整理的范畴，它是传统校雠学在现代技术下的合理延伸。长期以来存在一个误解，即把古籍数字化与古籍整理对立起来，认为古籍数字化正在蚕食古籍整理的领地，主张等古籍整理好了之后再谈数字化问题。其实，两者一点也不矛盾，相反是相辅相承的。古籍数字化首先有个文本对象的选择问题，其中涉及的版本问题非常复杂，这就需要内容专家考订版本源流，选择善本为底本，广校异同，精心标点，之后还须广徵群籍，拾遗补阙。数字化古籍的整理同样要经历这样一个过程，与承担“辨章学术，考镜源流”的传统校勘学并无实质不同。如果将古籍数字化理解为只是古籍存储形式的简单变换，而没有前期的古籍整理过程，那古籍数字化的价值将大打折扣。同样，数字化建立的人文社会科学资料库，只会有利于古籍资料的分类、鉴别、比较、选择、保存、查询、检索，让古籍整理工作者从繁重的资料工作中解放出来，从事发挥他们自己特长的高级研究工作，加快古籍整理的进程。

综上所述，古籍数字化是以保存和普及传统文化为基本目的，以知识发现的功能服务学术研究为最高目标，在对传统纸质古籍进行校勘整理的基础上，利用计算机技术将其转换成可读、可检索、及实现了语义关联和知识重组的数字化信息的过程。

文章图片2

2 什么样的古籍适合数字化？

我国现存古籍约有近20万种，对它们全部进行数字化似不大可能也没有必要。这实际上就面临一个选题的问题。古籍数字化对象的选择必须遵循现实性和实用性的基本原则，如前所述，古籍数字化的现实目标是为普及文化和科研服务，但当前最紧迫的任务还是为人文社会科学研究服务，具体来讲就是要解决文史资料查找费时费力的老大难问题。中国古籍汗牛充栋，经过系统整理的毕竟不多，方便的检索工具，如引得、通检、索引、汇编等也很有限，难怪以清代三百年间第一流人才的心思精力研究经学，却只取得了一点点的成果，两千四百多卷的《清经解》，大多是一堆流水烂账，没有条理，没有系统，人人从“粤若稽古”、“关关雎鸠”说起，怪不得学者看了要望洋兴叹。[7]而且，一般的人工检索工具所能揭示的信息含量相比浩如烟海的古籍资源来讲，可谓沧海之一粟，也不便于人们进行全面研究。从满足人们对古籍信息资源需要的角度来看，大型的丛集汇要搜罗宏富，传统文化的经典基本包罗在里面，是最适合的检索对象，但人工查检往往是费力不讨好。现在由于古籍数字化实现了语义关联的全文检索功能，检索不再是问题，那么这些大型工具书应成为古籍数字化的首选。丛书如《四库全书》《四部丛刊》《四部备要》《二十五史》《十三经注疏》《诸子集成》《历代史料笔记丛刊》等；类书如《艺文类聚》《玉海》《永乐大典》《太平御览》《册府元龟》《古今图书集成》等；总集如《先秦汉魏晋南北朝诗》《全上古三代秦汉三国六朝文》《文苑英华》《两汉全书》《全唐诗》《全唐文》《全唐五代诗》《全唐五代词》《全宋诗》《全宋词》《全宋文》《全辽文》《金文最》《全金元词》《元诗选》《全元文》《全元戏曲》《全明诗》《全明词》《全明文》《全清词》《清文海》等，还有历代别集，历代会要会典等。这些古籍的数字化足以满足一般文化普及和学术研究的需要。

但有的特种古籍，如金石拓片文献、竹简帛书文献、敦煌文献、珍稀善本、佛教典籍、方志文献、谍谱舆图等，对于某一类专门学术研究具有特别重要的意义，而其纸质文献又不易为一般学者所得，因而对它们进行数字化也是非常有必要的，也有利于发挥数字化载体易复制和传播的优点，在选题时应充分考虑。比如对青铜器进行整理而成的《两周金文辞大系图录考释》，集海内外甲骨收集之大成的《甲骨文合集》，还有囊括4100余种23000卷佛教经典的《中华大藏经》，以及属于抢救性质的古籍整理成果如《永乐大典》《俄藏敦煌文献》《法藏敦煌西域文献》《敦煌文献合集》《吐鲁番出土文书》等，诸如此类的古籍文献都应优先纳入数字化的范围。这不仅是处于保护和弘扬文化的需要，也是学术研究之必需。

以上是从文化普及和一般学术研究的需要、专门学术研究的需要这两个层次来阐述古籍数字化对象的选择的。另外，应首先选择那些经过系统整理的古籍进行数字化，这也是古籍数字化应遵循的一个原则。我国现有古籍十几万种，经过系统整理的已达1万多种。前人古籍整理的丰富成果应充分地加以利用。但需要指出的是，这只是就一般规律而言，在实践过程中，应具体问题具体分析，如前文所言，不应将古籍整理和古籍数字化对立起来。

文章图片3

3 由谁来完成古籍数字化？

当前，除了古籍爱好者和研究者进行的零星古籍数字化工作外，成规模的数字化工作基本上由三类机构来完成的。一是教学和研究机构，如中国社会科学院的数字化项目《全唐诗》《全唐文》《十三经》《诸子集成》等，武汉大学的电子版《四库全书》，深圳大学的电子版《红楼梦》，香港中文大学中国文化研究所先后推出的先秦两汉、魏晋南北朝古籍数据库及竹简帛书和甲骨文数据库，台湾地区“中央研究院”的《汉籍电子文献》系列等，都属此类。这类机构的数字化对象选择性比较强，主要是根据教学和研究工作的实际需要来决定选题的；二是图书馆等公益性机构，如国家图书馆的古籍特藏文献数字化计划、上海图书馆的善本数字化项目、北京大学图书馆《中国基本古籍光盘库》项目等就属此类，这类机构古籍数字化主要是根据其馆藏特色来进行；三是商业性机构，如超星数字图书馆进行的古籍数字化项目、书同文数字化技术有限公司推出的电子版《四库全书》《四部丛刊》，国学公司推出的数字化《国学宝典》，迪志文化出版有限公司与上海人民出版社推出的文渊阁《四库全书》电子版等，均属此类。商业机构的古籍数字化项目的选择主要是根据市场来决定的，哪一类文献有市场，就进行哪一类文献的数字化。考虑到市场的运作，常常会选择大型类书、丛书如《古今图书集成》《四库全书》《四部丛刊》等等。

不同类型的机构根据自己的条件进行各有特色的古籍数字化项目当然是很有必要的，但任由它们自由选题和发展也势必造成选题过于集中、内容重复、资源浪费的问题，而对学术界很需要的一些古籍进行数字化却少有人关注。中国古籍的数字化是一项中华文化遗产的保护和弘扬工作，具有强烈的公益性色彩，需要各方面加强协调，有一个整体的规划。整体规划不仅包括数字化对象的内容确定和合作分工，同时包括相关标准、规范的统一，而这两方面的问题在目前古籍数字化工作中表现尤为突出。这就需要有一个整体规划和协调的机构，它应类似行业协会性质的机关，通过指定行业标准、行业规范和定期发布一些古籍数字化选题规划和产品信息，来对各部分和机构进行协调和指导。

对于实施古籍数字化项目的具体部门来说，也存在一个是以内容专家还是以技术专家为主导的问题。我们既然已经明确了古籍数字化属于古籍整理和学术研究的范畴，而不仅仅是图书载体的转换或商业炒作的噱头，因而在组织队伍和进行项目规划时，必须以所选课题领域内的学者专家为主导，而不是以技术专家为主导。内容是古籍数字化的核心，技术作为形式和手段永远只能为内容服务。内容专家和技术专家的关系应该如同建筑工程师与建筑工人，这样才能形成人力资源的最佳配置，有效地发挥各自的功能。比如台湾地区“中央研究院”的系列电子化项目、元智大学的“网路展书读”、汉文化联盟的《汉文化资料库》采取的都是专业研究专家与技术人员、图书馆三方合作，并以专业学者为主导的方式，使得开发的项目与专业研究者的实际需求相切合。这种合作方式很值得内陆借鉴。

文章图片5

4 如何实现古籍数字化？

古籍数字化的方法和步骤是由古籍数字化的本质和目标所决定的。

第一，古籍数字化属于古籍整理的范畴，因而首先要解决版本的选择问题，这也是传统的古籍整理首先要遇到的问题。就时下而言，人们在对古籍进行数字化时，往往选择那些容易获取的文献，而不是根据版本的优劣来进行选择，这势必会严重影响古籍数字化的质量。因而很有必要请专家对版本进行鉴定和筛选，尽可能选用善本来数字化。然而所谓善本也是相对的，不同版本之间的异同也是互有优劣，各有长短，因而除了对不同版本进行比较、校勘外，也要尽可能提供其他未被选用的版本信息，以供研究者参考。这样，古籍数字化就需要遵从“文献整理”原则和“文献保真”两个基本原则。所谓文献整理原则就是在广罗异本，择善而从的基础上，对文献的文本内容进行校勘整理，提供给读者精良的版本内容。所谓保真原则，就是要尽可能地保留文献整理过程中所利用的各版本的内容和形式方面的信息。就内容方面，在提供整理过的文本内容的同时，还需要保留前人留下的校勘记、批注等内容，为读者提供其他版本异同的内容，了解版本整理的经过。就形式方面，应将各版本的版本信息，诸如版本类型、版刻年代、刻工姓名、牌记、卷端、行款、字体、墨色等通过技术手段加以保留。

第二，古籍数字化不单是复制和再现典籍的原貌，而是将现代工具与传统内容完美结合在一起，形成工具与内容的统一体。从这个意义上讲，数字化的古籍应该是一个增值了的信息库，是人文社会科学研究的有效工具。全文检索是古籍数字化最早受到重视的技术，简单的全文匹配检索在几乎所有的文本编辑和对象数据库中都能实现，但“噪音”也过大，这就要求古籍数字化必须深入文献内部的知识单元，通过古籍文本内容的深入揭示和关联重组，达到知识发现的目的。为此，对古籍的内容进行深度标引就非常有必要，在实际标引过程中不应放过任何含有学术信息的关键词，比如文献中的人名、官阶、地名、年号、典故、制度、族属、语词、范畴和其他专名等都应制成索引，力求做到从任何角度都能检索到读者所需要的信息。对于存在的同书异名、同名异书、同一作者的不同称谓等问题，可借鉴传统文献整序时采用的“名称及主题规范档”、“权威档”（Authority）等方法对关键词进行规范控制。在现阶段，可优先将已有的纸质检索工具（如《十三经索引》《二十四史人名索引》等）转换成数据库，以解当务之急。但古籍数字化与现代的文献编目不同，它不是对文献的某些特征进行抽象性的描述，而是对文献的内容进行数字化处理，其中涉及的问题往往非常复杂，需要联系上下文的语义环境，这就需要为读者提供了解文中内容背景的知识支持系统，如年号与公元纪年对照表、历代官阶序列表、家族世系表、姻亲关系表、地名沿革表、人名字号表等。为此，北京大学李国新教授特别强调古籍数字化成果应具备研究支持功能，具体来说，“是指能够提有关古籍内容本身科学、准确的统计与计量信息，提供与古籍内容相关的参考数据、辅助工具。这些信息、数据或工具都是古籍内容的增值或补充。比如古籍字数、字频、词频的统计资料，异体字的汇聚显示，读音的自动标注和朗读，行文风格特点的概率统计，必要的背景知识、参考数据的汇聚，在线标点断句工具的配备，不同版本比勘校对接口的设置，字典词典、历史年表、历史地图等研究工具的载入，等等。有了这些研究支持功能，不仅可以极大地改善研究者的研究条件，而且还会带来研究思路、研究方法的变革。”[8]近年来不少古籍数字化项目已将注意力逐渐集中到了李国新教授所提到的这些方面，在进行数字化时比较注意相关工具的开发。

第三，在界面设计及检索结果的输出时必须考虑古籍文献阅读和使用的特点。数字化古籍的首要功能还是提供读者阅读的，因此没有浏览界面，数字化古籍就会成为一堆支离破碎的词汇或段落，无法阅读。一个好的浏览页面应该可以在全文阅读、原文图像、检索结果及相关知识支持系统之间自由切换。特别是原文图像与全文阅读的精确对应，可在两者之间建立起直接的校勘关系，可以解决全文阅读时的部分文字错误。特别是对古今字、异体字、避讳字等的关联检索没有达到完善匹配的时候，原文图像在补字和校正错字方面的作用尤其明显。浏览界面可以采取目录、正文和注释的分级显示，读者通过目录树就可以直接跳跃到需要阅读的正文部分。对于读者可能遇到的陌生的关键词，以及读者阅读文献时想可能想参考的文献，可以通过超文本链接的方式来揭示文献或关键词的意义及内在的关联关系。甚至可以通过预设的超文本链接，将古籍篇章中的基本问题与历代的研究成果联系起来，达到聚集相关知识的目的，方便读者使用。查询界面的设计要与关键词数据库相配合，其检索结果以HTML文档的形式显示于浏览器上，建立检索结果到所出文献的超文本链接，读者可由此跳转至原文献，以实现指向文献内部意义的知识发现。无论是浏览界面，还是查询界面，都必须具备人性化特征，符合读者的检索习惯，并辅以必要实用的使用说明（帮助），不给读者增加学习负担。

第四，古籍数字化一定要注意标准化问题。当前数字化古籍的文件格式可谓五花八门，种类繁多。除了常见的txt、doc、html格式外，还有exe、pdf、wdl、ebk、edb、oeb、sep、ifr、xeb、pdg、nlc格式，以及基于unicode、仓颉码、Big5码或其他字符集，以html、xml、sgml等为核心的全方位电子文献全文检索格式。这些不同格式的文件，往往需要各自专门的阅读器才能进行浏览，相互之间难以兼容，给读者造成了不少麻烦。而且，由于许多图书采用了图片格式，也给使用者提取资料带来了许多困难。当然，处于版权保护的考虑对其进行限定使用在一定范围内是合理的，但因相关技术的开发不同步，使大量宝贵的图书资源没有得到很好的利用。

另外，古籍数字化必须同当前发展迅速的网络通讯结合起来。这主要是基于信息资源共享的考虑。一方面，可以发挥网络传输迅捷、异地使用的特点，供全民共享，使其资源社会效益最大化；另一方面，也可为古籍数字化选题提供快捷的参考信息，避免选题过于集中和重复。

参考文献

[1] 史睿．试论中国古籍数字化与人文学术研究．国家图书馆学刊，1999（2）．

[2] 厉莉．古籍数字化的现状与对策．江西图书馆学刊，2002（1）．

[3] 张雪梅．古籍数字化与文献信息资源共享．天津工业大学学报，2002（3）．

[4] 陈阳．古籍数字化发展状况概述．电子出版，2003（8）．

[5]（英）斯诺著；纪树立译．两种文化．北京：生活·读书·新知三联书店，1994．

[6] 朱岩．古籍数字化实践．
http://www./newpage/wjls/html/8mulu.htm．

[7] 史睿．试论中国古籍数字化与人文学术研究．国家图书馆学刊，1999（2）．

[8] 李国新．中国古籍资源数字化的进展与任务．大学图书馆学报，2002（1）．

原文发表于《图书馆论坛》2005年第5期

作者简介

李明杰，1971年生，江西丰城人，现为武汉大学信息管理学院教授、博士生导师。主要研究领域：文献学与中国图书文化史。主要著作有《宋代版本学研究》（齐鲁书社2006年）、《中国出版史·古代卷》（湖南大学出版社2008年）、《中国古代图书著作权研究》（社会科学文献出版社2013年）、《简明古籍整理教程》（武汉大学出版社2018年）、《暮雨弦歌：西德尼·D·甘博镜头下的民国教育（1917-1932）》（武汉大学出版社2019年），发表学术论文70余篇。