刘石：文献学的数字化转向

方兴未艾的数字化改变了传统文献的生产、存储、研究和使用方式，以印刷媒介为基础的传统文献生产体系正向以智能媒介为前提的数字文献生产体系转变。数字文献以结点为单位组织信息，以链接方式表达特定联系，形成非线性网状结构的超文本。较之传统文献，数字化改变了知识形态，不仅更加便于检索、阅读和分析，功能也更为多元。

古籍数字化是东西方学界面临的共同趋势。一些欧美公司专门研发了包括EEBO (早期英文图书在线)、ECCO (18世纪作品在线)等在内的大型电子古籍资料库和各种专题资料库。欧洲数字图书馆( Europeana) 采用“收割各国整合后的元数据” (孙健波《WDL 和 Europeana 对我国公共数字图书馆建设的启示》，《连云港师范高等专科学校学报》2016 年第 4 期) 的资源采集方式，为数字资源提供内容聚合工具，开发 CAＲAＲE 系统用于 “文化遗产的元数据的映射、丰富、更新等预处理工作” ( 鲁丹、李欣《数字人文环境下异构方志元数据整合策略》，《图书馆论坛》2019 年第 4 期) 。美国国会图书馆推出新的书目描述框架 “BIBFＲAME” 关联数据模型、词表、应用纲要、编码规范等并在 Library. Link 发布 (
https://www./bibframe/) 。在国内，上海图书馆也已使用 BIBFＲAME 书目数据将其家谱数据库、古籍善本等发布为关联数据 (夏翠娟、刘炜、陈涛、张磊《家谱关联数据服务平台的开发实践》，《中国图书馆学报》2016 年第 3 期)。国外多所大学设立了数字文献学硕士、博士学位，成立了专门的研究机构。

随着信息技术的普遍应用，西方古典文献学的内涵也发生了变化。以 19 世纪末 20 世纪初的 “国际目录学会 (IIB) ” 为标志，从原来涵盖的语文学 (Philology) 、书志学 (Bibliography) 、古文书学(Diplomatics) 或古文字学 (Palaeography) ，向目录学、文献学和情报科学方向发展，产生了现代文献学。1931年，该学会改名为“国际文献学会”，1937年又改为“国际文献工作联合会”，并将 Documentation 的“以图表符号代表或表达一件事物、一种行为、一个概念和一种印象，其中印刷文献所占比例最大” 重新定义为 “对人类各活动领域内的各种文献的搜集、分类和传播”。1968 年，美国文献学会 (American Documentation Institute) 易名“美国情报学会”(American Society for Information Science) 。此后，Information Science 使用渐多，而 Documentation 一词相对减少。因此，英国著名情报学家布鲁克斯表示， Information 可视为 Documentation 的一种延伸 (Bertram C. Brookes，“The Foundations of Information Science. Part Ⅰ . Philosophical aspects ”，Journal of Information Science，vol. 2，1980，p. 125) 。

随着古籍数字化、数据化尤其是大数据技术的应用及基于人工智能技术的数字人文的兴起，更具方法论和本体论意义的 “Information Science” 已经出现。近年涌现出的 “电子文献学” “数字文献学” “数字目录学” “计算人文” “数字人文” 等概念，无不体现了大数据技术与传统文献学的暗脉相通。数字文献学研究也超越了原来以个人和实体单位为主的组织方式，更多基于跨学科、跨领域、跨地域的交叉研究与系统协作，主要推动力量则来自信息、图书、情报、计算机、统计等专业领域学者。

文献学的数字化转向，首先是对文献本身进行数字化拆解和重构，其次是以数字化手段辅助传统文献学的研究。目前，数字文献学的发展亟需解决技术规范、内容生产、评价标准及协作机制等方面的问题。

古籍数字化的标准

不同的数据格式带来了格式转换和字段映射问题，没有统一的标准规范，无法实现元数据的统一描述、规范标引、集成整合和元数据互操作。有必要在分析元数据实体及其关系的基础上，制定元数据实体抽取策略，建立实体名称规范化规则，并通过实体消歧解决数据冲突和语义冲突，实现元数据实体融合。在古籍电子化和数字化过程中，包括字形字体、编码符号、标点分章、排版布局等都将产生新的标准。古籍 OCＲ准确率的提升，为建设可直接引用的文本集、文本库和数据库提供了技术条件。首都师范大学电子文献研究所曾提出 “古籍电子定本工程” (尹小林《关于“古籍电子定本工程” 方案》，《中国索引》2009 年第 3 期) 的设想，精挑版本，反复校勘，每种电子古籍由一套底本原图和原图格式繁简字转化版及网页标点本三套电子文本组成。电子本以 Unicode 编码，支持超大字符集和多语种平台浏览，并可以适时更新和及时纠错。推进对精良文本集、文本库的研发和认证，建立数据库的引用规范。对学界认可度高的数据库的查引，只出注地址链接和查询日期，无须再倒查原书。中华书局于 2014 年推出的《中华经典古籍库》已成为学术研究的重要文献资源，作为一种文本集合，应该获得独立引证资质。

数字化目录亟需统一标准，进行规范化的元数据录入。为人名、地名、职官等实体编制唯一代码，解决同名异指和异名同指问题。数字化版本也须制订为学界所公认的版权规则，避免版权纠纷。古籍数字出版过程中的著作权保护问题，可采用加密、水印、权限设置、终端认证、提升数字化出版人员著作权保护意识和构建科学完善的古籍数字出版著作权保护机制等措施来解决 ( 毕翔、唐存琛《本真与还原———古籍善本的数字化处理研究》，《高校图书馆工作》2018 年第 6 期) 。研发适合数字文本体例的规范与符号系统，开放一批经典文献清晰版作为参照模板，推动文献内容与元数据标准化，通过文本转化、跨库检索和关联分析等方式促进资源的有机整合。

数字文献的标注

标注是建立知识关联的基础，通过对数字文献的标点、分词、标引和专名识别等，实现古籍的跨文本、跨库甚至跨媒介索引。利用已有人名、地名、职官、俗语、典故等专名词库辅助，提高分词、标注的速度及准确率。“探索面向古籍数字资源的语义检索机制，着重解决语义检索、可视化检索、语义网发布等问题，实现由单一检索变为多元检索、由静态检索变为动态检索、由定向检索变为关联检索，为最终实现真正的智能检索奠定理论和技术基础。” ( 刘忠宝、赵文娟《古籍信息处理回顾与展望》，《大学图书馆学报》2021 年第 6 期) 构建诸如繁简字、异体字、避讳字和同义词、近义词、反义词等对照表，以及有助于基于字词句进行关联的各种词表。研发古籍智能标点、校勘、索引、编纂、注音、释义、翻译、统计、分析、多媒介检索技术，对于开放的古籍标注版，应当像传统的古籍整理成果那样纳入专业评价体系和古籍出版规划，成为新型古籍整理与出版形态。设置不同于印刷出版物的支持和评价体系，将使用量和使用体验作为评判的重要参照指标。

数字文献的类聚

改进古籍自动分词方法和自动词性标注技术，在开展专名识别、词表建构、句法分析、语义消歧及索引、编纂、翻译等工作的基础上，采取机器与人工结合、专业与众包结合等方式，建构包括分词与词性标注资源、句法标注资源和语义标注资源、特殊字词、专有名词、行业术语、事实数据、特殊字符等各种词表在内的古籍标注资源数据库。基于不同的标引条件和工具算法，在原来四部分类及朝代、地域、文类等文献划分的基础上，实现不同颗粒度的知识聚合。借助文本相似度比对、自动聚类和分类技术快速处理大批量文献，再利用主题模型对各类进行主题抽取，给碎片化文本打上语义标签，以三元组形式建立多维联结，支持语义层面检索和图谱的自动化生成。

数字文献的结构化

语义关联、文本类聚使得独立文献、碎片化文本的纵横串联成为可能。发挥精细化语料库的功能，通过搜寻、比对等方式对文本进行多维度、多属性和多模块分析，构建符合学科规范的结构化的知识图谱，实现数据从 “字联网” 形态进入到更深层的 “意联网” 形态，完成文献知识的即时聚合生成与无障碍转化，是数字文献特具的功能，也是数字文献的终极功能。

以往的文本主要是线面性知识，将古籍知识库与GIS、天文软件系统、商业平台等链接，辅以各种分析工具和模型，可生成各种立体化交互平台和各种应用场景。图像生成及知识的可视化改变了我们对古籍的理解和思维方式，让古籍动起来和活起来。借助VＲ技术进行互动式场景展现以及在语义层面建立智能化互联，是数字文献现今乃至未来的重要应用方式。将平面化的文学文本转变为立体化的虚拟场景，带来的不仅是视觉的直观冲击，同时也有互动式体验和全新理解。斯坦福大学空间与文本分析实验室研发的维多利亚伦敦文学情感地图，利用实景照片、文物图片并融合历史地图和考古成果对作品场景进行了真实还原，可以看作这方面工作的一个示范。

商务印书馆执行董事、中华书局原总经理顾青曾提出创建 “中华基本史籍知识库”，通过传统文化知识元的关联，将古籍文献、学术著作、知识条目有机结合，建立立体化知识系统，“提供传统纸质图书无法实现的知识检索、类聚、链接以及知识提示等服务功能，比目前已有的古籍数字化系统有进一步的加强和创新，呈现了古籍文献知识线索，破除了信息孤岛现象，打通了书的界限，建立了图书之间的联系。同时'中华基本史籍知识库’打破专家与广大读者之间的知识与信息壁垒，读者不再是单纯的使用者，他们与系统能够形成互动，贡献自己的知识” ( 顾青《真正的古籍数字化是建立一套综合的知识服务体系》，http://www.cnpubg.
com/news/2013/0718/17248.shtml) 。中华书局也在主持开发 “二十四史”，对四千七百万字史籍经典进行多重实体自动提取和本体构建 ( 董慧、徐雷、王菲、俞思伟《语义分析系统研究［Ⅲ］ —— 中华史籍语义分析系统实现》，《情报学报》2014 年第 2 期) 。我们期待这一知识工程发挥远超 “中华经典古籍库” 功能的强大作用。

数据系统的开放协作

探索知识新的组织方式，如文本分层存储，关联查询，具有权限控制、格式转换、分类聚类等功能。文本库能随时录入数据，追加新版本和内容，自动查重、排序及索引，实时更新和维护。接受在线校勘，建立知识库的修改—审核机制，借助区块链技术等保留每一次改动的痕迹。现今一些公司雇用大量数据标引员，已可做到车间化流水线作业。耶鲁大学的“广厦千万间”项目 (Ten Thousand Rooms Project，https://tenthousandrooms. yale. edu) 则利用互联网的社区属性，打造古典文献协作研究的平台。中华书局古联公司亦已有数千名注册的在线编辑，可以通过众包形式组织大规模的古籍整理。

国家和社会力量支持的数据库应并联开放，不同院校和公立科研机构研发的语料库应鼓励开放，或者国家出资寻求对诸如十三经、二十四史、《四库全书》等优质数字文献实行买断，公众可免费使用。鼓励众筹共建和开源共享，构建可以提供史料存储、检索、计算、分析、传输功能的超大型史料数据平台，让新型数据库成为文献支撑平台、技术服务平台、关联分析平台和成果发布平台。

实验室和图书馆在文献学的数字化转向中发挥着重要作用。国家应鼓励创建文理交叉的人文计算或数字人文实验室，倡导各机构和图书馆在数字资源建设上进行合作，“在资源建设上不重复，在资源利用上实现共享。在数字化建设上，使用异地存取方式共建中华古籍资源是保障各馆收藏和发布权益的重要举措”( 张志清《试述图书馆古籍保护的历史机遇》，《图书馆工作与研究》2007 年第 3 期) 。鼓励跨界协作，建设自有知识产权的 CBDB、CHGIS 等类似的基础设施。

目前，国内外的一些高校和科研机构纷纷研发古典文献处理智能平台，在古籍的 OCＲ识别、断句标点、专名识别、语义网络和地理信息可视化等方面取得了较大进展，成为古典文献数字化转向的重要基础设施。清华大学正在研发的 “璇琮数字人文智慧平台”，致力于打造交互共享的新生态系统。文本功能平台侧重教学，支持对自定义文本从自动句读、分词、实体识别等预处理阶段到风格计算、情感计量、主题模型、关系提取等任务端处理的一体化实现，并辅以实际案例进行成果展示。此外，平台还支持历史地理信息、社会网络分析、文字云等可视化呈现，且提供大量研究资源，涉及诗歌、小说、佛教、礼学等各领域。平台建设初衷是希望 “人人皆可数字人文”，初学者可直接上手操作数字人文工具，使用数字人文方法进行学术研究。

总之，数字化文献可实现有序进入、分层管理、分布式存储、审议修改、追踪复原、可视化呈现、关联性推荐、个性化订制等功能，极大地提高了同一文献的使用效率，同时也可辅助教学、研究和决策。数字化文献可基于不同目的和场景建造各种基础设施和科研教育智慧平台，不仅提供学科发展趋势、历史演变、研究热点等信息，也能让学术研究具有交互性和过程性，实时进行学术交流和探索，形成各种学术共同体和通用知识成果，实现 “数字让人文更新” 的目标。