分享

刘昌玉,韩牧哲 | 数字人文与楔形文字材料研究的新趋向

 七烟 2024-03-08 发布于北京

图片刘昌玉 教授



刘昌玉,浙江师范大学人文学院教授;韩牧哲,江苏大学科技信息研究所讲师,博士。
数字人文(Digital Humanities)是计算机学科和人文学科交叉研究的一个新领域,缘起于1940年代被提出的人文计算(Humanities Computing),旨在将计算机技术深入应用于传统的人文学科,改变知识获取、标注、比较的方式,通过分析可视化等手段重塑知识,以帮助人文学科研究者与普通知识受众更好地了解知识间的关联。目前,数据科学已经在人文学科大类中的多个方向进行理论和实践层面的融合,Europeana、CARARE、ARIADNE、LODI4DH等项目均属于国外在文化遗产和历史文献的长期保存和再利用层面的数字人文项目典范,中国以上海图书馆的数字人文开放数据平台、中国人民大学的北京记忆知识服务平台、华东师范大学的数字方志集成平台等为代表的数字人文项目,同样在文化遗产保护和多元文献保障体系建设方面取得了长足进展。
在人文学科内,涉及已经或濒临消亡的古代或民族语言文字和出土文献信息资源保障的研究领域中,有相当大的一部分可被列为“冷门绝学”。这些学科规模小,资料采集、存储和整理手段传统单一,且传播渠道狭窄。在大数据环境下,相应研究领域的渠道和资源被进一步孤立和遗忘。因此,应用于古文字和出土文献领域的数字人文方法和相应范式研究已迫在眉睫。

亚述学(Assyriology)是从历史、语言与考古学等视角研究古代美索不达米亚与其周邻文化的一门学科。在其研究范围内的亚述、苏美尔和巴比伦等古代文化均以楔形文字(cuneiform)为通用文字体系。这些古代文字大多以泥板文书的形式被封存于距今6000至2000年前的美索不达米亚平原及其周边区域。直至19世纪,欧洲探险家在中东地区展开了非正式发掘活动,才使这些文字重现于世。这些出土的泥板文书是研究古代西亚地区历史文化的原始资料,对其的搜集、保存、释读、整理和复用于人类文明的早期形态和交流活动的探索具有重大意义。为弥补文献资料采集和整理传统方式的短板,以美国加利福尼亚大学洛杉矶分校的罗伯特·英格伦(Robert K.Englund)为代表的一批亚述学者,在1998年提出了构建“楔形文字数字图书馆”(Cuneiform Digital Library Initiative,CDLI)的想法,并于2000年在美国国家人文基金会(National Endowment for the Humanities)和美国国家科学基金会(National Science Foundation)的“数字图书馆计划”的支持下正式启动。截至目前,CDLI已经发展为世界上现存楔形文字材料最为齐全的线上数据库,其支持关联数据(Linked open data,LOD)的标准化发布,是促进数据共享及与其他数字人文研究领域集成的最佳实践。CDLI为楔形文字这一消失了数千年的古文字体系记录和承载的文献信息资源提供了数字化保存和共享重用的可能性,并成功推进了“数字亚述学”(Digital Assyriology)的发展,为亚述学的研究和发展提供了可持续的信息资源保障体系,对古文字和出土文献、民族文字、方言语系等研究领域的数字人文平台建设和文献资源保障体系的数字化重构有重要的参考价值和现实意义。本文拟从数据科学视角,对CDLI项目的信息组织方法进行解析,以便为相关数字人文领域的研究和实践提供有益参考。


一、楔形文字研究与数字图书馆建设
楔形文字是目前已知世界上最早的文字系统,古代两河流域的书吏以芦苇制成的笔在湿软的黏土表面按压出相应的文字符号,因其笔画形似“楔子”而得名。楔形文字在大约公元前3200年由古代两河流域(美索不达米亚平原,今伊拉克)的苏美尔人发明,后来被古代西亚的其他民族所借用,并演化为古代西亚的通用文字体系,直至帕提亚帝国(1世纪)时被字母文字取代,最终退出历史舞台。现存楔形文字的主要载体是泥板,还有少量楔形文字被铭刻在同时期的建筑物、石碑、金属器、印章(含印蜕)和珠饰上。这些楔形文字材料属于已知人类历史上最早的文献。在亚述帝国的古都尼尼微,“世界第一座图书馆”封存了一批泥板文书。这些楔形文字材料的内容涉及经济、文化、政治、法律、历史、宗教,是古代两河流域和西亚地区历史、语言和文化研究的重要史料。
19世纪,楔形文字材料重新得到历史学家和语言学家的重视。通过长时间的研究,阿卡德语楔形文字于1857年被成功破译,这标志着研究古代使用楔形文字的民族的语言、历史和文化的学科——亚述学的诞生。楔形文字材料是亚述学研究的基础。目前,绝大多数楔形文字材料已经可被释读,但对早期文字的解读仍存在一些有待解决的问题。整理和释读楔形文字材料的成果主要包含照片、手绘临摹(hand copy)、使用拉丁字母对楔形文字铭文的读音标识,即音译(transliteration)、意译或使用现代语言翻译(translation)以及注解(comment)。
对于亚述学研究而言,传统的资料采集、整理和存储方式及其存在的问题如表1所示。

图片

由于长期以来受当地的社会环境和客观条件限制,亚述学原始资料中有相当大的部分是从不规范或未经授权的采集和发掘活动中获取的。对于这些资料,不仅无法追溯其来源,增加了整理的技术难度,也有悖伦理。因此,在CDLI项目的白皮书中,对这些无有序来源的资料进行了限制。
据估测,现存的公元前第四千纪至公元1世纪之间的楔形文字材料大约有50万件。这些材料被零散地、分布式地存储在世界各地的机构和个人手中,其衍生出的文献资料种类繁多、数量巨大。因此,以传统的人文方法进行整理,需要各种烦琐耗时的人力劳动,而且容易造成重复劳动、标准不一、出错率高、共享与传播困难等现实问题,严重影响后续的研究工作。CDLI项目就是为解决上述问题而发起的一个专业型国际数字图书馆项目,其宗旨是对现存的所有楔形文字材料进行编译和保存,并为相关信息的阅览、重用和研究提供便利。截至目前,CDLI数字图书馆项目已经与世界各地的35座博物馆展开数字化合作,对超过32万件楔形文字材料进行了数字化采集。
CDLI是一项采用分布式结构、统一搜索接口的数字图书馆项目,支持授权用户进行协作式创作。其访问界面采用简单的B/S架构,通过元数据共享实现对多个数据库的集成检索。为促进研究并支持重复使用,数字图书馆的资源和源代码支持开放获取(open access,OA),并在用户门户中提供了丰富的链接,相关知识也被以关联数据的形式共享至关联数据云(LOD cloud)。
CDLI数字图书馆目前提供的服务涉及的楔形文字材料如图1所示。

图片

这些资源及在此基础上开展的服务主要通过分别搭设在洛杉矶和柏林的两个镜像网站集成,门户网页的相关结构及其包装的服务类型如图2所示。

图片

作为一个致力于为亚述学研究者和相关领域人文学者提供服务的学科性平台,CDLI的主要侧重点在于将各种以传统方法组织的零散分布的实物与文献资源,进行数字化存储、文本化组织及在此基础上的共享和重用。后文将从数据科学视角着重对CDLI的数据架构和关键技术进行解析。


二、数字人文方法在CDLI中的应用
作为数字人文领域中较为成熟的应用典范,CDLI的方方面面都有数字人文理念及相关技术的体现,例如立足于实体资料数字化的原始数据采集方法、立足于开放获取和公共存储的资源长期保存与持续访问方法、立足于机器学习的自动翻译和信息检索方法、立足于关联数据的传播和重用方法等。本章节将结合实例,从CDLI的数据结构、楔形文字的转译方法、CDLI的知识共享方案三个关键部分,对相关的数字人文应用方法进行解析。
1.CDLI的数据结构
CDLI提供了基于用户在线检索的简化数据流(data flow),但是显然无法展现这一浩繁的数字图书馆项目整体的数据结构。本文在现实应用的基础上对CDLI的工作数据流进行了更加系统的梳理(图3),并尝试从整体上进行解构剖析。

图片

图3是CDLI一般工作的数据结构模型,以楔形文字材料的数字化采集和数字人文加工为起点,可实现的基本功能是对用户在线检索的响应,扩展功能是基于相关资源的语义表达和关联数据发布的学科资源开放共享。从数字人文的视角来看,CDLI的工作主要可被划分为数字化、文本化、数据化和数据应用。
数字化主要对应楔形文字材料的数字化采集。对于出土的楔形文字材料实物而言,从各个角度采集高清图片是相关材料数字化保存的第一步,这项工作可以通过遵循一定操作规范的数码相机拍摄和扫描仪扫描来完成。CDLI的图片标准要求顺序采集楔形文字材料6个平面视角的正视图,并保存RAW原始图文件和未经压缩的600dpi分辨率的tiff图文件。但很多楔形文字材料从照片上无法清晰辨识,且可能存在文字笔画的残缺破损。除照片和扫描件之外,手绘临摹原始资料(泥板、石碑、印章等)表面的楔形文字是很多亚述学家的必备技能,可以将手绘的临摹图扫描成电子文档进行数字化保存。近年来利用Adobe Illustrator软件进行电脑辅助临摹而直接生成的矢量图,为亚述学者辨认楔形文字符号提供了更多便利。
文本化包含材料著录和文字转译两部分。材料著录是按照编目规则和元数据标准对楔形文字材料进行的外部结构化描述工作。每件楔形文字材料对应一条目录,有独立的CDLI序号,主要包含作者、发表时间、典藏机构、藏品编号、发掘编号、制作年代、样品类型、样品材质、铭文语种等著录信息。这些目录被整体编制成综合目录,相关著录信息可作为检索项。文字转译是针对楔形文字材料上的铭文进行的文本化转写。目前,这项工作大多在数字化的基础上进行,临摹图在其中作用显著,其过程是参照相应的编码规则将楔形文字符号转译为以拉丁字母表示的读音,并以机器可读的文本进行存储。这部分是CDLI数字人文应用的重要领域,将在后文中展开论述。
综合考虑各种平台和方法的优势,CDLI搭建了基于MySQL的数据管理平台。需要注意的是,著录整合后的综合目录是由FileMaker数据库系统管理的,而楔形文字转译文本则是以单独的MySQL数据库进行编辑和存储。这两个数据库以跨库导出和数据迁移方法汇总于CDLI MySQL,实现数据整合。在这个阶段,楔形文字材料的有关信息才真正被转化为可利用的数据,为基于计算的一系列数据应用做准备。
目前,CDLI提供的基本数据应用是跨库集成检索。CDLI按照统一的元数据和著录标准对35家合作博物馆的楔形文字材料进行整理,并将这些线上资源集成到一个检索界面中,可支持在7个大类涵盖的27种限定条件下进行高级检索,且支持对楔形文字文本的内容检索。用户提出请求后,数据管理模块可以通过计算,在综合目录中匹配恰当的条目,调取相应资源,并以链接形式将封装好的页面结果反馈给用户。以此为基础,CDLI未来可开展的其他数据应用和知识服务项目可能非常多样化,而作为致力于共享和开放获取的数字图书馆,引入和应用关联数据将是重点。对于其他人文研究领域有指导性的元数据选择和本体复用方法,后续章节将进行专门阐述。
2.楔形文字的数字转译与表达
楔形文字文献研究过程中,最为重要的解释环节是对楔形文字的音译或转译。楔形文字是一种被持续使用了数千年的书写体系,在这一较长的历史阶段中存在阶段性的流传、演化和发展。这一文字体系在历史上的各个阶段曾被用于多种语言的书写,而且表征不同语言的楔形文字还可能在同一件材料中出现。例如,在公元前第三千纪的一些楔形文字材料中曾同时出现过苏美尔语和阿卡德语两种完全不同的语言。同时出土的楔形文字材料的残缺破损和古代书吏可能存在的书写错误也进一步增加了楔形文字转译的难度。为此,亚述学者在20世纪初就开始尝试使用拉丁字母对楔形文字进行转写,编制了相应的同音字符标准表,确定了相关的转译规则。经过上百年的更新迭代,亚述学界现在已经有稳定的楔形文字人工转译体系,为相关的学术研究和正式出版物书写提供了便利。
从数字人文的视角看,转译实质上是对楔形文字材料进行文本化的一个步骤。人机协同是当前时代对文本化数据的要求之一。楔形文字的转译文本只有能被计算机读取,才能进一步在视觉特征识别、机器学习和人工智能的辅助下,开展自动翻译、文本分析乃至深度知识关联等数字人文研究工作。传统的人工转译以特定的符号和上下标指示信息条目,编辑形式烦琐且无法实现机器可读。于是,CDLI在ASC II文本编码规范下,对楔形文字文本转译进行了简化,并以“可扩展标记语言”(XML)进行编辑,实现了楔形文字转译文本的机器可读取性。CDLI的XML文档类型描述涵盖了楔形文字编写的各个方面,主要包括楔形文字材料的性质、楔形文字材料的元数据识别、材料的格式与分割、楔形文字在材料中的位置、材料的损毁部位、材料的字素、字素的实际音标值、字素在复合字素中的作用、包含字素的词、字素的作用(如注释等)、由字素组成的数值符号、数值符号的实际值以及古代书吏的讹误。CDLI的文档类型描述可以通过20个不同元素及其属性的XML层次结构来表征楔形文字文本。顶层元素〈texts〉表示楔形文字的集合,其子元素树〈text〉,〈object〉,〈surface〉,〈column〉和行元素〈l〉确定唯一的ID,将目标对象分成若干类型,并制订每行音译在材料(通常为泥板、封泥或棱柱)上的对应位置。行元素的内容由已解析的字符数据组成,这些字符数据进一步由内联元素的层次结构构成,例如〈n〉表示数字,〈w〉表示单词,〈gloss〉表示代名词和语音用语,〈g〉表示字素,〈cg〉表示复合字素,依此类推。此外,诸如元素〈nonclumn〉,非行元素〈nonl〉和非形容词元素〈nong〉之类的元素提供了对特性进行标准化描述的工具。
XML文档类型定义以机器可读的格式获取亚述学者所做的高度复杂的手工转译。不过,作为一种输入格式,它对于包含亚述学者在内的人文学科研究者而言,操作难度较大。于是CDLI进一步开发了第二种转译格式,即ASC II文本格式(ATF)。对于归档XML格式的所有元素和属性,ATF文件在如何输入转译方面有着相对简单且严格而清晰的规则。基于这些规则,以ATF格式编辑的转译结果可以自动转换归档为XML格式。

楔形文字材料的人工转译、XML转译、ATF转译的三种形式及示例如表2所示。

图片

上例展示了对同一件楔形文字材料的三种转译结果。综合来看,ATF格式的转译结果非常接近于人工转译结果。对亚述学者而言,这样的转译操作便于接受。ATF格式通过CDLI的相应的规则定义,即可归档为机器可读的XML格式,并为进一步的数字人文研究工作做准备。
3.CDLI的知识共享方案
楔形文字材料的数字化采集与楔形文字材料的转译所对应的文本化阶段,均属于知识组织范畴。在此基础上,依托被妥善组织和保存的知识资源开展数据化应用,则是CDLI的宗旨和项目目标,其对应的是知识管理中的知识共享环节。本节从CDLI项目的元数据复用方案、RDF和关联数据发布方案、本体映射和知识融合方案三个方面简要论述CDLI的知识共享方案。

元数据控制和本体构建不仅能够服务于资源组织阶段,对于强调开放、共享的数字人文项目而言,还是实现语义关联构建的必要步骤。CDLI的元数据框架主要复用了CIDOC-CRM(International Committee for Documentation-Conceptual Reference Model),进行楔形文字材料的数据描述规范和语义标注工作,未来还将复用ModRef French提供的部分元数据。CIDOC-CRM是由国际文献工作委员会开发的概念参考模型,旨在通过提供可映射到任何文化遗产信息的公共且可扩展的语义框架,实现对文化遗产资源信息的共享和理解,为文化遗产的信息资源提供其所涉及的隐性概念、显性概念及其关系的语义定义和结构形式化描述。最新版本的CIDOC-CRM(版本7.1)定义了95类(class)、198种属性(propertity),为楔形文字材料的描述提供了丰富而严谨的规范。CDLI项目中关于楔形文字材料的标准描述包含7类48项,所列相关条目如图4所示。其中复用的标准主要涉及与资源(E1-CRM Entity)、对象(E22-Human-Made Object)、语言(E56-Language)、材质(E57-Material)、时期(E52-Time-Span)、地点(E53-Place)、典藏(E87-Curation Activity)、描述(E62-String)、视觉呈现(E36-Visual Item)相关的各类及其下分的各个子类。依据这些元数据,可以在数据库管理系统中定义相应的属性来描述类间及类内关系,进而按照本体构建规则构建相应的本体,这样就具备了关联数据发布并与关联数据云中的公共数据进行知识融合的条件。

图片

CDLI坚持在现有的技术框架下将所持有的信息发布到机器可读且非私有化的线上平台中,关联数据是当前可实现知识共享和复用的语义网的最佳实践。复用CIDOC-CRM元数据的标准描述后,相应的类间和类内关系也被随之定义,通过资源描述框架(Resource Description Framework,RDF)和统一资源标识符(Uniform Resource Identifier,URI)等关键技术的应用,有利于楔形文字材料相关信息资源在知识层面向外共享和连接。在现实中,CDLI项目组以Open Refine和Karma实现相关数据资源的RDF转换和本体构建,进而使用数字人文领域中常用的Virtuoso平台和流行的D2R工具实现关联数据发布。在数据资源的RDF转换和关联数据发布方面的实践应用已经相当成熟,本文不再赘述。RDF三元组是构成语义网的基本信息单元,可以通过SPARQL端点进行查询。这种信息检索方式与传统基于叙词表的词频匹配式检索完全不同。它是基于关系、指向对象的超检索,可以通过遍历相互之间具有语义关联的数据网络,根据语义和关系路径通过推理导出检索结果,是基于推理的知识发现的前提。

实现关联数据发布之后,CDLI可以通过本体映射与第三方数据库中的数据实现互联,进而实现知识融合,并在CDLI项目中接入更加丰富的连接资源,从而实现更好的知识服务。楔形文字材料中的核心资源是出土文献中所记录的文献内容,这部分专业性极强的文本资源可以与语言注释本体集(Ontologies of Linguistic Annotation,OliA)进行映射整合。其他的语义资源则可与常用的公共本体集进行融合,例如以Pleiades融合地名数据、以PeriodO融合时期数据、以Snap:drgn融合历史人物的关系数据等。除此之外,与关联数据云实现链接的RDF三元组可以创建丰富的关联路径,并识别Web上关联的各种外部信息资源。对于亚述学而言,零散分布于各个博物馆、图书馆、档案馆、研究机构和私人典藏中的考古学、历史学、语言学信息都可以作为重要的补充数据集,而亚述学研究过程中可能会涉及的与环境、水文、天文和材料工艺学相关的跨学科信息资源也能够在某种程度上展开互联。这种广泛交融的信息资源不仅对亚述学本身有帮助,同样有助于亚述学一类的“冷门绝学”融入公共知识领域,实现相关资源永久性存储和重复利用的社会化基础。


三、数字亚述学发展的前景展望
在CDLI、BDTNS(新苏美尔语文献数据库)、CDFP(楔形文字数字询证项目)等数字人文项目的推进下,亚述学通过数字人文的助力,逐渐从一门“冷门绝学”演化为在历史学、语言学方面都备受瞩目的新兴领域。数字亚述学一方面成为国际亚述学研究的前沿,另一方面也为数字人文的跨领域、多学科推进提供了良好的范例。进入21世纪,尤其是2010年之后,随着计算机、互联网技术的更新换代,5G技术的实践应用,亚述学也迎来了发展的新机遇。楔形文字材料的数字化建模、基于文本内容的大数据分析、亚述和巴比伦等遗址的3D全景重现、各大博物馆所藏古代两河流域文物的虚拟仿真应用,不仅拓展了亚述学家的研究方向与视野,更使古老的文化成果向普通大众开放与普及,加强了国际上历史文化的交流互鉴。鉴于此,以CDLI为代表的亚述学数字人文项目也在新兴技术和前沿课题上做出了相应的实践,将有力地推进数字亚述学向新的方向发展。我们可以对数字亚述学在未来的发展前景和趋势,做出以下三点展望:
第一,从文本数据库到文本数字处理,即语言文字数字分析。现阶段,CDLI和BDTNS等楔形文字文本数据库建设是从宏观上对文本的收集与初步分析。倘若要深入文本内部的要素——语言文字的微观数字分析,则需要在其他技术的助力下完成。这一过程细化了知识揭示和知识发现的粒度,从基于单件材料(单篇文献)深化到面向内容。未来倘若能在现有的转译编码体系上,进一步实现对机器学习和自然语言处理的深度应用,则有望实现楔形文字文本的计量分析(如共词分析、词频密度分析等)、基于统计或基于神经网络的自动翻译、语义消歧和主题标注等深层次数字人文应用。
第二,从二维平面视图到三维虚拟仿真。CDLI采集了楔形文字泥板六面视角的二维高清图片,但这种图像采集方式无法展现泥板的逼真性。随着数字技术的发展,三维动图、虚拟仿真技术开始应用到泥板复原和数字化存储与展示方面。美国约翰·霍普金斯大学开发的“数字汉谟拉比”(Digital Hammurabi)项目,对楔形文字泥板的高质量3D图像进行了数字化存档、建模和研究。从二维到三维,从静态到动态,从视觉到触觉,该项目实现了楔形文字材料的虚拟仿真技术,极大方便了研究者。此外,提供PC或移动端在线研究世界各大博物馆收藏的楔形文字材料,也为爱好者“近距离”接触这些古物提供了可能。由德国法兰克福大学开发的“虚拟楔形文字泥板重建项目”(VCTR)支持虚拟访问楔形文字材料,并通过将虚拟片段连接在一起来重建楔形文字泥板,旨在支持经济、便捷的3D采集系统并为其提供资源,推进自动化的虚拟重建算法,发展协作重建环境并促进交互式在线3D归档。
第三,从跨学科研究到交叉学科建设。与其他人文学科相似,亚述学的数字化发展经历了多学科合作研究到新兴学科建设两个阶段。在前一阶段,亚述学研究与计算机学、考古学、物理学、社会学等学科合作,进行跨学科研究。而在数字人文理念驱动下的新时代,数字亚述学则被赋予了新的学科使命。诸如美国哈佛大学、加州大学伯克利分校、密歇根大学、范德堡大学,德国海德堡大学、慕尼黑大学、维尔斯堡大学、马尔堡大学等高校都在原有数字人文学科基础上,分设立了数字亚述学次学科,使得亚述学的数字化发展由跨学科形成一门新兴学科。为此,国际学术界还举办了多次的数字亚述学相关研讨会、工作坊。例如2016年在慕尼黑大学举办的“数字亚述学在德国”工作坊,2020年由赫尔辛基大学举办的“数字亚述学的最近发展”线上会议,而第66届国际亚述学大会(RAI)将数字亚述学作为一个分会主题,展现了亚述学发展的新动态。
以承载着消亡了近2000年的古代文字的出土文献作为主要研究对象的亚述学,在被数字人文赋予了新的使命感和生命力之前,一直被“冷门绝学”的凋零趋势所萦绕。而在亚述学数字人文领域的实践中,CDLI无疑是其中典范。

本文原载于《社会科学战线》2024年第3期

责编|刘莉

网编|陈家威

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多