大数据时代的古典文学研究

昵称14979747 2015-09-26

展开全文

数据检索向数据分析、数据挖掘转型。在图像处理领域，针对疑难文字的OCR技术与利于版本校勘的图像检索，是值得期待的方向。

　　关键词：数据分析/数据挖掘/OCR/图像检索

　　基金项目：本文为国家社会科学基金青年项目“宋代文学地图数字分析平台研究”(项目编号12CZW032)阶段性成果。

　　作者简介：刘京臣，中国社会科学院文学研究所副研究员。出版过专著《盛唐中唐诗对宋词影响研究：以六大诗人为中心》等

　　信息技术极大地推动了古典文学研究，这已成为学界共识。具体来说，这一推动主要表现在数据采集、数据检索等方面，如《文渊阁四库全书电子版》、《四部丛刊电子版》、《中国基本古籍库》等都是数据检索领域的杰出成果。检索之后的数据分析，也已经取得了一定的发展，《全宋诗分析系统》堪称数据分析的典范之作。这些成就，时彦多有论及，兹不为赘。

　　2005年，李铎先生即敏锐指出信息技术在人文学科的应用方面已经进入了“分析时代”①，此说确然。十年后的今天，社会已然进入了以大数据、云计算为代表的“挖掘时代”。对结构化文本的数据分析、对非结构化文本的数据挖掘，是文本研究领域的发展方向。随着多媒体检索技术的发展，对图像、声音、视频等进行检索成为IT界的热点。图像检索随之被广泛应用于医疗、遥感、测绘等领域，并取得了相当成就。这些对传统的古典文学学科而言，是机遇，也是挑战。

　　本文中为了论述方便，我们将文献分为两大类：一类是已经被机器识别(如txt、doc、rtf等文档)或可以直接被机器识别的(如《光明日报》、《文学评论》等报刊，《苏轼全集》、《万历十五年》等现代出版物等)文本文献；另一类是尚不能被机器直接识别的(如稿抄本中的疑难文字等)图像文献。

　　一结构化文本的数据分析

　　“结构化文本的数据分析”包含这样三个概念。

　　其一，“结构化文本”主要是指诗、词等体式较为固定的文体，在利用技术手段处理时，因其体式上的便利，易于寻觅到声调、用韵、格律、小序等方面的结构特征，故而对这类文体较易实现技术干预。其二，“结构化文本”还指排除掉文字识别、大字符集、分词、断句等因素干扰，完全满足用户需求的、已进行过标注与分类的数据。同时，还要尽可能多地加载满足分析所需要的第三方文献库——文献库主要由两大类组成，一类是诸如人名、职官、地名、系年、典故等具有词典性质的基础文献库；另外一类是已经数字化的历代研究者的研究专著，便于分析时与文本相参。

　　“数据分析”，是“数据检索”②基础上的自动化分析，在一定程度上具备了初级智能，诸如以下三类结构化文本基本可以借助数据分析来实现预期设想。

　　1.诗词韵、律等外部体式分析

　　前人在诗话、词话中留下无数精妙的见解，利用技术手段，我们可以对一些论断进行验证。如陈仅《竹林答问》称“作古诗声调，须坚守杜、韩、苏三家法律”，1997年蒋寅先生以《韩愈七古的声调分析》(《第三届中国唐代文化学术研讨会论文集》，台湾政治大学中文系1997年)为例进行详尽研究，指出清人所论，虽看似出自主观论断，然用实证之法相验却大抵不谬。现在利用技术手段可以对任意时段、任意作家的相关诗歌进行声调分析，其效率较之人工判断更显优势。

　　再如诗歌中赋得诗、分题诗、分韵诗、次韵诗等，皆因有较为鲜明的标识而易于技术干预。我们只需提取“赋×得×”、“赋得×”等题名格式，则赋得诗可得大略。若对某一时段的上述体式诗歌作品批量提取，将诗歌创作者、题材、体裁、用韵、留存等归纳总结，形成更为准确的数据，能较为直观地勾勒出诗歌交流情况，对诗人唱和、诗歌雅集等研究是有益补充。如沈遘有《应制依韵和御制后苑赏花钓鱼》诗，“依韵”说明“御制”诗亦押十灰韵，“和御制后苑赏花钓鱼”点明了诗歌唱和的内容；我们分别对北宋段押十灰韵的七律和以“赏花钓鱼”为题的诗歌进行分析，绎出胡舍、宋庠、欧阳修、韩琦、司马光等人的依韵和宋仁宗《赏花钓鱼》诗。再与《续资治通鉴长编》等史料相结合，可将沈遘此诗编年为嘉祐六年(1061)三月。

　　2.诗歌用语与题材研究

　　如果说上述研究关注的多是集中时段的群体交流，那么集句诗、集句词则可能存在着同时、异代等情形，利用比对这些作品中的重出比率，能轻松判断集句作品的渊源。从这个角度看，诗词笺注、诗词鉴赏的部分工作——判断作品用语，借助技术也可在一定程度上实现。

　　学界对诸如边塞诗、咏史诗、田园诗等具体的诗歌类型已有较为充分的研究。可以说，研究得越充分，利用技术进行自动化研究的条件就越成熟。思路如下：首先，我们将类书、典故辞典等外在辅助文献纳入机器的学习范围，使其具有初步的题材判断能力，面对大量文本，能提取出某类具体题材的作品；其次，让机器学习学界现有的关于这类题材的研究成果，机器在辅助文献的基础上，学到不同学者的分类、判断与研究理路，从而形成机器的判断体系，在面对还未深耕的朝代时，机器有望实现自行研判。

　　3.文体互动、言说模式的提取

　　自《尚书》的典、谟、诏令诸体开始，古人形成初步的文体观。朝代更替，不同文体之间互相影响。笔者曾于2007-2010年间利用技术手段从字句、用典、意象、意境等角度，以王维、李白等六大诗人为中心，考察盛唐中唐诗歌对于宋词的影响。例如指出贞元二十一年(805)至元和二年(807)、元和十年(815)至元和十二年(817)两个“三年”间创作的诗歌对宋词的影响最为显著等③，这些结论是建立在数据分析挖掘基础之上的，较之前人的判断更有学理依据。

　　现在，不同文体间的影响—接受研究有了新的思路。利用数据挖掘，结合互文性理论，挖掘文本细节，提炼总结言说规律并设计模型，或可将此研究推向更前。例如以下几联的言说模式：

　　河阳飞鸟外，雪岭大荒西。(郎士元《送杨中丞和番》)

　　卷经归鸟外，转雪过山椒。(无可《送僧归中条》)

　　夕阳鸟外落，新月树端生。(梅尧臣《中秋新霁，壕水初满，自城东偶泛舟回》)

　　新月已生飞鸟外，落霞更在夕阳西。(张耒《和周廉彦》)

　　这四联有异曲同工之处，现有技术基本可以判断出它们之间确有关系。但却难像钱锺书先生一样见解深邃，钱先生称朗士元与无可句：“都是想象地方的遥远，不是描写眼前的景物；梅、张的写法正像岑参《宿东溪王屋李隐者》‘天坛飞鸟过’，杜甫《船下夔州别王十二判官》‘柔橹轻鸥外’，姚鹄《送友人出塞》‘入河残日雕西尽’，以至文徵明《题子畏所画黄茆小景》‘遥天一线鸥飞剩’等，把一件小事物作为一件大事物的坐标，一反通常以大者为主而小者为宾的说法。”④下一步技术的目标，即通过深度学习，使用机器逐渐生成提炼言说模型的能力，并能总结这些模型之间的细微差距。

　　通过“结构化文本”的数据分析，机器可以初步掌握文本的规律性，“非结构化文本”则重在锻炼机器的认知能力。其实，从这个意义上讲，我们已经涉及到了机器学习，它的核心是特征、模型与训练数据(已标注数据或未标注数据)。首先建模，抽取特征，在训练数据中学习模型参数。当然，训练数据是越多越好。传统的机器学习需要提取特征，然后建立模型学习，“结构化文本”的自身特征恰好具有较为明显的“特征”，所以面对这类文本，数据分析基本可以满足我们的需求。

　　但大数据往往是“非结构化文本”，提取特征比较困难，加之数据是海量的，人工干预不现实、也不可能，这时就要用到“深度学习”(Deep Learning)。深度学习的动机是模拟人脑进行分析学习，它模仿人脑的机制来解释数据，例如图像、声音和文本。它能在海量数据中采用贪婪式的逐层学习法：首先是无监督训练，单独训练一层，然后将该层的输出作为下一层的输入，继续无监督训练，重复使用此方法一直向上训练至最上层，再用监督学习去调整所有层。理论上讲，我们给定的学习文本越多，其学习机能就会越强大，所得出的结论就越具有可信性、可靠性。

　　二非结构化文本的数据挖掘

　　数据挖掘面对的数据是海量的、杂乱的、无序的、非结构性的，通过挖掘，寻绎出数据中间隐含的、先前未知的并有潜在价值的信息——这正是数据检索、数据分析所难于应对的。

　　“结构化文本”的数据分析，有时带有先验色彩，通过数据分析，或证实，或证伪，当然也有可能证明不了任何事情。“非结构化文本”的数据挖掘，更多地体现出不可预知性，这也正是技术赋予古典文学信息化的魅力所在——数据挖掘之前，我们无从预知结论。

　　1.文献辑佚

　　文献辑佚也可以借助数据挖掘来实现。例如我们想对魏野诗歌进行梳理，只需选取《东观集》与其他文献进行挖掘即可。思路如下：首先对《东观集》进行数据挖掘，将其篇目、作品、类型等进行标注；其次，挖掘意欲爬梳的文献，需要注意如下几点：凡是文献中涉及魏野、仲先、魏仲先、草堂居士、《东观集》、《巨鹿东观集》、《草堂集》等处，皆进行标注；凡是文献中直袭或化用魏野作品处，皆进行标注；文献中虽未标明却暗和魏野某诗诗韵、并且两者题材相似的，也进行标注。通过挖掘，辑出分见于以下四种文献的魏野佚诗一首：

　　人间宰相惟三载，君在中书四十年。西祀东封俱已了，好来平地作神仙。(《岩下放言》卷下)

　　太平宰相年年出，君在中书十二秋。(《鹤林玉露》卷九)

　　太平宰相年年出，君在中书十四秋。西祀东封俱已毕，可能来伴赤松游。(《类说》卷四)

　　太平宰相年年出，君在中书十四秋。西祀东封俱已毕，可能来伴赤松游。(《青箱杂记》卷一)

　　辑出佚诗，这是依靠技术实现的第一步；第二，要判断该诗到底是不是魏野写给王旦的作品，即对其真伪进行判断；第三，如果该诗不伪，那么上举的三个时间段(四十年、十二秋、十四秋)，哪个较佳，或皆可接受?这已是较为纯粹的文献考辨问题，但亦可借助信息技术予以回答，本文暂且不论。这种非结构化文本中间或有规律，却是为我们所无法预知的，只有通过机器深度学习，对数据进行挖掘，才有可能寻绎出可能存在的规则，从而为古典文学信息化更好地服务。

　　2.数据挖掘与GIS相结合

　　我们从事某项研究时，常会考虑事件的前因后果，当时的社会背景、时代风尚，对周边同仁和后人产生何种影响等等。比如利用GIS，并结合数据挖掘，再在时间纬度的基础上一并考虑空间维度，所得出的结论往往更有学理性——因为有大量的数据可以依赖。例如我们想对宋代文学的发展演变有所了解，对宋代文人的分布情况有所掌握，利用数据挖掘，便可从海量的宋代文献中寻绎出许多以前我们未曾料想到的信息。

　　正因为有了海量数据和数据挖掘，再与GIS结合起来，那么便能轻松做到在中心地缘的基础上兼顾边缘、边疆及民族区域。宋代与辽、西夏、黑汗、西州回鹘、黄头回纥、吐蕃诸部、大理以及蒙古、金、西辽等多个政权并存过，民族交往融合也带来了文学交流，甚至是文学风尚的转变——苏学北上便是典型案例。利用数据挖掘，可以将当时的所有区域纳入考察范围，对于研究多民族的文学、文化交融，具有重要的作用与意义。既可以设定某个具体地域，也可以检索某片区域，给定地点之后，再与时间相参，系统便可将某区域某时段内的所有事件、参与人物、事件的前因后果等生成表格或图表，并在数字地图上相应呈现。例如我们可以以宋代晁氏家族为例，该家族派分三支，历两宋绵延而下。利用数据挖掘便可以实现对家族所有人物的生平、仕宦、贬谪、升迁、交游等情况进行详尽考察。同时，家族东、中、西三眷的迁徙，也可在数字地图上直观呈现。

　　基于这个意义上的数据挖掘，一是拓宽了视野，许多隐含信息被挖掘、抽取出来；二是许多原来靠人力很难关联起来的信息之间有了关联，从而能建构起强大、丰富、可感的人物社交网络体系。我们面对的研究对象，已经不再是单独的个体，而是以之为中心的群体。不同的群体之间又有交集，从一定程度上讲，我们甚至能将文献中出现的每一位宋人定位在某个特定的关系网中。这只有依赖数据挖掘才可能实现。

　　3.大数据视野下的文史哲融通观

　　传统学术要求从业者有较为融通的文史哲理念，换言之即是力争打通文史哲学科。对信息化而言更是这样，特别是大数据时代，多学科之间多元并参，会产生许多不可预知的论断。

　　例如开封，从历史学上看，它是一个敏感的都市；从文学上看，它寄托着宋人复杂的情绪；从建筑学上看，它的宫殿、坊市，除承继唐代的设计理念，更有宋人自己的意愿表达……如果我们选定真宗朝的“天书封祀”事件作为考察对象，那么这一事件前后朝臣与皇族的态度变化，因之而设定的天庆节、天贶节、天祯节及其对行政运行与民众生活的影响，为供奉天书而兴建的玉清昭应宫和因此宫而生成的诗、文、赋、颂等作品，以及“玉清昭应宫灾”背后折射出来的时政新变等都是要考察的重点，借助数据挖掘，可以很好地梳理出以上(甚至更多)信息，在对文学、历史等多种文献整体把握的基础上，或可推衍出更有说服力的论断。

　　从技术的角度看，数据没有有价值或无价值之分，只有可利用和暂时没法利用的区别。因此，史料中的历史事件，无论是“重大历史事件”、细微琐屑事件，还是天灾人祸、气象异常等，都可能被挖掘出与文学相关的价值来。因此，传统史料学的定义和理论规范，或许便有重新思考的必要。这就是技术带给我们的超越意义。