分享

大数据时代的古典文学研究

 昵称14979747 2015-09-26
数据检索向数据分析、数据挖掘转型。在图像处理领域,针对疑难文字的OCR技术与利于版本校勘的图像检索,是值得期待的方向。

  关 键 词:数据分析/数据挖掘/OCR/图像检索

  基金项目:本文为国家社会科学基金青年项目“宋代文学地图数字分析平台研究”(项目编号12CZW032)阶段性成果。

  作者简介:刘京臣,中国社会科学院文学研究所副研究员。出版过专著《盛唐中唐诗对宋词影响研究:以六大诗人为中心》等

 

  信息技术极大地推动了古典文学研究,这已成为学界共识。具体来说,这一推动主要表现在数据采集、数据检索等方面,如《文渊阁四库全书电子版》、《四部丛刊电子版》、《中国基本古籍库》等都是数据检索领域的杰出成果。检索之后的数据分析,也已经取得了一定的发展,《全宋诗分析系统》堪称数据分析的典范之作。这些成就,时彦多有论及,兹不为赘。

  2005年,李铎先生即敏锐指出信息技术在人文学科的应用方面已经进入了“分析时代”①,此说确然。十年后的今天,社会已然进入了以大数据、云计算为代表的“挖掘时代”。对结构化文本的数据分析、对非结构化文本的数据挖掘,是文本研究领域的发展方向。随着多媒体检索技术的发展,对图像、声音、视频等进行检索成为IT界的热点。图像检索随之被广泛应用于医疗、遥感、测绘等领域,并取得了相当成就。这些对传统的古典文学学科而言,是机遇,也是挑战。

  本文中为了论述方便,我们将文献分为两大类:一类是已经被机器识别(如txt、doc、rtf等文档)或可以直接被机器识别的(如《光明日报》、《文学评论》等报刊,《苏轼全集》、《万历十五年》等现代出版物等)文本文献;另一类是尚不能被机器直接识别的(如稿抄本中的疑难文字等)图像文献。

  一 结构化文本的数据分析

  “结构化文本的数据分析”包含这样三个概念。

  其一,“结构化文本”主要是指诗、词等体式较为固定的文体,在利用技术手段处理时,因其体式上的便利,易于寻觅到声调、用韵、格律、小序等方面的结构特征,故而对这类文体较易实现技术干预。其二,“结构化文本”还指排除掉文字识别、大字符集、分词、断句等因素干扰,完全满足用户需求的、已进行过标注与分类的数据。同时,还要尽可能多地加载满足分析所需要的第三方文献库——文献库主要由两大类组成,一类是诸如人名、职官、地名、系年、典故等具有词典性质的基础文献库;另外一类是已经数字化的历代研究者的研究专著,便于分析时与文本相参。

  “数据分析”,是“数据检索”②基础上的自动化分析,在一定程度上具备了初级智能,诸如以下三类结构化文本基本可以借助数据分析来实现预期设想。

  1.诗词韵、律等外部体式分析

  前人在诗话、词话中留下无数精妙的见解,利用技术手段,我们可以对一些论断进行验证。如陈仅《竹林答问》称“作古诗声调,须坚守杜、韩、苏三家法律”,1997年蒋寅先生以《韩愈七古的声调分析》(《第三届中国唐代文化学术研讨会论文集》,台湾政治大学中文系1997年)为例进行详尽研究,指出清人所论,虽看似出自主观论断,然用实证之法相验却大抵不谬。现在利用技术手段可以对任意时段、任意作家的相关诗歌进行声调分析,其效率较之人工判断更显优势。

  再如诗歌中赋得诗、分题诗、分韵诗、次韵诗等,皆因有较为鲜明的标识而易于技术干预。我们只需提取“赋×得×”、“赋得×”等题名格式,则赋得诗可得大略。若对某一时段的上述体式诗歌作品批量提取,将诗歌创作者、题材、体裁、用韵、留存等归纳总结,形成更为准确的数据,能较为直观地勾勒出诗歌交流情况,对诗人唱和、诗歌雅集等研究是有益补充。如沈遘有《应制依韵和御制后苑赏花钓鱼》诗,“依韵”说明“御制”诗亦押十灰韵,“和御制后苑赏花钓鱼”点明了诗歌唱和的内容;我们分别对北宋段押十灰韵的七律和以“赏花钓鱼”为题的诗歌进行分析,绎出胡舍、宋庠、欧阳修、韩琦、司马光等人的依韵和宋仁宗《赏花钓鱼》诗。再与《续资治通鉴长编》等史料相结合,可将沈遘此诗编年为嘉祐六年(1061)三月。

  2.诗歌用语与题材研究

  如果说上述研究关注的多是集中时段的群体交流,那么集句诗、集句词则可能存在着同时、异代等情形,利用比对这些作品中的重出比率,能轻松判断集句作品的渊源。从这个角度看,诗词笺注、诗词鉴赏的部分工作——判断作品用语,借助技术也可在一定程度上实现。

  学界对诸如边塞诗、咏史诗、田园诗等具体的诗歌类型已有较为充分的研究。可以说,研究得越充分,利用技术进行自动化研究的条件就越成熟。思路如下:首先,我们将类书、典故辞典等外在辅助文献纳入机器的学习范围,使其具有初步的题材判断能力,面对大量文本,能提取出某类具体题材的作品;其次,让机器学习学界现有的关于这类题材的研究成果,机器在辅助文献的基础上,学到不同学者的分类、判断与研究理路,从而形成机器的判断体系,在面对还未深耕的朝代时,机器有望实现自行研判。

  3.文体互动、言说模式的提取

  自《尚书》的典、谟、诏令诸体开始,古人形成初步的文体观。朝代更替,不同文体之间互相影响。笔者曾于2007-2010年间利用技术手段从字句、用典、意象、意境等角度,以王维、李白等六大诗人为中心,考察盛唐中唐诗歌对于宋词的影响。例如指出贞元二十一年(805)至元和二年(807)、元和十年(815)至元和十二年(817)两个“三年”间创作的诗歌对宋词的影响最为显著等③,这些结论是建立在数据分析挖掘基础之上的,较之前人的判断更有学理依据。

  现在,不同文体间的影响—接受研究有了新的思路。利用数据挖掘,结合互文性理论,挖掘文本细节,提炼总结言说规律并设计模型,或可将此研究推向更前。例如以下几联的言说模式:

  河阳飞鸟外,雪岭大荒西。(郎士元《送杨中丞和番》)

  卷经归鸟外,转雪过山椒。(无可《送僧归中条》)

  夕阳鸟外落,新月树端生。(梅尧臣《中秋新霁,壕水初满,自城东偶泛舟回》)

  新月已生飞鸟外,落霞更在夕阳西。(张耒《和周廉彦》)

  这四联有异曲同工之处,现有技术基本可以判断出它们之间确有关系。但却难像钱锺书先生一样见解深邃,钱先生称朗士元与无可句:“都是想象地方的遥远,不是描写眼前的景物;梅、张的写法正像岑参《宿东溪王屋李隐者》‘天坛飞鸟过’,杜甫《船下夔州别王十二判官》‘柔橹轻鸥外’,姚鹄《送友人出塞》‘入河残日雕西尽’,以至文徵明《题子畏所画黄茆小景》‘遥天一线鸥飞剩’等,把一件小事物作为一件大事物的坐标,一反通常以大者为主而小者为宾的说法。”④下一步技术的目标,即通过深度学习,使用机器逐渐生成提炼言说模型的能力,并能总结这些模型之间的细微差距。

  通过“结构化文本”的数据分析,机器可以初步掌握文本的规律性,“非结构化文本”则重在锻炼机器的认知能力。其实,从这个意义上讲,我们已经涉及到了机器学习,它的核心是特征、模型与训练数据(已标注数据或未标注数据)。首先建模,抽取特征,在训练数据中学习模型参数。当然,训练数据是越多越好。传统的机器学习需要提取特征,然后建立模型学习,“结构化文本”的自身特征恰好具有较为明显的“特征”,所以面对这类文本,数据分析基本可以满足我们的需求。

  但大数据往往是“非结构化文本”,提取特征比较困难,加之数据是海量的,人工干预不现实、也不可能,这时就要用到“深度学习”(Deep Learning)。深度学习的动机是模拟人脑进行分析学习,它模仿人脑的机制来解释数据,例如图像、声音和文本。它能在海量数据中采用贪婪式的逐层学习法:首先是无监督训练,单独训练一层,然后将该层的输出作为下一层的输入,继续无监督训练,重复使用此方法一直向上训练至最上层,再用监督学习去调整所有层。理论上讲,我们给定的学习文本越多,其学习机能就会越强大,所得出的结论就越具有可信性、可靠性。

  二 非结构化文本的数据挖掘

  数据挖掘面对的数据是海量的、杂乱的、无序的、非结构性的,通过挖掘,寻绎出数据中间隐含的、先前未知的并有潜在价值的信息——这正是数据检索、数据分析所难于应对的。

  “结构化文本”的数据分析,有时带有先验色彩,通过数据分析,或证实,或证伪,当然也有可能证明不了任何事情。“非结构化文本”的数据挖掘,更多地体现出不可预知性,这也正是技术赋予古典文学信息化的魅力所在——数据挖掘之前,我们无从预知结论。

  1.文献辑佚

  文献辑佚也可以借助数据挖掘来实现。例如我们想对魏野诗歌进行梳理,只需选取《东观集》与其他文献进行挖掘即可。思路如下:首先对《东观集》进行数据挖掘,将其篇目、作品、类型等进行标注;其次,挖掘意欲爬梳的文献,需要注意如下几点:凡是文献中涉及魏野、仲先、魏仲先、草堂居士、《东观集》、《巨鹿东观集》、《草堂集》等处,皆进行标注;凡是文献中直袭或化用魏野作品处,皆进行标注;文献中虽未标明却暗和魏野某诗诗韵、并且两者题材相似的,也进行标注。通过挖掘,辑出分见于以下四种文献的魏野佚诗一首:

  人间宰相惟三载,君在中书四十年。西祀东封俱已了,好来平地作神仙。(《岩下放言》卷下)

  太平宰相年年出,君在中书十二秋。(《鹤林玉露》卷九)

  太平宰相年年出,君在中书十四秋。西祀东封俱已毕,可能来伴赤松游。(《类说》卷四)

  太平宰相年年出,君在中书十四秋。西祀东封俱已毕,可能来伴赤松游。(《青箱杂记》卷一)

  辑出佚诗,这是依靠技术实现的第一步;第二,要判断该诗到底是不是魏野写给王旦的作品,即对其真伪进行判断;第三,如果该诗不伪,那么上举的三个时间段(四十年、十二秋、十四秋),哪个较佳,或皆可接受?这已是较为纯粹的文献考辨问题,但亦可借助信息技术予以回答,本文暂且不论。这种非结构化文本中间或有规律,却是为我们所无法预知的,只有通过机器深度学习,对数据进行挖掘,才有可能寻绎出可能存在的规则,从而为古典文学信息化更好地服务。

  2.数据挖掘与GIS相结合

  我们从事某项研究时,常会考虑事件的前因后果,当时的社会背景、时代风尚,对周边同仁和后人产生何种影响等等。比如利用GIS,并结合数据挖掘,再在时间纬度的基础上一并考虑空间维度,所得出的结论往往更有学理性——因为有大量的数据可以依赖。例如我们想对宋代文学的发展演变有所了解,对宋代文人的分布情况有所掌握,利用数据挖掘,便可从海量的宋代文献中寻绎出许多以前我们未曾料想到的信息。

  正因为有了海量数据和数据挖掘,再与GIS结合起来,那么便能轻松做到在中心地缘的基础上兼顾边缘、边疆及民族区域。宋代与辽、西夏、黑汗、西州回鹘、黄头回纥、吐蕃诸部、大理以及蒙古、金、西辽等多个政权并存过,民族交往融合也带来了文学交流,甚至是文学风尚的转变——苏学北上便是典型案例。利用数据挖掘,可以将当时的所有区域纳入考察范围,对于研究多民族的文学、文化交融,具有重要的作用与意义。既可以设定某个具体地域,也可以检索某片区域,给定地点之后,再与时间相参,系统便可将某区域某时段内的所有事件、参与人物、事件的前因后果等生成表格或图表,并在数字地图上相应呈现。例如我们可以以宋代晁氏家族为例,该家族派分三支,历两宋绵延而下。利用数据挖掘便可以实现对家族所有人物的生平、仕宦、贬谪、升迁、交游等情况进行详尽考察。同时,家族东、中、西三眷的迁徙,也可在数字地图上直观呈现。

  基于这个意义上的数据挖掘,一是拓宽了视野,许多隐含信息被挖掘、抽取出来;二是许多原来靠人力很难关联起来的信息之间有了关联,从而能建构起强大、丰富、可感的人物社交网络体系。我们面对的研究对象,已经不再是单独的个体,而是以之为中心的群体。不同的群体之间又有交集,从一定程度上讲,我们甚至能将文献中出现的每一位宋人定位在某个特定的关系网中。这只有依赖数据挖掘才可能实现。

  3.大数据视野下的文史哲融通观

  传统学术要求从业者有较为融通的文史哲理念,换言之即是力争打通文史哲学科。对信息化而言更是这样,特别是大数据时代,多学科之间多元并参,会产生许多不可预知的论断。

  例如开封,从历史学上看,它是一个敏感的都市;从文学上看,它寄托着宋人复杂的情绪;从建筑学上看,它的宫殿、坊市,除承继唐代的设计理念,更有宋人自己的意愿表达……如果我们选定真宗朝的“天书封祀”事件作为考察对象,那么这一事件前后朝臣与皇族的态度变化,因之而设定的天庆节、天贶节、天祯节及其对行政运行与民众生活的影响,为供奉天书而兴建的玉清昭应宫和因此宫而生成的诗、文、赋、颂等作品,以及“玉清昭应宫灾”背后折射出来的时政新变等都是要考察的重点,借助数据挖掘,可以很好地梳理出以上(甚至更多)信息,在对文学、历史等多种文献整体把握的基础上,或可推衍出更有说服力的论断。

  从技术的角度看,数据没有有价值或无价值之分,只有可利用和暂时没法利用的区别。因此,史料中的历史事件,无论是“重大历史事件”、细微琐屑事件,还是天灾人祸、气象异常等,都可能被挖掘出与文学相关的价值来。因此,传统史料学的定义和理论规范,或许便有重新思考的必要。这就是技术带给我们的超越意义。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多