关 键 词:数据分析/数据挖掘/OCR/图像检索
基金项目:本文为国家社会科学基金青年项目“宋代文学地图数字分析平台研究”(项目编号12CZW032)阶段性成果。
作者简介:刘京臣,中国社会科学院文学研究所副研究员。出版过专著《盛唐中唐诗对宋词影响研究:以六大诗人为中心》等
信息技术极大地推动了古典文学研究,这已成为学界共识。具体来说,这一推动主要表现在数据采集、数据检索等方面,如《文渊阁四库全书电子版》、《四部丛刊电子版》、《中国基本古籍库》等都是数据检索领域的杰出成果。检索之后的数据分析,也已经取得了一定的发展,《全宋诗分析系统》堪称数据分析的典范之作。这些成就,时彦多有论及,兹不为赘。
2005年,李铎先生即敏锐指出信息技术在人文学科的应用方面已经进入了“分析时代”①,此说确然。十年后的今天,社会已然进入了以大数据、云计算为代表的“挖掘时代”。对结构化文本的数据分析、对非结构化文本的数据挖掘,是文本研究领域的发展方向。随着多媒体检索技术的发展,对图像、声音、视频等进行检索成为IT界的热点。图像检索随之被广泛应用于医疗、遥感、测绘等领域,并取得了相当成就。这些对传统的古典文学学科而言,是机遇,也是挑战。
本文中为了论述方便,我们将文献分为两大类:一类是已经被机器识别(如txt、doc、rtf等文档)或可以直接被机器识别的(如《光明日报》、《文学评论》等报刊,《苏轼全集》、《万历十五年》等现代出版物等)文本文献;另一类是尚不能被机器直接识别的(如稿抄本中的疑难文字等)图像文献。
一 结构化文本的数据分析
“结构化文本的数据分析”包含这样三个概念。
其一,“结构化文本”主要是指诗、词等体式较为固定的文体,在利用技术手段处理时,因其体式上的便利,易于寻觅到声调、用韵、格律、小序等方面的结构特征,故而对这类文体较易实现技术干预。其二,“结构化文本”还指排除掉文字识别、大字符集、分词、断句等因素干扰,完全满足用户需求的、已进行过标注与分类的数据。同时,还要尽可能多地加载满足分析所需要的第三方文献库——文献库主要由两大类组成,一类是诸如人名、职官、地名、系年、典故等具有词典性质的基础文献库;另外一类是已经数字化的历代研究者的研究专著,便于分析时与文本相参。
“数据分析”,是“数据检索”②基础上的自动化分析,在一定程度上具备了初级智能,诸如以下三类结构化文本基本可以借助数据分析来实现预期设想。
1.诗词韵、律等外部体式分析
前人在诗话、词话中留下无数精妙的见解,利用技术手段,我们可以对一些论断进行验证。如陈仅《竹林答问》称“作古诗声调,须坚守杜、韩、苏三家法律”,1997年蒋寅先生以《韩愈七古的声调分析》(《第三届中国唐代文化学术研讨会论文集》,台湾政治大学中文系1997年)为例进行详尽研究,指出清人所论,虽看似出自主观论断,然用实证之法相验却大抵不谬。现在利用技术手段可以对任意时段、任意作家的相关诗歌进行声调分析,其效率较之人工判断更显优势。
再如诗歌中赋得诗、分题诗、分韵诗、次韵诗等,皆因有较为鲜明的标识而易于技术干预。我们只需提取“赋×得×”、“赋得×”等题名格式,则赋得诗可得大略。若对某一时段的上述体式诗歌作品批量提取,将诗歌创作者、题材、体裁、用韵、留存等归纳总结,形成更为准确的数据,能较为直观地勾勒出诗歌交流情况,对诗人唱和、诗歌雅集等研究是有益补充。如沈遘有《应制依韵和御制后苑赏花钓鱼》诗,“依韵”说明“御制”诗亦押十灰韵,“和御制后苑赏花钓鱼”点明了诗歌唱和的内容;我们分别对北宋段押十灰韵的七律和以“赏花钓鱼”为题的诗歌进行分析,绎出胡舍、宋庠、欧阳修、韩琦、司马光等人的依韵和宋仁宗《赏花钓鱼》诗。再与《续资治通鉴长编》等史料相结合,可将沈遘此诗编年为嘉祐六年(1061)三月。
2.诗歌用语与题材研究
如果说上述研究关注的多是集中时段的群体交流,那么集句诗、集句词则可能存在着同时、异代等情形,利用比对这些作品中的重出比率,能轻松判断集句作品的渊源。从这个角度看,诗词笺注、诗词鉴赏的部分工作——判断作品用语,借助技术也可在一定程度上实现。
学界对诸如边塞诗、咏史诗、田园诗等具体的诗歌类型已有较为充分的研究。可以说,研究得越充分,利用技术进行自动化研究的条件就越成熟。思路如下:首先,我们将类书、典故辞典等外在辅助文献纳入机器的学习范围,使其具有初步的题材判断能力,面对大量文本,能提取出某类具体题材的作品;其次,让机器学习学界现有的关于这类题材的研究成果,机器在辅助文献的基础上,学到不同学者的分类、判断与研究理路,从而形成机器的判断体系,在面对还未深耕的朝代时,机器有望实现自行研判。
3.文体互动、言说模式的提取
自《尚书》的典、谟、诏令诸体开始,古人形成初步的文体观。朝代更替,不同文体之间互相影响。笔者曾于2007-2010年间利用技术手段从字句、用典、意象、意境等角度,以王维、李白等六大诗人为中心,考察盛唐中唐诗歌对于宋词的影响。例如指出贞元二十一年(805)至元和二年(807)、元和十年(815)至元和十二年(817)两个“三年”间创作的诗歌对宋词的影响最为显著等③,这些结论是建立在数据分析挖掘基础之上的,较之前人的判断更有学理依据。
现在,不同文体间的影响—接受研究有了新的思路。利用数据挖掘,结合互文性理论,挖掘文本细节,提炼总结言说规律并设计模型,或可将此研究推向更前。例如以下几联的言说模式:
河阳飞鸟外,雪岭大荒西。(郎士元《送杨中丞和番》)
卷经归鸟外,转雪过山椒。(无可《送僧归中条》)
夕阳鸟外落,新月树端生。(梅尧臣《中秋新霁,壕水初满,自城东偶泛舟回》)
新月已生飞鸟外,落霞更在夕阳西。(张耒《和周廉彦》)
这四联有异曲同工之处,现有技术基本可以判断出它们之间确有关系。但却难像钱锺书先生一样见解深邃,钱先生称朗士元与无可句:“都是想象地方的遥远,不是描写眼前的景物;梅、张的写法正像岑参《宿东溪王屋李隐者》‘天坛飞鸟过’,杜甫《船下夔州别王十二判官》‘柔橹轻鸥外’,姚鹄《送友人出塞》‘入河残日雕西尽’,以至文徵明《题子畏所画黄茆小景》‘遥天一线鸥飞剩’等,把一件小事物作为一件大事物的坐标,一反通常以大者为主而小者为宾的说法。”④下一步技术的目标,即通过深度学习,使用机器逐渐生成提炼言说模型的能力,并能总结这些模型之间的细微差距。
通过“结构化文本”的数据分析,机器可以初步掌握文本的规律性,“非结构化文本”则重在锻炼机器的认知能力。其实,从这个意义上讲,我们已经涉及到了机器学习,它的核心是特征、模型与训练数据(已标注数据或未标注数据)。首先建模,抽取特征,在训练数据中学习模型参数。当然,训练数据是越多越好。传统的机器学习需要提取特征,然后建立模型学习,“结构化文本”的自身特征恰好具有较为明显的“特征”,所以面对这类文本,数据分析基本可以满足我们的需求。
但大数据往往是“非结构化文本”,提取特征比较困难,加之数据是海量的,人工干预不现实、也不可能,这时就要用到“深度学习”(Deep Learning)。深度学习的动机是模拟人脑进行分析学习,它模仿人脑的机制来解释数据,例如图像、声音和文本。它能在海量数据中采用贪婪式的逐层学习法:首先是无监督训练,单独训练一层,然后将该层的输出作为下一层的输入,继续无监督训练,重复使用此方法一直向上训练至最上层,再用监督学习去调整所有层。理论上讲,我们给定的学习文本越多,其学习机能就会越强大,所得出的结论就越具有可信性、可靠性。