分享

信息时代的文献阅读和史料检索

 GXF360 2017-06-26
信息时代的文献阅读和史料检索

信息时代的文献阅读和史料检索

王 文 涛

文献资料数字化与当代先进信息技术的结合日益紧密,数字资料在史学研究中的应用越来越广泛。文史工作者普遍使用计算机和古籍全文数据库检索查找资料,但这只是一般性应用,时代要求我们不断提高计算机应用水平,挖掘计算机在综合分析处理文字信息方面的优势,丰富研究手段,提高研究效率和质量。计算机技术与史学研究涉及到的问题很多,下面主要谈两点:一、系统读书和按需搜集资料;二、如何整理检索资料。

一 系统读书和按需搜集资料

搜集资料是学术研究的基础,尤其是历史学研究,在条件允许的情况下,应当尽可能全面占有史料。依据充足史料进行科学分析论证,才能得出正确结论。每一位史学研究者都要搜集和积累史料,在信息时代以前,抄卡片是使用最普遍的搜集史料的方法。一边读书,一边做笔记和抄卡片,见到有用的资料就抄,并进行分类。进入信息时代,数字卡片已经基本上取代了纸质卡片,在计算机上复制、粘贴、分类。随着数字图书馆建设的不断发展,个人的数字资料也日益丰富。文史工作者使用计算机和网络的主要意图,是存储和检索数字资料。古籍数字资料的存储检索是一个完整的过程,包括从数字资料搜集范围的确定,到搜集的实施、存储管理以及检索、筛选和鉴别等步骤。

古籍数字资料的应用与史学研究的结合日益紧密,信息技术对人文社会科学研究的影响也在向深度和广度发展,相关问题的应用与研究也越来越受到人们的重视。我们需要应用便捷、高效、准确的检索工具为人文学术研究服务。当前,在史学研究中必须重视这个问题,就是正确处理系统读书和按需搜集资料之间的关系。纸质书籍时代,读书是搜集资料的前提。不读书,根本不知道去哪儿找资料,所以,目录学是史学研究的必修课程。现在,有些人以检索代替读书,用关键词检索,不认真读书也能查到资料,拼凑出文章。但是,这样的文章即使资料丰富,有考证分析,得出了结论,也很难说这个结论准确无误。因为历史研究是全面系统的学术工作,要求史、论结合,点、面结合,有整体意识。只有不局限于点,从全局出发去理解点,去认识和分析问题,才会有建立在大量感性认识上的解读,才能高屋建瓴,论析鞭辟入里,避免一孔之见。所以,我们应当对古代文献中最基本的史料有比较正确、全面的理解,以此为基础,广泛搜集资料,去发现问题,研究问题,解决问题。这样,即便我们和别人搜集的资料相同,由于有整体的历史观念和扎实的史学素养,在论述问题时,所站高度不同,角度有别,得出的结论也就有高下之分了。

目前,学术界尤其是在年轻人中先有观念、再找资料的倾向很普遍,还有人以检索代替研究,不审核原文和史料背景,以致错谬频出。这些错误倾向必须纠正。质朴、严谨是史学研究的优良传统,浮躁的学风和功利化倾向则会破坏这个传统。文史研究应当充分利用古籍数字资料全文检索库这个学术宝藏。用计算机检索资料,是科学技术进步为人文学术研究造就的利器。检索本身没有错误,不仅不应该批评,而且要大力提倡和引导。我们要批评的是以检索代替读书,以检索代替研究。在批评重检索、轻读书的同时,更要重视教育和引导,把批评与引导结合起来。掌握先进的计算机和网络知识,充分利用和享受信息技术带来的学习和研究上的便捷高效,尽可能地缩短查找资料的时间,将更多的时间用于资料考订分析、问题思辨和理论探讨;系统扎实的学术素养非常重要,既要博闻强记,更需融会贯通,这样才能提高学术研究的质量和效率,单凭先进、庞大的文献检索系统根本不可能做出高质量的研究成果。

系统读书和按需检索资料不是完全对立的,二者存在相辅相成的关系。检索结果的输出,直接关系到资料搜集在检索这个环节的工作效率。优秀文献检索软件具有强大的检索功能,可以一次性输出全部检索结果和资料出处。使用这项功能,用户可以从选择、复制、粘贴的重复性工作中解放出来,陕西师范大学袁林主持开发的“汉籍全文检索系统”就设计有这种功能。该系统收入文史哲类古籍文献二千多种,有四部、音序和时代等三种分类,每一类的检索资料和文献出处不管有多少条,都可以一次性输出为一个文本文件,检索效率十分惊人。和这种检索相关的问题是检索资料的阅读,因为这一类软件以关键词所在段落为单位输出检索结果,不论这个段落字数的多少。不认真阅读,这些杂乱无章的检索资料是不能使用的,所以,文献阅读不仅不能少,而且还要加强,只是这种阅读和检索紧密联系在一起,不是传统意义上的阅读。文字多的段落,无关的文字要删除;文字少的段落离开语境以后意义不明,更需要回到原文中阅读理解。

如果检索到几百条资料,在word等文字处理软件中阅读、整理,删除无用信息,工作量相当大。因此,有人认为没有必要将检索结果一次性输出,一直是在全文检索系统中检索、阅读、复制、粘贴。其实,我们可以使用EmEditor、UltraEdit等文本工具中的关键词持续高亮显示功能,迅速定位到检索时使用的关键词,提高对输出文本的阅读和处理效率,具体使用方法可以参看这类文本工具的帮助说明。

检索便捷,少有翻检之劳,在一定意义上提高了我们的阅读兴趣。漫无目的的泛泛浏览变成了有目的的检索阅读。可以说,全文检索的数字资料带来了读书方式的变化,不管我们愿意与否,赞同还是批评,都无法改变这种变化。笔者曾将这种阅读称作“检索式的阅读”。理解、分析史料必须回到它的语境中,快捷而正确的方法就是不厌其烦地到全文检索软件中阅读,使用关键词检索定位,补充和丰富与之相关的信息。不能把这样的研读数字古籍简单地理解为以检索代替阅读,它比阅读同一纸质书针对性更强,目的性更明确,涉猎范围更广泛,单位时间内获得的信息更多。正是由于查找便捷,研究者更愿意通过检索去快速了解相关信息,钩沉索隐,全面准确地解读史料,去发现问题、分析问题和解决问题。

这种“检索式的阅读”是全文检索数字资料的优长,是纸质书籍时代没有的读书方式。目前,我们对信息时代的阅读还缺乏系统全面的理论研究,应当积极探究这种变化带来的深层次影响。有一点可以肯定,“检索式的阅读”不同于也不能代替以纸质书籍为对象的精读和泛读。传统的精读、泛读是学习和研究的基础,将其与“检索式的阅读”相结合,可以纠正和弥补“以检索代替读书”和“以检索代替研究”的弊病,丰富我们的读书和研究方式,提高学习和研究的效率与质量。

二 如何整理检索资料

数字资料搜集方便快捷,衍生出新的问题:如何高效处理检索到的数字资料?检索资料的整理,包括校对、鉴别考订、分类、量化统计和逻辑分析等内容。

一般说来,读书网站的文本类图书(包括百度文库)都存在或多或少的错误,我们很难保证检索到的数字资料的可靠性,所以,对于这些检索资料必须进行认真核对和鉴别。尤其是没有经过点校整理的文献资料,鉴别考订是必不可少的工作,只有经过去伪存真、去粗取精的细致筛选,才能保证检索资料的正确性。由于这些数字图书都没有标出同名纸质图书的页码,查找纸质图书原文核对十分辛苦,是一项费时费力的工作。我们可以先用达到出版物要求的高质量的可检索的数字图书做初校,如果感觉还有问题,再用纸质图书或者图像版的电子图书核校。上海人民出版社、香港迪志文化公司出版的电子版文渊阁“四库全书”,北京书同文公司的电子版“四部丛刊”,以及“国学网”上的部分数字资料,校对质量都比较高,达到了纸质图书出版的要求,用它们做初校,可以提高校对速度。台湾中研院的汉籍电子文献瀚典全文检索系统中的“二十五史”和南开大学陈永川研发的“二十五史”全文检索系统,都在检索结果中标示出中华书局标点本的页码,非常方便和纸质中华书局二十五史核对。

检索资料通常可以分成两类:一类是数据性资料,另一类是需要进行逻辑分类的文字资料。史学研究要经常分析数据性资料,数据性资料一般以离散的状态出现,要依据统计学的原则来处理分析它们。大多数情况下,史学研究需要的常用数据是平均数、近似值、时间序列和分布规律等。使用Excel之类的电子表格软件就可以得到这些常用数据,只有复杂的统计分析,才会用到数据库软件。

古籍中的数据性资料虽然不少,但更多的是文字资料。文字资料如何分类整理?按照什么标准分类?用什么程序或技术手段做分类?都是值得我们探讨的问题。检索资料的分类、归纳、排比、筛选和综合分析等工作,应当使用电子表格、数据库或其他文本软件来做,只使用文字处理软件不能发挥用计算机写作的优势,多种软件与文字处理软件联合作战才能发挥其最大效用。

检索资料的归类整理具有人文社会科学研究的个性化特色,没有统一的方法和固定的程式,主要由研究者根据研究需要和对资料的理解来决定,以省时省力、方便适用为目的。整理的方式大致有以下几种:按研究问题分组;以时间顺序排列;按性质归类,去粗取精等。

怎样从海量史料中获取、发现知识,是信息时代史学研究中具有普遍意义的新问题。传统的史学研究手段无法分析处理海量史料。内容不断丰富的古籍全文检索资料库和计算机处理海量信息的强大功能,为分析处理海量史料提供了科学的便捷高效的研究手段。从海量信息的统计分析中获取、发现知识,是传统的史学研究不曾做或极少做过的工作,这种研究能够充分发挥计算机的优势。信息技术的发展赐给了我们现代化的学术利器,这是先哲前贤做梦都不能想象的利器。工欲善其事,必先利其器。学术工具的进步,必然带来研究方法的创新和学术视角的拓展,为古老的历史学科的研究增添新的活力。信息技术的发展正以前所未有的深度和广度影响和改变着我们的生活和工作,从实践和理论上探讨、总结现代信息技术对传统学科历史学的影响,既有现实意义,也有历史意义。

中国古代文献中有先哲前贤完整论说思想体系的内容,也有保存古代历史片断(即史料)的撰述。研究先哲前贤的思想,当然要尊重其著述的完整性及其内在的逻辑论证,在其时代语境中作“同情之了解”。当我们把零散的史料依照一定规则重新排列组合以后,往往会产生豁然开朗的感悟,因为我们会从中发现这些零散的史料在原来的语境中难以解读出来的字面以外的第二乃至第三层寓意,以及史料之间的种种内在联系。进一步分析论证这些寓意和关联,会得到新的发现和解读,这就是史学研究的一般过程。这个过程在手工披览纸质文献的时代,要求研究者具备精深的学术功力,否则很难得到完美的结果,因为大部分纸质古籍没有必要的索引,纸质检索工具的可用性也有局限,不能按照使用者的需求提供多种排检方式。另外,研究者对于文献资料的认知是随着研究工作的进展而逐步明晰深入的,在工作伊始通常难以准确提出和自己的研究问题完全吻合的所有关键词,需要在一个较大的范围内进行模糊查询或渐进式查询,这是纸质检索工具书无法做到的。进入信息时代,纸质检索工具书的困局迎刃而解,检索关键词可以不断地试用和调整,只要能想到,全文检索数据库中又存在,就能检索到,几万甚至几十万字的资料瞬间即可搜集在一起,运用计算机进行海量史料的整理归类、量化统计和逻辑分析,从中获得、发现知识。这里必须要强调的是,用于检索的正确的关键词的提出,绝不是轻而易举的事,只有具备深厚的专业知识,检索工作才会满载而归,否则,很可能是一无所获。搜集和考辨史料是史学研究的基础,是史学研究者经常做的工作,后来逐渐形成考据之学。笔者有过一些利用计算机处理海量信息从而获得、发现知识的个人体验,例如,我曾检索、分析了鸦片战争以前中国文献中一千多例“专制”使用情况,发现古今“专制”语义不同、应用语境有别,专制一词在中国古代基本上不用于君主,而是广泛用于人臣。这个信息的发现就是建立在分析处理海量史料的基础上,它不是简单的史料堆砌,和传统的考据方法形似而不相同,也有别于黄一农先生提出的“E考据”。

计算机在存储、检索、归类统计和分析海量史料方面,具有人脑无法相比的强大功能。我们不仅不能满足于检索查询的一般性应用,还要积极参与信息化与文史研究方法和理论的探讨,充分利用计算机综合统计、归类分析的强大功能,增强从海量史料中发现知识的能力。掌握、提高计算机应用水平,不仅有利于史学研究效率的提高和研究领域的拓展,还可以促进史学工作者和信息技术人员的合作,既是历史学数字资料建设的需要,更是深入挖掘蕴含在汗牛充栋的文献典籍中史学宝藏的需要。

作者王文涛,历史学博士,河北师范大学历史文化学院教授。河北,石家庄,050024。

收稿日期 2014-05-20

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多