分享

王文涛:古籍数字资料应用与史学研究 (一)

 左书右网 2009-04-22
王文涛:古籍数字资料应用与史学研究 (一)(2009-04-19 16:40:51)

文章来源:《史学月刊》2009年第1

司马迁之后,搜集和考辨史料,作为研究历史的基础,为绝大多数史学研究者所继承,并逐渐形成考据之学。随着信息技术的发展,古籍数字化热潮方兴未艾,从零星制作到规模开发;从初期的图形扫描到字符数码化;从目录、文摘的制作到全文录入;从制作单机版CD发展为网络版的数据库。随着OCR扫描技术的成熟、UNICODE编码的统一、全文检索软件的完善以及 Web技术的普及,以网络为主要载体,数字图书馆建设迅速发展,古籍数字资料的应用与史学研究的结合日益紧密,信息技术对人文社会科学研究的影响也在向深度和广度发展,相关问题的应用与研究也越来越受到人们的重视。

 

 

    中华民族创造了无比丰富的历史文化遗产,古代典籍是中国历史文化遗产最为重要的物质载体,是世界文化的重要组成部分。胡适先生认为传统的经史研究有很多优秀遗产,但也存在范围太狭窄,注重功力而忽略理解,缺乏参考比较的资料等积弊,故以清代三百年间第一流人才的心思精力,都用在经学的范围内,所获成果并不相称,关键是缺少对古籍的系统整理,又不注重学术成果的积累。针对清儒治学方法的缺陷,近代以来学术界编纂了多种引得、通检、索引、汇编等工具书,部分完成了索引式整理的任务,为我们查阅古籍提供了诸多便利。但是,中国古籍汗牛充栋,经过系统整理的毕竟只是少数,方便的检索工具还是太少。即使是已有索引的古籍,用来解决具体问题时仍会感到种种不便。

    史料是历史研究的基础。每一个从事史学工作的人都要搜集和积累史料,以前使用最普遍的方法就是抄录卡片,看见有用的资料就抄,并加以分类。这些卡片基本上是按照个人的需要辑录并供个人使用的,难以共享。人文学术研究是个性化鲜明的工作,一个人的精力和时间非常有限,将有限的时间和精力花费在浩繁、琐碎的翻检抄录工作中,繁累、枯燥自不待言,也影响学习和研究效率,学术进步自然也就困难了。因此,我们需要应用便捷、高效、准确的检索工具为人文学术研究服务。

    搜集资料的工作麻烦而又艰巨,但十分重要。这个工作一定要做,因为这是进行学术研究的基础工作和必要手段。不亲自动手去做,就发现不了问题,而且,只有尽可能全面地占有资料,才可能对所研究的问题进行科学论证,得出正确的结论。要搞研究工作,就不能怕麻烦,要花大气力做搜集资料的工作。

    进入信息时代,对于不同年龄的研究者来说,数字卡片正在和已经取代传统的纸质卡片,数字图书馆正在迅速丰富着个人的数字藏书。储存和检索数字资料,是史学工作者使用计算机和网络的主要用途。古籍数字资料的搜集与整理是一个完整的过程,它包括数字资料搜集范围的确定,数字资料的筛选与鉴定等。资料搜集不一定严格地按照上述先后次序,也可以同时进行,例如一边搜集,一边鉴别,视具体情况而定。数字资料搜集完成以后,必须进行认真的鉴别和核对,因为很难保证我们搜集到的数字资料都是可靠的,去伪存真,去粗取精,才能保证数字资料的可靠性。一般读书网站的数字图书错误较多,使用时必须要校对。由于这些数字图书都没有页码,直接查找纸质图书原文,费时费力,可以先用高质量的数字图书做初校,剩下的问题再与纸质图书核校。例如,香港迪志文化公司开发的文渊阁《四库全书》、北京书同文公司的《四部丛刊》以及“国学网”上的数字资料校对质量达到了图书出版的要求,用它们做初校,可以提高校对速度;“二十五史”校对可以使用南开大学陈永川开发的网络版“二十五史”全文检索系统,这个系统提供网络免费使用,其优点是页码与中华书局标点本完全一致,便于和中华书局本核对。鉴别数字资料的方法很多,如对数字资料所存书籍年代的考证,作者和版本的考证,文字和方法方面的鉴定等。这是每一位史学工作者的基本功,在这里无须多谈。计算机作为现代科学技术发展的结晶,为存贮、检索、分析和处理大量史料提供了重要的技术保证。利用计算机把史料的整理归类工作做好,使用起来就方便多了。这就需要史学工作者熟悉、掌握基本的计算机信息技术,以便于和信息技术人员配合协作,把历史学数字资料建设和史学研究推向深入。

    就现阶段中国大陆的古籍数字资料应用来说,有喜有忧。一方面,信息技术的迅速发展,为古籍数字化提供了充分的技术条件。信息高速公路将世界连接为一个名副其实的地球村,国际互联网提高了电子文献的检索效率,扩大了服务范围,便捷的信息传递节省了远程通信费用。新一代高性能计算机的海量存储和惊人的秒级运算能力,使我们再也不必为存储空间和运行时间的矛盾而苦恼。新的国际计算机信息处理标准的制定和实施,为建构全球统一的信息处理系统奠定了坚实的基础。通用UNICODE码包含6万多个汉字,为汉字信息处理的国际化和标准化开辟了道路。新的信息应用技术,如非键盘输入技术、中文数据库技术、多媒体压缩与传送技术、安全保密技术、自然语言理解技术等的出现,为文献数字化事业提供了有力的支持。尤其是非键盘输入技术使文献载体转换方式发生了一场革命,自动识别输入技术(OCR)使海量信息输入的工作量大大降低,清华紫光公司所研制的非特定人手写识别软件仅用三个月时间就将一部8亿多字的文渊阁《四库全书》输入计算机,为同类工作积累了宝贵的技术财富。

另一方面,现有的网络古籍数字资料分布极不平衡,大部分网络古籍数字资料库集中在海外,大陆学者在使用上存在诸多不便:文字编码不统一,会员资格受限制,服务器连接也不够通畅。就目前掌握的情况看,尽管大陆的软件公司推出了各种版本的《廿五史》和常用古籍(重复开发多),还有《四库全书》、中国基本古籍库等煌煌巨制的检索系统,以及正在试运行的龙语瀚堂典籍数据库等,但缺乏整体规划和系统开发,真正投入Internet运营的只有国学网等寥寥数家。究其原因,除了服务器数据库运营技术复杂,费用相对昂贵外,网络市场不够健全是主要因素,许多商家宁肯用上千以至数万的价格卖出光盘,或者以数十万的高价出售局域网版本,以求尽快收回成本。而大陆无论是学者个人,还是文史研究机构,经费相对拮据,没有能力支付软件费用,因而造成恶性循环。从长远看,借鉴海外网络运营经验,采用部分适当收费,部分免费开放的会员制运营,可能是一个比较有效的解决途径。

 

 

    古籍数字化需要具备怎样的功能?数据应当怎样处理?使用何种技术才能保证古籍数据库具有我们需要的功能呢?这些都是我们在建设和应用古籍数字资料时经常遇到和思考的重要问题。

    这里,我们所谈的数字化文献,不是为大众提供普及读本,而是为学术文化的繁荣奠定基础,这应当是我们制作和使用数字化文献的共识。数字化文献的功能不仅在于一般的信息查询,更重要的是古籍文献中的知识发现。它应当符合各种国际通用标准,具有开放性,可以在网络上传输,实现信息资源共享。古籍数字化的过程,基本上可以视为文献全文数据库的生成过程。一部古籍文献输入计算机,就形成了无标引的全文数据库,即半结构化的数据库。目前,以中国古籍为内容的电子读物多为此类产品,但这远不能发挥计算机的技术优势,也难以达到研究者的要求,其最大的缺陷就在于它不能像结构化数据库一样经由排序、筛选、分类和统计之类的管理过程产生再生资源,更谈不上知识发现。因此,对古籍中的数据进行充分的分析和处理,制作成结构化数据库,与半结构化数据库相结合,才是较为完美的方案。数字化古籍适合实现多途径排检功能,在确保信息查询的查准率和查全率的前提下,提供了实现海量信息中知识发现的可能。

    古籍数字资料检索结果的输出,是关系到使用效率的一个非常重要的问题。目前,文渊阁《四库全书》全文数据库的检索结果必须通过阅读原文才能知晓具体内容,不能集中显示,给用户使用带来了一些不便。例如,“孔子”的检索结果多达23757卷、111641个匹配。有人做过统计,假定每个匹配的阅读时间平均为1分钟(加上复制相关资料、标点等),每天8小时不间断地阅读,孔子的检索结果需要233天才能阅读、复制完。如果是通过网络阅读,受网络传输速度的影响,耗时将更多。

    有的检索软件提供了将检索结果一次性全部输出的功能,省去了用户一次次复制、粘贴的重复性劳动,非常方便。例如陕西师范大学袁林先生主持开发的汉籍全文检索系统,收入文史哲类古籍文献2159种,共74亿字。使用该系统,成百上千条检索结果和文献出处可以一次性输出为一个文本文件,方便快捷。不过,该软件检索内容的输出以关键词所在段落为单位,不论这一段落是几十个字还是上千字。这就带来了新的问题,字数少的段落脱离语境之后缺少相关信息,需要回到原文中阅读,补充资料;字数多的段落,无用的文字信息需要删除。如果检索到几百条资料,一次性输出之后在word等文字处理软件中阅读、整理,删除无用信息,工作量也是相当大的。因此,有些用户认为,在全文检索系统中阅读、复制和在word中阅读、整理差别不大,没有将检索结果一次性输出的必要,因此很少使用该检索软件提供的一次性输出功能。其实,我们可以利用EmEditorUltraEdit等文本工具提高对输出文本的阅读和处理效率,以弥补word在这方面的不足。

使用Emeditor处理一次性输出的文本,第一步是将无用的信息用查找替换功能删除。然后键入关键词查找定位,以删除无用的文字。一般说来,对用户有用的信息是以其设定的检索关键词为中心,只要能迅速找到这个关键词,就可以提高阅读、处理输出资料的速度了。“Emeditor”的优点是进行新的关键词的查找时,能够将当前检索到的所有关键词一直高亮显示,这一功能非常方便用户迅速定位到以关键词为中心的有用信息。这样做和在检索软件中一次次地复制、粘贴相比,速度快了很多倍。即使使用粘贴工具,工作效率也不如用EmEditor处理一次性输出文本。处理的资料越多,速度差别越明显。

输出文字少的段落,需要补充相关信息,方法是回到全文检索软件中读书,再次输入同一关键词,找到它所在的语境,补充所需信息。这样研读数字古籍比阅读同一纸质书籍的目的性更强,查找便捷,可以迅速了解相关信息,单位时间内获得的信息更多,有利于我们更全面准确地解读史料。这样的读书方式是数字资料的优点,也是纸质书籍所不具备的,笔者将其理解为检索式的阅读。由于检索方便,很少有翻检之劳,研究者更愿意通过检索去研读相关信息,以便发现问题、分析问题和解决问题。这不是简单的以检索代替阅读,而是针对性更强、涉猎范围更广、更有利于钩沉索隐的读书研究。这种读书方式的变化,是数字资料带来的,它不同于以纸质书籍为对象的精读和泛读。将这种读书方式与传统的精读、泛读相结合,不仅可以丰富我们的读书和研究方式,还可以消除对“以检索代替研究”的诟病,提高我们研究工作的效率和质量。希望有更多的人关注以数字资料为对象的读书和研究方式,探究这种变化带来的深层次的影响。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多