分享

北京扫叶科技文化有限公司——中国古典数字工程简介

 嘟嘟7284 2021-12-17

 拾穗靡遗,扫叶都净,网罗理董,俾求全征献,

 名实相符,犹有待于不耻支离事业之学士焉。

      ——钱锺书

一.缘起

都说现今是大数据云计算时代,许多企业、行业都在建立自己的大数据系统。那么中国古典文献的大数据又是什么状况呢?北京扫叶的主要成果“中国古典数字工程”缘起于钱锺书先生。早在1985年,钱先生就将该“工程”的构建原则、基础和方法交给中国社科院研究员栾贵明先生立项,他们一起探索如何用电脑处理中国古典文献,同时迅速推进了第一个古典数字工程的创建工作,历时14年。经过栾贵明先生和田奕女士的研究探索,早期的成果有1987年的《论语数据库》出版,1990年获得“国家科技进步奖”的《中国古典文献的计算机处理技术》,1990年代的《全唐诗索引》三十大册系列等。

钱先生逝世之后,该“工程”建设阶段,虽几经波折,但没有停止过一天。2007年成立了“北京扫叶科技文化有限公司”,继续从事钱锺书先生提出的这个课题——“中国古典数字工程其宗旨,是将汉字产生以来的全部介质上的文献数字化,搜集完整、整理精到的中华核心文化基石。


图片


二.四大库的建立

目前的古籍数据库过于强调收集图书的数量,尽管数据量庞大,就实质言之,仍未走出电子图书馆的概念,还只是数量众多电子图书的堆迭,本库之间缺少有机联系,作品的版本和异文更没有合理的设置,成为大数据时代深度挖掘和利用中国古典文献的瓶颈。而“中国古典数字工程从一支小团队,历经35余年,精心制作。“中国古典数字工程的架构既没有采用传统的经史子集“四部”分类,也不采用一般图书馆分类法。因为这两种方法面对浩瀚的中国古典文献,都有局限性。钱先生给“中国古典数字工程制定的基础原则就是以“人”为核心。

1.人名库

以“人”为核心的前提是构建了目前全世界独一无二的“中国古代人名库”。从各类典籍中将涉及到的人名摘取出来,每个人物包含其主名、辅名(辅名是指字、号、别称)和小传等内容。这些资料均来自原经原典,客观罗列编纂,不得引入任何主引观评论。目前“人名库”已经收录40万人,15万条辅名,数千万字。

2.作品库

把每个人的作品归集于其个人名下,不再按经史子集或者其它分类法拆散。目前作品库已经有10亿字。这些作品均经过精校,采用正体汉字,使用传统断句,注明版本来源,并录有异文。可以保证向简化字安全转换。部分配有与文字对应得原版影印图形,目前已经收集图形100万余页。

3.日历库

日历库就是“中国历史日历”。关于中西日历之间的对照转换,是一个很复杂的科学问题,肯定是不能用公式来求得的,因为在中西方历史上都出现过人为干预修改历法的情况,使得凭空就多几天或少几天,这是公式绝对无法跨跃的。所以“中国历史日历”采用了看似很笨拙,但是唯一有效的简单表述方法,是利用中国的干支法,从夏代第一位君主大禹开始,一直到清代灭亡,把每一天都列出来。又考虑到同一天,在中国有可能存在多位帝王,国号不一,历法更有差别,这些都同时并列出来,故总计应是585万天。每天又包含帝讳、朝代、帝号、年号、干支以及公元年月日等13项内容。总计3亿字。而夏朝以前太古时代的三黄五帝,乃至上朔到远古时代的盘古,则以史表的方式表达。

4.地名库

从25史和30部地理专著中,提取出全部的地名,每条地名下均注有文献出处及不同年代的变更情况。目前已经制作了800万字。再配合上经纬度坐标,就是开发“中国历史地图”的基础。

以上四大库的内容是人类文明和文化的核心要素,它们不是孤立的。在进行这些基础数据制作时,所有的关键点都会加上必要标引,使得四大库之间可以相互勾连跳转,确保将来系统开发无障碍。

另外,该“工程”又建有辅助工具库,包括《四库全书总目提要》《康熙字典》《中华语典》等工具书,还有类书《北堂书钞》《艺文类聚》《初学记》《太平御览》《册府元龟》《永乐大典》《通典》等,它们都含有极其丰富的资料,是每本典籍相互关系勾联和非常重要的补充。

三.丰硕的成果

   北京扫叶公司这个团队近水楼台,是“中国古典数字工程首批使用者,成果斐然。已经陆续出版了《永乐大典索引》《全唐文新编》《宋诗纪事补正》《十三经索引》《龙藏》等巨著,还有《中国古典数字工程丛书》系列。关于这个系列,其基础就是上面讲到的“作品库”。当把每个人的作品归集于其个人名下时,就自然形成了这个人的集子,数量以万计,所以又俗称“万人集”。

图片
钱锺书先生为工程出版成果题签

   “万人集”的首部,是福建人民出版社出版的《子曰》,这是栾贵明先生利用“工程”数据丰富之便,新编而成。《论语》是由其弟子们纂辑而成的,共1.6万字。栾先生辑历代典籍所引孔子言论语录,近20万字,较《论语》原书新增约10倍。其对思想学术界之贡献之影向,很是巨大。

   仿照《子曰》体例,又新编辑并由新世界出版社出版了《老子集》《列子集》《庄子集》《孙子集》《鬼谷子集》等。更有以太昊、炎帝、黄帝为代表的《太古帝王集》《炎帝集》《黄帝集》《太古臣民集》《夏商周三代帝王集》,把这些太古、上古、中古人物的作品言论,搜集整理成集,是前所未有的。再配合同时出版的《皇甫谧集》,以及从“日历库”衍生出来的《中华史表》,把华夏文明实实在在确立为六千五百年,这必将引发世人对中国文化悠久历史之认识。

图片

北京扫叶公司主要出版成果

     佛门禅宗达摩、惠能等六位祖师地位超然,他们的思想言行有如繁星般散落在浩瀚的古籍中,从没有进行过系统整理。借助“工程”之利,和“万人集”的成功经验,40万字的《禅宗六祖师集》即将面世。

以上出版物既是扫叶公司的团队成果,也是自主版权的确立。扫叶公司团队成员在这个过程中也受益匪浅。他们长期在香港明报旗下的著名期刊《国学新视野》上,发表自己的文章,已有30多篇。这些文章的资料线索、论点论据,都源自“中国古典数字工程这片土壤。有了这片丰沃土壤、全新方法,我们才可以创建崭新的古典文化整理、编辑、出版,甚至研究的新天地。

.工程意义

   “中国古典数字工程”利用电脑技术,使用格式化的方式,实现彻底梳理1912年以前上朔至太古时代的全部中华文化古籍,夯实六千年中华文化的传承体系,盘清文化家底。它致力于中国古代核心文化及文献保存、整理、研究、传播、欣赏和继承的大启点项目。

   “中国古典数字工程”通过梳理真正做到掌握中华文化研究话语的主导权,充分体现当代中国“软实力”构建主力军身份,也占领全球中华文化研究制高全新出发点。它是提升中华影响力的战略性工程。

   “中国古典数字工程”全世界数量大,质量高且独一无二的文化平台,是关系传统中华文化、科学考古发掘、文化创作、历史研究、自然探索、以至方针制定、科学规化即人类文明领域研究的必备之基础性典范事业工程。

   “中国古典数字工程”其价值将在《永乐大典》与《四库全书》之上。“工程”可以提供全面准确的中国古典文献全文本,将对文化、科学、国家建设和安全,以及国民素质的提高发挥重要作用,对文化走向产生积极影响。

   “中国古典数字工程”是中华民族文化创史大业,它是新时代赋予我们的历史使命,同时也符合新时代发展要求的新成果。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多