分享

古籍电子化的速度可能超出了我们的想象

 木头1018 2016-08-15



看他们的工作细节,可以知道,实现某些东西已经不是吹牛。他们已经从古籍中挑选出数以万计的非常规字让电脑学习,不断扩充计算机的词汇量,从而极大提高了识别的精度。在这个基础上,再用计算机完成简单的异同校,适当加一些人为研判,就完成了校勘。再通过研究语法规律,让计算机根据常用语法初步加标点。我的理解是,比如遇到一个“吗”字,就让计算机执行一个在后面加“?”的命令。这样多数情况是对的。




古联公司去年推出的中华“经典古籍库”收了中华书局(少量来自其他古籍社)建国以后排印的(最最)常用古籍869种,将其中涉及的电脑不认识的1.6万字逐个挑出,要么让他们依附于某个电脑认识的字,要么重新编码让电脑学习。这样古籍库中的文本,就跟扫描的书影实现了高度一致。使用时,左边是文本,右边是书影。当初爱如生的“中国基本古籍库”设想而没有实现的效果,在这里实现了。这套经典古籍库的简版今年在微信公众平台上线了,我现在有三个月的免费试用期。打算到期后付费购买,每年120元,相当于出去搓一顿的钱。


在我周围的许多人观念中,提到古籍电子化,他们可能还会自然想到电子版《四库全书》。2009年将它的盗版装到自己电脑上时,我清晰的记得当时自己的感受,我感觉我拥有了整个世界。电子版四库是1999年上线的产品,距今已然17年了。这是信息时代的17年啊,这套电子版开始研发的时候,QQ还没有诞生,Windows98也还没有诞生。过去这17年,Windows系统经历了八九个版本。这17年,信息爆炸,天翻地覆。


其实在电子版四库全书面世前后,有不少仁人志士投入到了古籍数字化的斗争中。我曾经在一个QQ群里听一位前辈讲,他们当时自费购买扫描仪,扫描点校本古籍,做成pdg,后来转成DjVu、PDF等多种格式,传到电驴上,供大家免费下载。这位前辈当时开着一家私营公司,他让自己的员工白天上班,晚上用公司的设备加班扫描古籍。其实我们后来经常使用的点校本二十四史、新编诸子集成、资治通鉴等等常用的书,都是那时候那一群人无偿奉献的。(我硕士论文是魏晋南北朝史方向,要用到那个时段的八书二史一志,涉及到了二十四史中的十一部,如果我全部用实体书的话,简直无法想象。实际上,我只是动用了电脑硬盘里几百M的扫描本,就解决了问题。)



再后来有了一些论坛,爱如生、国学数典等,还有再再后来的新浪爱问、各色网盘、新浪微盘……我记得我上大学的时候成天用蜗牛的网速在网上下这些书,大部分如今仍然存在我的硬盘里,从来没有打开过。其实资源基础始终还是那些,形式、格式也没有变。最近几年,国家和民众都有了版权意识,我们常用的这些下书的网站相继失灵了。


继电子版四库这个路子而起的是爱如生的“中国基本古籍库”,它完全吸收了电子版的四库全书和四部丛刊,通过一些或合法或不合法的手段,增补了大量其他古籍。检索之方便,用着都知道,我就不多说了。刘俊文先生实在是个有理想的人,他们的想法一是提供准确的电子版,二是实现书影的对比,当然最后都没有实现。基本古籍库很多地方是做得很简陋的,比如号称用了某个版本,其实根本就是用了现成的电子书。但是他确实足够庞大,你想找的书往往都有。



我感觉中华“经典古籍库”和爱如生推出的“中国方志库”将是电子书使用的一次革命,往常我们利用基本古籍库,都是搜到了某个东西,定位好,再去找原书或者书影查。最近出的这两个库实现了一站式服务,书影就在你的屏幕上,可以直接著录。或许再过几年,这两个库经过多次修订,版本还要优于原先的点校本了,我们大概可以直接说引用的中华“经典古籍库本”了。


这几天真是频繁受到冲击,感觉自己这个行业岌岌可危。对于某个个人来说,技术进步不是循序渐进的,你会突然某天捅破一层窗户纸看到了另一个世界。对于一个行业来说,衰败可能也不是循序渐进的,可能会经历一个断崖式的下跌。最后还是与消亡无限接近、永不相交。面对技术进步,从来就不缺少顽固派,抵制者大有人在。但是抵制从来都是螳臂当车。面对这种叹为观止的高科技产品,失业我也心服口服。



编排:@二师兄



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多