分享

头条 | 古籍数字化,十年磨一剑

 文武不全 2016-07-25
出版社的探索,不是发现新鲜资源,也不是研究专门学问与技术,仅仅是试图了解用户想要什么
20世纪90年代,古籍数字化开始在我国起步,随着网络的普及,古籍数字化迅速兴起。
“在目前的数字出版界,始终存在一种争议,那就是数字出版应坚持技术为王还是内容为王?我们在做古籍数字化之前,首先明确了这个问题,确定了‘内容为王、质量至上’的原则。”——中华书局总编辑顾青

中华书局 十年磨一剑
 2003年,中华书籍语料库
早在2003年,中华书局便成立古籍资源部,开展“中华古籍语料库”项目的研制开发,当时还完全没有“数字出版”的概念,古籍资源部主要从事古籍的数字化编辑加工,用6年时间将3亿字的整理本古籍做数字化处理,完成了初步的平台建设和语料积累。这些语料积累都是整理本古籍中的精华。
 2006年,古籍计算机用字研究的开始
为了破解古籍数字化中遇到的难题,中华书局投入了大量精力参与计算机用字规范项目的建设,如“中华字库”“国家数字图书馆汉字规范处理项目”“新闻出版用大字符集”等项目。这些项目使得在数字载体上重现古籍疑难字成为可能,为高质量的数字古籍进一步推进打下了坚实的基础。
 2007年,《资治通鉴》分析系统
着眼于未来,中华书局将目光放在了更具潜力,能更好为读者服务的古籍知识分析系统上来。基于语义网络技术,中华书局和北京大学实验开发了《资治通鉴分析系统》。该系统能将《资治通鉴》中的人名、地名、职官、事件等等分类检索和分析。提供了基于语义的查询检索、基于信息重组的分类导航、基于扩展知识服务的阅读浏览功能。 
 2009年,“商周铜器铭文”知识库
中华书局出版过一大批包括《殷周金文集成》、《三代吉金文存》、《金文编》等金文著录及研究图书,形成了丰富的商周铜器铭文出版资源,建立了“商周铜器铭文”数据库(现在部分成果已经集成在了中华经典古籍库),提供给读者一个阅读、检索、统计分析商周铜器铭文的工具。系统提供给读者高清晰的拓片、摹本、照片图像12000多幅,附有全部释文,提供相关的检索。
 2010年,二十四史分析系统
与武汉大学合作,该系统包含比通鉴更大量的资源处理,提供基本阅读检索,人物、时间、地点的检索,一个人的多种称谓和人物具体关联。并且提供了一套在地图上做的时空分析。
产品化 社会化
2014年,中华经典古籍库(镜像版)
第一期包含2亿字,294种书,包含经史子集各部,全部为中华书局自有版权的精品整理本古籍。
中华经典古籍库是首个拥有自主版权的古籍数据库,所具备的“原书图像一一对照”、“自动生成引用格式”等功能,均处于时代前列,广受用户好评。
第二期包含1亿字,137种书,补全了各部的重要古籍,形成了基本完备的“学科基本书”。
第二期重要的古籍包括《东观汉记校注》《文献通考》《朱子语类》《世说新语笺注》《全元诗》及各种名家诗集文集等等。
第三期包含2亿字,638种书,除了对前两期的补足之外,主要开始收纳各朝代学术大家的研究成果,体现学科研究新高度。
包括王应麟、王夫之、孙诒让、康有为等学术名著选集。
 2015年,中华经典古籍库(在线版)
在线版降低了用户安装的门槛。而且,将来会在在线版上提供更多个性化的需求和商业模式。
在线版正处于大规模试用阶段。

面向个人读者
结合社会资源
 2016年,微信版问世
全球首个移动端整理本古籍数据库,首发5亿字,869种书(现正不断更新中)。质量和精度与镜像版、在线版保持一致。
主打“随身、轻量、便携”特色的同时,利用微信平台,提供了便利的内容分享机制,极大地推进了中国传统文化的传播。
 2016年底,中华经典古籍库第四期
将首次引入其他古籍出版社的优秀整理本古籍资源,用一个平台容纳市面上的精品古籍,形成古籍数字化领域的跨出版社、跨公司的战略合作。
第四期预计有260多种书(数字或有出入),包括华东师范大学出版社的《文史通义注》《朱子全书外编》,齐鲁书社的《宋代序跋全编》《文心雕龙译注》,凤凰出版社的《全元文》等等。
 未来,无限可能
让我们回到开头那段话:出版社的探索,不是发现新鲜资源,也不是研究专门学问与技术,仅仅是试图了解用户想要什么。
古籍数字化事业的发展方向和高度,不仅与国家、与出版社、与高校、与研究有密切关系,甚至你、我、每一个使用者的意见,都是不可或缺的角色。


中华书局出品
5亿字精校古籍一手掌握

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多