分享

中华古籍数字化

 临泉书屋 2014-06-13
中华古籍数字化
        让中华经典“活起来”
——中华书局推进古籍数字化纪实
       光明日报
20140610


                                                                “中华经典古籍库”首页
                                                 【资料照片】


    日前,中华书局研发完成“中华经典古籍库”第一期数字化成果,完成自有版权的300种共2亿字古籍的数字化,包括了中国传世典籍的最核心部分。这一数据库将依托全国十几家图书馆的平台向公众开放,让中华经典跃然屏幕,让文化真正“活起来”。
    完成这2亿字,中华书局用了十年。

                                                    古为今用:传承中华文化的时代担当

  打开中华书局“中华古籍数据库”,黄褐色的界面充满古典感和文化气息,左侧的目录栏里,各本古籍按照“经”“史”“子”“集”分类排列,纲举目张,条理清晰。
  这一数据库保留了标点、校勘、专名、注释等全部整理成果,提供原书扫描图像页与数字文本一一对照,公众将拥有可靠、可直接引用的数字化古籍,实现了中国高质量古籍整理图书的数字化。
  浩瀚的文字背后,是烦琐的古籍整理和精细的后期数据加工工作。
  早在2003年,中华书局便成立古籍资源部,开展“中华古籍语料库”项目的研制开发,当时还完全没有“数字出版”的概念,古籍资源部主要从事古籍的数字化编辑加工,用6年时间将3亿字的整理本古籍做数字化处理,完成了初步的平台建设和语料积累。
  这些语料积累,源自中华优秀传统文化和典籍作品。我国浩繁的文化典籍,是中华民族政治、经济、历史、文化和民族精神的重要载体。据专家估计,中国存世古籍总计在20万种以上,如果计入碑刻、家谱等,数量更多。
“这些存世古籍负载着厚重的中华文明,凝聚着民族智慧,是祖先留给我们的精神遗产。”中华书局总经理徐俊说,弘扬中华民族的优秀文化,为学术研究和广大读者提供高质量的基本古籍,是中华书局长期致力的目标。
                                                    内容为王:秉持精益求精的文化品格

  20世纪90年代,古籍数字化开始在我国起步,随着网络的普及,古籍数字化迅速兴起。
  在古籍数字化欣欣向荣的同时,我们也看到,目前我国古籍数字化在数据质量、数据内容等方面存在诸多问题。个别数字化资源随意节选,以讹传讹,对读者产生了误导;很多古籍数字出版物没有获得合法著作权、网络盗版猖獗,成为知识发展的重大障碍。
  “在目前的数字出版界,始终存在一种争议,那就是数字出版应坚持技术为王还是内容为王?”中华书局副总编辑顾青介绍说,“我们在做古籍数字化之前,首先明确了这个问题,确定了‘内容为王、质量至上’的原则。”
  对此,徐俊也明确指出:“保证数字产品的合法性和基本质量,是古籍专业社应该做的事,但也正是版权和质量这两点使得专业社古籍库产品研发步履维艰。”
顾青介绍说,由此,我们确定了古籍数字化的几个基本理念:一是古籍数字化一定要以古籍整理为基础,做到内容准确;二是古籍数字化产品必须要拥有合法著作权,确保法律上无瑕疵;三是古籍数字化一定要方便读者使用,让古籍从书页中走到屏幕上来。

                                                        攻克难关:打造数字出版的百年老店

  “我们点开右侧的‘人名信息关联’功能,输入‘曹操’这个人名,便会出现这个古籍库中所有曹操的人名、别名信息,这对于学者的研究很有帮助。”中华书局市场部主任翁向红说。
  然而,外人却很难了解,在这背后,数据编辑工作人员付出了怎样的艰辛。
  “这就意味着,编辑人员需要在数据底层把人名、地名、年代等信息都归纳标引出来,再编成可供读者检索的程序,这个工作需要有深厚的专业功底,做到专业领先,同时要攻克技术难关。”徐俊介绍。
  为了破解古籍数字化中遇到的难题,中华书局投入了大量精力参与计算机用字规范项目的建设,如“中华字库”“国家数字图书馆汉字规范处理项目”“新闻出版用大字符集”等项目。“通过这些项目的建设,我们规范了计算机古籍用字,积累了大量的汉字属性数据,为古籍数字化的工作提供了基础。也正是有了这些基础,“中华经典古籍库”的造字工作才能顺利展开。”顾青说。
  为做到数据持续更新,“中华经典古籍库”计划每年推出一辑数据包,持续收录新出版的优秀整理本古籍,在保证质量的基础上有序扩充数据量,同时不断进行数据的修订与完善。
徐俊认为,未来,古籍数字化需要政府、企业、社会三方面努力,为数字出版营造良好的政策和法律环境,让优秀中华文化走出书本,得到更好地使用和传承。(本报记者 李 慧)


    链接阅读
                    中华经典古籍库
                                     中华书局
                                    2013-09-18

    “中华经典古籍库”是中华书局首次推出的大型古籍数据库产品,第一辑收录了260余种中华书局出版的整理本古籍图书,涵盖经史子集各部,包含了二十五史、通鉴、新编诸子集成、清人十三经注疏、史料笔记丛刊、古典文学基本丛书、佛教典籍选刊等经典系列,总计约1.5亿字,后期将不断递增文献数据,计划每年推出一辑,供读者选购。
    “中华经典古籍库”为广大读者提供了丰富的古籍数字化阅读、检索服务,提供了必备的辅助工具,特别提供了数据与原书图像的对照,方便读者了解版式信息,省去了读者核对纸书时的麻烦,为读者带来便利。
    “中华经典古籍库”的出版响应了学界一直以来的要求,中华书局这一百年经典品牌第一次走向数字出版。中华书局近百年来整理了数千种古籍,其内容质量远超前代,在海内外在海内外享有广泛的声誉。古籍库的将这些优质古籍整理资源通过信息技术聚合在一起,极大的提高了读者使用古籍的效率。
    “中华经典古籍库”在数据制作的过程中,一方面通过计算机技术和人工校对,保证了图书出版高标准的编校质量。另一方面,我们也进行了而外的数字化编辑工作,修改了原书中的一些错误。
    本产品第一辑所收书目大多是中华书局近百年来古籍整理的精品:
    “二十四史”及《清史稿》是我国最为重要的基本史料。点校本“二十四史”及《清史稿》,是由中华书局组织全国百余位文史专家,历时二十年完成的新中国重大古籍整理工程。参与整理的当代史学家均为一时之选,代表了新中国史学界各断代史研究的最高水平。点校基本上选用了当时最好的底本,并撰写了内容翔实的校勘记。点校本“二十四史”和《清史稿》出版问世之后,成为海内外学术界最权威、最通行的版本,享有“国史”标准本的美誉。
    编年体史书我们选择了《资治通鉴》《续资治通鉴》《续资治通鉴长编》和《明通鉴》等,记载了从战国的明的历史,史料广博,与纪传体互为补充。《资治通鉴》以清胡克家翻刻的元刊胡注本为底本进行标点;《续资治通鉴》以冯集梧补刻本为底本进行标点排印;《续资治通鉴长编》本书以清光绪七年浙江书局刊本为底本,卷二○九以前用宋手抄本、宋撮要本对校,并用文津阁本和活字本通校全书;明通鉴》依据1897年湖北官书处重校本标点。这些书都是目前整理校为完善的版本。
    子书是我国古籍的重要组成部分。二十世纪五十年代,中华书局修订重印了由原世界书局出版的《诸子集成》。但其中未能包括一九四九年后一些学者整理子书的新成果,所收的子书种类不够多,断句、排印尚有不少错误,为此中华书局从一九八二年开始编辑出版《新编诸子集成》,至今已出满四十种。每一种都选择到目前为止较好的注释本,有的书兼收数种各具优长的注本,出版以来深受读者欢迎。
    自汉至清,经学在各门学术中占有统治的地位。清代经学家在经书文字的解释和名物制度等的考证上,超越了以前各代,取得了重要成果,这对研究古代的经济、政治、文化、思想以至科技等,有重要的参考意义。中华书局在《十三经清人注疏》这个名称下,选择这方面有代表性的著作。对收入的书,均按统一的体例加以点校。第一辑收录了《论语正义》、《周礼正义》、《礼记集解》等十三种。
    中华书局的“历史史料笔记”丛刊系列收录了从唐代到清代的笔记体史料,内容庞杂,涉及历史评论、市井见闻、哲学思辨、文字训诂、乐理戏曲等诸多方面,大多生动有趣,又能补史籍之阙。
    第一辑还收录有一些诗文总集,如《全宋词》、《全唐书》、《元史选》、《先秦汉魏晋南北朝诗》等;收录了“中国古典文学基本丛书”中《李太白全集》、《杜诗详注》、《徐渭集》、《柳宗元集》等十余种;收录了“理学丛书”、“中国史学基本典籍丛刊”、“中国历史文集选刊”、“佛教典籍选刊”、“学术笔记丛刊”“历史纪事本末”中的内容。同时收录了政书、小学、史评、诗文评等多类古籍整理品种。
    特色功能
    ● 阅读导航
    左侧通过导航栏可以方便的选择图书。右侧在检索结果、文本、原书版面图中可以方便切换。


    ● 图文对照
    本产品不仅包含原书全部内容,并且提供原版图像与文字的全面对照,页码一一对应,读者在浏览的过程中可通过点击图标对应到图像,从而随时进行查检和引用。


    ● 方便的检索
    ·人名异称关联
    本产品在繁简、异体字关联检索的基础上,整理收录了二十五史人名索引,从而增加了人名异称的关联,人物检索更加灵活全面。关联词表还会在后续版本中不断扩充。



    ·分类检索
    由于本产品完全保留了古籍点校成果,故用户在检索时可勾选正文、校注、书名、专名、标题等分类选项锁定范围,使结果更为精准。
    ● 引用格式自动生成
    用户可以在选中要引用的文本后右键选择引用选项,系统将自动生成带引用出处的文本供用户粘贴使用。
    辅助功能
    ● 联机字典
    目前自带联机字典选用的是中华大字典,同时提供关联字的搜索结果,用户可以通过点击上方状态栏的联机字典按钮或右键选择的方式进行单字的查询。
    ● 纪年换算
    为方便读者的阅读,本产品配置了纪年换算功能,用户可通过直接输入年份、干支查询,也可以通过关键词,如时期、帝王、年号等进行筛选查询。
    ● 笺注书签
    用户可以在任意一个书页的位置通过点击右键添加书签,并且可以输入相关笺注,方便日后的浏览与使用。
    优势
    ● 内容质量佳
    本产品所收录的书目版权皆中华书局自有,大多为古籍整理精品,在学术界享有广泛赞誉。
    数字版包含原书全部信息,保留了专名线、校勘记等整理成果,原书扫描图像页与数字文本相对应。便于读者查看原书版式、核查原文。
    ● 数据质量高
    本产品在数据整理的质量高,并在加工中进行了数字化编辑,因此在一定程度上数据质量相较纸书更优。
    ● 使用方便
    系统提供了方便的导航与检索功能,提供了联机字典、纪年表等辅助工具,提供了人名的关联词表、笺注笔记、自动加注引文出处等功能。
   “中华经典古籍库”是中华书局首次推出的大型古籍数据库产品,第一辑收录了260余种中华书局出版的整理本古籍图书,涵盖经史子集各部,包含了二十五史、通鉴、新编诸子集成、清人十三经注疏、史料笔记丛刊、古典文学基本丛书、佛教典籍选刊等经典系列,总计约1.5亿字,后期将不断递增文献数据,计划每年推出一辑,供读者选购。
   “中华经典古籍库”为广大读者提供了丰富的古籍数字化阅读、检索服务,提供了必备的辅助工具,特别提供了数据与原书图像的对照,方便读者了解版式信息,省去了读者核对纸书时的麻烦,为读者带来便利。
   “中华经典古籍库”的出版响应了学界一直以来的要求,中华书局这一百年经典品牌第一次走向数字出版。中华书局近百年来整理了数千种古籍,其内容质量远超前代,在海内外在海内外享有广泛的声誉。古籍库的将这些优质古籍整理资源通过信息技术聚合在一起,极大的提高了读者使用古籍的效率。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 全屏 打印 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多