分享

学苑 | 徐海:数字化词典可实现“量身定做”

 garyhyz 2016-04-16



词典的知识性、权威性和实用性决定了其文化、社会和教育功用。词典是人类文化传承和语言交流不可或缺的工具,法国的《法兰西学院词典》和英国的《牛津英语大词典》等历时词典,都是从民族和国家的高度记录本族语语词,规范用法,维护语言的纯洁性。在某些国家,词典的地位甚至与《圣经》相当,它们是语言的仲裁者。在多起涉及语言争端的案件中,法庭均以词典为依据。
词典同时发挥着重要的社会功能,所收录的词语和用法折射出某个时代的社会道德和价值取向。而从古至今,词典最重要的功用莫过于信息查询、知识获取等。



《牛津英语大词典》纸质版



1
词典的“数字化革命”拉开序幕

随着出版媒质和载体的变化,词典大致经历了四个阶段:手工书写阶段、印刷阶段、计算机时代和数字化时代。印刷术的发明,使得词典可大量发行,开始树立词典的权威性,并扩大其社会和教育功用。而20世纪下半叶,计算机开始广泛应用于各行业,给词典编纂带来了革命性的变化。这一时期,计算机语料库逐渐取代卡片资料库,词典编纂者可从“无害的苦役”中解放出来。词典编纂者不用再为编纂中所需语料犯难,出版周期相应缩短。
无论从语料的规模、覆盖面、典型性或是平衡性而言,计算机语料库均优于传统的卡片资料库,而语料库检索技术的发展不断为词典编纂增添活力:KWIC检索形式,可方便词典编纂者观察词的用法;Word Sketch Engine检索则利用语料统计数据直接归纳词语的用法;FrameNet检索更进一步,对词的语义敏感,大大提高词语的语法、语义信息的提取程度,使词典编纂逐步实现半自动化。在这一时期,手持式、光盘版和在线电子词典也开始出现,不过,这些电子词典主要是纸质词典的翻版。
进入21世纪,数字化浪潮席卷整个出版行业。在英国,纸质词典的部分阵地开始被攻陷。英语世界的经典权威词典——《牛津英语大词典》网络版的普及让纸质版的销量大减,2010年,出版商决定放弃纸质版,而改为发行收费的网络版。2012年3月,已有244年历史、被誉为“百科全书之父”的《大英百科全书》也顶不住了,宣布停印纸质版,今后将只提供电子版。之后,麦克米伦出版公司宣布,自2013年起将不再出版纸质词典,而改为在线电子版。在我国,拥有近百年历史的《辞海》宣布,2014年第七版修订之际,将与时俱进,实现数字化转型。另一部拥有极高声誉的《英汉大词典》也于近日宣布,第三版修订要顺势而为,全面进行数字化升级和改造。可以说,继词典“语料库革命”之后的“数字化革命”已经拉开序幕。



《牛津英语大词典》网络版界面



2
数字化词典为用户提供定制服务

与纸质词典相比,数字化词典明显有几大优势。首先,存储空间发生巨大改变。出版篇幅已不再约束词典内容的展现;编纂者不必为节省篇幅而囿于词典所特有的缩略语,而犹豫如何删减词典内容;读者也不必担心大部头词典不易携带:手机上一个小巧的APP可替代一部甚至多部大部头词典。
其次,检索方式更加便捷。除传统的查询方式外,模糊查询、语音查询、全文查询等都可供选择,词典中的任何词形、内容均能快速检索。
再次,大数据以及移动互联网在编纂中的应用,使得词典内容和呈现形式发生巨大改变。未来的数字化词典类型越来越模糊:一部数字化词典可同时兼有语文词典、百科词典、专科词典、百科全书等功能。数字化词典不仅包括静态的词义解释、插图等传统内容,而且可发音,可采用超链接形式,呈现动画、视频以及相关的百科知识等。
最后,数字化词典可根据用户差异性需求提供个性化的定制服务。词典中某些信息对于某些用户而言是必需的,而对另外一些用户而言则是冗余的。词典当中呈现的信息并不是越多就越好,应当与用户当前的查询需求相匹配。数字化词典应能依照特定用户的实际需求而提供“量身定做”的信息。
词典更新周期加快,是又一个鲜明的特点。传统的词典编纂是一门遗憾的艺术,这正如英国词典之父塞缪尔·约翰逊所说:“任何一个别的作者均可指望得到赞赏,词典编纂者却只能企求免遭指责,就连这种消极补偿,得者也极少。”纸质词典中所发现的问题只能待若干年后的下一版加以修订。即使词典新版本发行,读者也未见得愿舍弃旧版本而购买新版。如今,数字词典可以随时更新,通过移动互联网,读者能享受及时的信息更新服务。
读者还可直接参与词典编纂,与词典主编线上、线下互动。维基百科等即是通过众源(crowdsourcing)方式编纂的。据悉,《英汉大词典》第三版的修订也将“接地气”,拟邀请感兴趣的读者通过微信平台提供第一手的新词、新义、新例。




几种常用的词典APP界面



3
未来数字化词典更注重用户体验

在全球信息爆炸的时代,为满足快速膨胀的用户知识服务需求以及逐步实现知识型工作自动化,词典编纂应当实现数字化,突破纸质词典条目的平面性、静态性和孤立性,深度挖掘条目所含的知识点,兼容与整合相关数据库数据,构建具有立体性、动态性和关联性的知识系统。为此,词典中的数据应碎片化(即离散化)和结构化,支撑词典内容的动态重组。
对于出版机构而言,应集中建设四大系统平台:数字资源管理系统平台、基于XML的网络协同编纂系统平台、多元发布系统平台和在线知识服务系统平台,从而实现全流程的网络化和数字化。对于词典研究者而言,应更新研究课题和研究手段。例如,词典XML标注、DTD的统一、数据重组、关联链接、模糊查询以及呈现空间等一系列问题都应摆到议事日程上;研究者可考虑应用后台日志文件、眼动仪等先进手段调查词典用户的查询行为和词典需求。
移动互联以及知识型工作自动化是词典数字化转型的主要推动力。未来的数字化词典绝不是现有纸质词典的翻版。动态重组知识信息,包含丰富的多媒体内容,具备强大灵活的检索功能,提供定制化服务,注重用户体验等都是未来数字化词典的特点。

本文来源:《中国社会科学报》,2014年12月4日。封面图片及本文图片来源于网络。点击“阅读原文”,可进入中国社会科学网。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多