配色: 字号:
汉字学概要(北师大精品课程)07
2012-01-16 | 阅:  转:  |  分享 
  
第七章汉字与信息处理

?

我们正处在信息革命的新时代,各种信息在人类社会生活中的各个领域正起着越来越重要的作用,信息的存储、加工和传递的手段日益现代化,计算机技术得到了更为广泛的普及和使用。语言文字是信息的最主要的载体,因此,语言文字和信息革命有着不解之缘。信息革命中的绝大多数信息都要通过语言文字这一载体来储存、来加工、来传递。这样,仅有四十多年历史的计算机技术便向已有六千年左右历史的汉字提出了挑战。

世界上第一台电子计算机1946年诞生于美国,之后的短短四十多年里,计算机技术已经渗透到国民经济的各个领域,作为二十世纪最伟大的发明,计算机已经获得了非常广泛的应用,特别是INTERNET的出现更使其应用达到了前所未有的高潮。从某种意义上说,计算机的发展速度和应用水平,已经成为人类进入信息化社会、国家走向现代化的一个重要标志。

但是众所周知,计算机在我国的推广应用要比西方发达国家落后许多年,除了经济基础和科技发展条件的制约之外,一个很重要的原因就是汉字进入计算机要比拉丁文字困难的多。因此,如何使计算机具备汉字处理能力,便是一个亟待解决的技术难题。

我国在六十年代末期就开始对汉字信息处理进行探索和实践,在经过三十多年不懈努力之后,已经在许多研究领域取得了突破和进展。从六十年代的汉字电报译码机、七十年代的新型的汉字输入输出设备,到八十和九十年代的各种基于个人计算机的汉字信息处理系统以及用微处理机控制的汉字终端,汉字信息处理的研究成果,已开始在事务管理、企业管理、科技情报检索、机器翻译、人机对话、汉字编辑排版、咨询服务、公用事业、计算机辅助教学、计算机通信网络、办公自动化等方面得到推广和应用,这些都必将对我国的现代化建设产生深远的影响。

如果说在计算机汉字信息处理初期,汉字如何进入计算机是亟待解决的技术难题的话,那么在进入九十年代以后,随着汉字信息处理技术应用的不断深入,汉字如何规范地进入计算机就成为主中之主、重中之重的难题了。因为计算机的日益普及,已经使得计算机的应用成为一种文化——计算机文化,这种文化在切合社会发展的同时,伴随着汉字在计算机上多种不规范的使用,已经产生了一些负面影响。为了消除这种不良影响,就应该在汉字规范地进入计算机或在汉字信息处理的规范化方面采取有效措施,加以解决。否则,技术虽然进步,文化却遭到破坏,这是得不偿失的。

?

第一节汉字信息处理的过程

?

为了了解汉字与信息处理的关系,首先有必要了解已经成熟的汉字信息处理的过程。通常汉字信息处理的过程分为三个阶段:(1)汉字信息的输入;(2)汉字信息的处理;(3)汉字信息的输出。三个阶段的具体处理过程可由图11.1描述。其中汉字信息的输入是通过各种输入设备完成,汉字输入设备及其设备驱动程序负责把汉字的外部码转换为处理系统识别的内部码。目前除了语音输入、字形输入和键盘编码输入外,还有通过通信设备和文件交换设备把汉字信息从一处传输到另一处。汉字的信息在机器中(指处理系统)通过特定的程序(软件系统)进行加工,如编辑、排版、排序等,最后按照用户的要求进行输出。汉字的输出是把汉字内码转换成汉字外部字形和字音信息的过程。输出设备驱动程序通过汉字语音库、汉字字形信息库(简称“字库”)等加工完成后的汉字信息输出到显示输出设备、打印输出设备、语音输出设备上,同时,也可通过通信设备(如FAX、MODEM等)、文件交换设备把处理、加工完后的汉字信息输出到其他地方。

?

?

?

?

?

?

?

?

上述三个阶段中,汉字信息的处理与汉字信息的输出对于一般用户而言,无需了解内部实现机理,只要能够应用即可。而与用户最直接相关的就是如何将汉字输入到计算机中,目前解决的方法有三种:第一种是用键盘将汉字输入计算机,称为汉字的键盘输入;第二种是用文字字形识别的方法将汉字输入计算机,称为汉字的字形识别输入;第三种是用语音识别的方法将汉字输入计算机,称为汉字的语音识别输入。

汉字字形识别输入就是通过与计算机联机的文图扫描装置,抽取汉字字形特征使印刷在纸上或写在纸上(或介质)上的汉字字符,由计算机进行辩识后形成汉字内部码的过程称汉字识别(CCRChineseCharacterRecognition)。目前使用得最多的扫描装置是光学字符阅读机(OCROpticalCharacterReader),因此汉字识别输入也称为OCR识别输入。汉字识别在学科上属于模式识别和人工智能范畴,在应用上是汉字信息处理系统的一种高速自动输入方式,它也是新一代计算机视觉智能接口的一个重要组成部分。汉字识别又分印刷汉字识别和手写汉字识别,后者又分为脱机识别和联机实时识别。

汉字的语音输入是通过与计算机连接的传声装置,利用语音分析技术,由计算机进行辩识后形成汉字内部码的过程称汉字的语音识别。汉字语音识别在学科上属于模式识别和人工智能的范畴,在应用上属于汉字信息处理系统的一种人机交互自动输入方式,它也是新一代计算机听觉智能接口的一个重要组成部分。

在汉字进入计算机的三种方式中,以汉字的键盘输入使用最广泛,相应的软件处理技术也最为成熟。汉字的键盘输入又可分为两类:一类是用字母、数字或符号将汉字编成代码的间接输入;另一类是以整字从大键盘上直接输入汉字。目前多用前者,后者极少使用。因此,汉字的键盘输入通常是指汉字的编码间接输入,汉字输入码就是为输入汉字而按照一定的规则,对指定的汉字集中的元素编制相应的代码,简称汉字编码。而汉字集元素映射到其他字符集元素的一组完整规则,则称为汉字编码方案。伴随着计算机中文操作系统的问世,汉字键盘输入技术在一段时期里发展非常迅速,如雨后春笋般地出现了各种汉字编码方案,形成了万“码”奔腾的局面。

数以百计的汉字编码方案和实用系统的出现,一方面体现出这一领域百花齐放的学术气氛,使汉字进入计算机之后成为比较优秀的信息载体,从而对中文信息处理现代化和普及计算机教育起到了良好的推动作用;但另一方面,由于各种编码方案(这里主要指根据汉字的字形特征进行编码输入的“形码”)在对汉字的拆分、部件的选取和归类上,见仁见智、自成体系,有的编码方案甚至从自己的需要出发,对汉字任意“肢解”,从而给计算机应用、语言文字规范、计算机教育和识字教育造成很大困难。因为没有明确的标准和规范,这种被动局面持续达十余年之久。

?

第二节汉字编码及其评价

?

没有明确的标准和规范可循,原因是多种多样的,一方面权威机构对信息时代的迅速到来缺乏足够的理论思想上的准备,另一方面在此研究领域认识上的不统一,缺乏对这一领域比较全面客观的认识。

受1986年权威机构组织实施的第一次汉字编码方案评测指标的影响,许多编码方案盲目地宣传自己编码方案的输入速度,在一段时间内,编码作者们纷纷组织录入竞赛并报道键入速度,用户购买时也倾向认为键入速度越快的方法越好。走向极端之后,有人甚至不切实际地公布过500字以上/每分钟的键入速度。实际上,不同的人、不同的工作性质有不同的要求,作为一般用户对输入速度只有一个最低的要求:30字以上/每分钟,而第一位的要求则是希望编码方案越易学越好,越不易忘越好。500字以上/每分钟的键入速度即使有,对大多数用户来说也是用不上的。事实上,有些输入方案提高输入速度是靠减少重码和增加非规则编码,即牺牲易学性来实现的。这种现象与权威机构的导向有关,纵观国家技术监督局制订的《通用键盘汉字编码输入方法评测规则》的19项静态与动态指标的评测项目中,直接和速度有关的就占了15项。导致这种结果的原因有二:第一,在汉字信息处理初期,使汉字进入计算机是主要目标,而汉字编码的规范性及易学性当时并未作为主要因素来考虑,同时能够量化且易于量化测定的指标只有速度;第二,计算机并未全面普及,汉字输入一直是少数专职操作员的专业技能,而衡量这种技能的高低只是单纯考虑输入速度并不考虑其他因素,例如使用者所耗费的训练时间、不规范行为模式的形成、语言文字规范的丧失等等均被忽略。

有专家对此种现象迅速作出过反映,北京语言文化大学张普教授的《走出汉字键盘输入的三个误区》一文对汉字键盘输入的三种倾向“重码率越低越好、速度越快越好、词库越大越好”提出明确的纠正,应该说在很大程度上促进这一领域的良性发展,但是如何更为全面地认识和评价汉字编码方案则是许多专家学者所思考的问题。

北京师范大学何克抗教授及其所领导的课题组在承担国家教委八·五重点攻关课题《全国中小学教学用汉字编码规范与计算机输入系统研究》时曾提出过汉字编码的性能指标体系。

要实现一个理想的汉字编码方案及计算机汉字输入系统,应该满足下列指标体系:

⑴规范性

A.规范的音码编码方案应符合国家颁布的《汉语拼音方案》;

B.规范的形码编码方案应符合汉字结构规律和国家语委颁布的有关语言文字规范;

C.如果研究的音码和形码方案希望在中小学也能推广使用,则还应符合语文教学规律和符合国家教委制定的《全日制小学语文教学大纲》中有关拼音和识字教学的要求;

D.音码和形码方案的实现均应遵循国家技术监督局(前国家标准总局)发布的《信息交换用汉字编码字符集》的有关规定。

⑵易学性

A.编码规则简单、明确,部件与键位的分布科学、合理,易学易记;

B.对汉字的拆分规则和编码规则符合人们对汉字的认知过程,掌握编码方法所要求的知识能与中小学原有认知结构相吻合;

C.学后不易忘记,间断使用时易于恢复;

D.规则的二义性小、码表与编码规则的符合程度高;

E.字量升级时,编码方法与规则不变;

⑶快速性

单纯追求高速度并不是一个理想编码方案的要求;但是既然作为一种汉字输入方法,如果达不到较高的输入速度,缺乏应有的效率,也是没有意义的.因此,快速性是汉字编码方案必须具备的一项基本指标.

快速性的客观指标分为两类:

①???编码方案的指标评价

A.静态字、词平均码长;

B.静态字、词重码率;

C.静态键位分布系数等;

D.不等长编码技术;

②???软件系统的指标评价

A.高频先见技术;

B.字、词混合输入(无需键位切换)技术;

C.重码自动区分、词组自动编码等智能技术;

⑷兼容性

在计算机系统中实现汉字编码方案时应考虑三个方面的兼容性即:

A.与国际通用键盘兼容;

B.与多种显示终端兼容;

C.与通用操作系统兼容;

当今计算机软、硬件产品已日益趋向国际化,过分强调汉字输入系统的专用性,不考虑与国际上流行的软、硬件相兼容的做法,不仅在国外无法应用,不利于国际间的交流,而且在国内也难以普及推广。

⑸一致性

编码规则应前后一致,贯彻始终,不能自相矛盾,同类结构的汉字应使用相同的编码规则,尽量避免随意性。

⑹完备性

信息处理用汉字集通常分三个层次:基本集(含国标一、二级汉字共6763个),ISO-IEC大字符集(包括基本集和辅助集,共20902个汉字)和全汉字集(包括全部汉字约6000个左右)。

由此可见,要实现一个理想的汉字编码,通常要满足快速性、易学性、兼容性、规范性、一致性及完备性等六个方面的要求。这些要求的重要性并不是均等并列的,而是针对不同的社会需求和使用对象而有不同的侧重。对于专职操作员和打字员,往往把快速性放在首位,在此前提下考虑易学性,而对其他要求则可放在次要地位;对于教师、作家、管理人员这类非专职操作员来说,显然易学性指标是首要的,在此前提下,考虑快速性,而对其他指标则可放在次要地位;对于某些专门应用领域,如大型图书资料检索、历史文献与古籍整理,以及古汉语研究等等,由于这类应用需要大字符集汉字的支持,所以必然要把“完备性”放在首位(如前所述,完备性是指编码方案不仅能支持基本集汉字的编码,还能以统一的规则支持大字符集乃至全汉字集的编码),在此前提下快速性与易学性,而对其他指标则可不作要求;对于面向广大中小学生的教学应用来说,为了保持祖国语言文字的纯洁和统一,促进中小学语文教学质量的提高,在编码设计中显然要把规范性放在首要位置来考虑,在此前提下努力满足易学性、快速性、兼容性等指标的要求。总之,对编码方案的设计离不开对社会需求的分析,离不开具体应用领域和使用对象。但是,不管是对哪一种应用领域和使用对象,易学性和快速性这两项要求总是最基本的和不可缺少的,而规范性则更是非常必要的。随着计算机应用的日益普及和深入,对编码方案的规范性要求更是迫在眉睫,如何做到规范,对哪一环节加以规范,则需要认真分析和研究。

?

第三节信息处理用汉字部件规范

尽管汉字编码方案有数百种之多,但是各种编码方案的设计过程却基本一致。不考虑音码,任何形码方案的设计实际上均包含四个环节,这四个环节环环相扣、彼此衔接构成一个完整的体系。这四个环节分别解决下面四个问题:(一)部件如何选取;(二)部件如何分类;(三)汉字如何拆分;(四)汉字如何编码。

部件的选取是指,如何从组成全部汉字的所有部件中挑选出适当的数量来作为形码的基本部件。

部件的分类是指,如何将第一环节中已选定的数百个基本部件进行合理分类,使之能较均衡地分配到数十个码元之上。之所以要对部件进行分类,是因为系统的兼容性要求采用国际通用键盘来实现汉字输入,通用键盘只有26个字母键可充当码元,加上数字键也只有30来个,而基本部件却有数百个。因此,能否建立一个科学的部件分类系统对于一个形码方案是否易学易记,是否有较低的重码率,即对于解决易学性与快速性的矛盾有至关重要的意义。

汉字的拆分是指,如何按照汉字的结构规律与构字方式将一个合体字拆分为若干个基本部件和单笔部件。

汉字的编码是指,如何将上一环节中已拆分出的基本部件和单笔部件按照一定的规则进行编码,以便通过键盘键入相应部件的代码,从而达到输入汉字的目的。

从上述形码设计的环节分析不难看出,部件选取和拆分的不同,正是各种形码方案区别的关键,而且从目前国内流行的形码方案中,对部件数量的选取,少的取50个左右(如五十字元和安徽声数码),中等的取100-200个(如全息码取100个,王码取150多个,郑码取170个,部首码取189个),多的取300个以上(如表形码和认知码)。对部件的选取原则也各不相同,如郑码的部件90%选自《汉字统一部首表》,其余10%是惯用的组字构件;部首码的全部部件选自新华字典的189部首;有的编码作者则主张形码部件应由通用部首中的独体字、呈相交笔画的偏旁、简化偏旁以及通用字表中三笔画以内的字等四部分组成;还有的编码作者干脆根据自己处理重码的需要任意选取部件。这也正是造成“万码奔腾”混乱局面的主要原因之一。那么现代汉字的构形到底有没有理据,汉字的部件到底能不能规范?答案是肯定的。

一、汉字科学对现代汉字部件拆分的指导

要想进行现代汉字的部件规范,首先必须树立汉字构形规律性的思想。

在汉字构形是否存在规律的问题上,存在着两种不同的看法。一种看法认为,古汉字是表意文字系统,每个汉字的构形都是以来自词义的字意为依据,是可以解释的。这种可解释性,称作理据或字理。现代汉字虽经过隶变、楷化阶段,但并没有改变它的基本性质,大多数字形仍具有理据,少部分字形构字理据虽不太明显,但形与理没有矛盾,完全可以参考历史分析出来。其中极少部分汉字字形与意、源发生矛盾的,又可以放到构形系统中进行优化处理。共时平面上的汉字具有内部的系统性。汉字与汉字之间存在着相互的联系,每个汉字在系统中具有自己的位置,并受到相邻汉字的制约。所以,对于汉字构形的分析,从个体看,有字理作为依据;从总体看,有系统中的前后左右关系加以制约,是有客观规律的。部件规范应当是这种客观规律的忠实体现,而不是将一些人的主观意志强加给另一些人的随意行为。因此,在对现代汉字的部件进行规范时,必须定出符合规律、符合实际、符合优化的操作性条例。

现代汉字是指书写现代汉语的楷书字,它是由历史上的隶书、楷书直接演变而来的,从个体字形看,它又是自甲骨文以来各代字形直接或间接积淀的结果。从科学测查和量化的情况看,这种汉字保留理据的比例仍然很高,而且,这种理据可以分析或追寻。

例如:小篆中的“勹”(bao)像人的两手曲形有所包裹的样子。凡从“勹”的字,多有圆曲、周遍、包裹、内聚等意思。而在现代汉字里,这一形体演变后,不像曲形包裹状了。但是,依靠组合和聚合,以群体作背景,仍能显示其构意。如包(婴儿在襁褓中,义为包裹)、匊(两手捧着细碎的米,义为掬起)、旬(日子经十而一度循环,义为十日)等。在组合的另一部分配合下,理据能够显现,甚至表现得更为明显。

又如,楷书的“四”在构字时是“网”的变形,它虽已失去网形,但却具有网意,为罟、罹、詈、置等提供理据;“矢”已不像一支箭,但却具有箭的意义,因而可以给矩、短、矮、矫等提供理据;“隹”已失去短尾鸟的形状,但却从语言中承袭了zhui音,因而可以给谁、椎、碓等字提供声音信息。

经过隶变时部件的粘合,加上受行书连笔的影响,原来的古文字基础构形元素产生了形体的粘连,有合二为一甚至合更多部件为一的现象。例如“辶”、“共”、“西”、“更”、“退”等字即如此。因此,在古文字的多部件合体字里,理据可以一直贯穿到最后一个层次。而在现在汉字里,理据大多数保留在一级部件的组合中,越到后面的层次,保留理据的数量越少。后来的偏旁、部首分析法就是适应现代汉字这一特点而产生的。当然,这对分析和讲解现代汉字提供了部分依据。

由于书写的缘故,笔画趋于平直后,一些原来形体与意义完全不同的独体字,一旦进入构字,便发生了形体异化,变为同形。例如,青,小篆原从“丹”,楷书从“月”;朔、期,小篆原从“月”,楷书仍从“月”;服、俞,小篆原从“舟”,楷书从“月”。在分析理据时,必须承认“月”这一部件分别来源于“月”、“肉”、“丹”、“舟”等不同的独体字。

反之,原来形体与意义都相同的独体字,一旦进入构字,由于部位的不同和受相邻部件的牵连,又可能异化为不同形体。例如:在“尉”中,“火”异化为“小”;在“光”中,“火”异化为“”;在“然”中,“火”异化为“灬”;在“赤”中,“火”异化为“”;在“黑”中,“炎”上部的“火”异化为“土”。但是,只要在分析理据时,承认“小”、“”、“灬”、“”、“土”在“尉”、“光”、“然”、“赤”、“黑”中都同源,都是“火”的变体,字理便仍在分析中起作用。

汉字构形理据的客观性及其可追溯性,免除了部件拆分的主观随意性,决定了拆分正误的可辩性,也保存了它历史文化的本来面貌,所以,部件规范必须使依理拆分充分体现。

例如,两部件的“们”、“引”、,三部件的“鸿”、“靴”(其中“江”、“化”为二次拆分),四部件的“啊”、“姿”(其中“阿”、“次”为二次拆分,“可”、“欠”为三次拆分),五部件的“器”(为一次拆分),六部件的“僵”(“畺”二次拆分)。这些拆分都是按理据、依组合层次的反向进行的。

又如,“赤”的字形原从“大”从“火”,“大”异化为“土”,“火”异化为“”,但“土”与“”仍明显区别为相接的两个部件,因此,参考字源将其拆分为“土”、“”,既合字形,又合字理。

但是,在下面两种情况下,依理据拆分是无法贯彻的:

⑴由于现代汉字的简化与笔画的形成确实有一部分形体既不保留理据,又由于字形与意、源发生矛盾,而难以重现理据。

例如“甫”,原从“用”,“父”声,“父”即“斧”的古字,斧标志权力,所以,“甫”是男子的美称。在小篆中“父”与“用”已相交合为一形,无法分析。

又如“至”,甲骨文以一支箭(矢)射中目标会“到达”之意,《说文》小篆把箭头变成较大的弧形而失去“矢”形,解作“鸟飞从高下至地也”,对理据的讲解已很勉强。楷书将箭尾的上端拉平成横;曲处写作“厶”,下变“土”,外形成为三个相接部分(一、厶、土),与原来的理据毫无对应,难以重现理据。

再如,“舂”原像两手(廾)捧杵(午)在臼中舂米,是一次性合成的四部件字。隶变、楷化后,“午”与“廾”粘合成“”,本身是非字部件,不具音义,又不能拆分,无法分析理据。再加上“”与“春”、“泰”的上部同形而不同源,归纳字意也不可能,成为一些文字学家所称的“记号”,使它们所构的字不再能重现理据。

⑵前面说过,一部分汉字到楷书阶段时,理据仅仅保留在第一构形层次里,以后的层次理据有丧失现象。但是,拆分下来的部件,其信息量和区别度都要符合信息处理的需要,部件的总体数量也要尽量控制,因此,部件在一次拆分以后,还需要再度拆分。

因为有这两种情况的存在,在有理据拆分之外,还必须补充以无理据拆分。无理据拆分仍然不能是随意的,必须依照汉字形体的特点和部件的系统性来进行。具体做法是:

理据应合而楷书分离的,如“冓”,原像交构连接之形,上下本不可分,楷书将上部与下部分别楷定,成为两个相接可分的部分;又如“朋”,甲骨文像两串相连的贝串,小篆像鹏鸟的羽翅,都相连不能分,楷书以两个相离的“月”字构形。在这种情况下,字形有拆分的可能性,这就是拆分规则所说的“相离可拆”。但“可拆”不等于“必拆”,是否拆分,要看拆分后的部件有没有归纳的可能性,是否有利于部件系统的优化。

理据应分而楷书交织、粘合的,这里又分两种情况:

⑴原有部件完全交融,形体完全成为笔画的直接组合。如“甫”、“史”、“吏”等,既看不出拆分的可能性,又没有拆分的客观依据,应视为新的独体字。

⑵少部分现代汉字,本为古文字描写性的隶定字楷化而成。它们的构形与意、源本是一致的。例如“秉”,原取“手握禾苗”之意,“禾”与“”(“又”的变体)是相交组合;又如“”,小篆取“日出东方”之意,“日”插在“木”中组合,“束”、“口”像捆绑状,与“木”相交等。这种穿插结构原是多体象形的遗存,楷书象物性消失后,部件交合的原因已无法解释,其实与第一种情况已没有什么两样。这时也应尊重字形,不再拆分。

以上两点就是拆分规则所说的“交重不拆”。制订这条规则,还为了在统一的原则下控制拆分的下限。一旦允许交重可拆,无论从什么地方拆、拆成几部分,都无法避免如本文开头所举之例那样的随意性。另外,“交重可拆”还会破坏基础部件集的系统性。

在有理据拆分中,字形和字理是一致的,因此属于依形拆分。在无理据拆分中,字形与字理发生矛盾而采取尊重字形的原则,因此也属依形拆分。尽量尊重理据而不违背字形,其目的是尊重历史而不复古,立足现代而合乎规律,这样做,既维护了汉字的历史传承性,又维护了汉字共时的系统性,使汉字信息处理用的部件在符合规律的基础上取得一致。

形与理的一致性,反映了汉字历史与现状的契合,而形与理的矛盾则反映历史与现状在发展中的变革。把形与理放到两个层次中去处理,目的是为了从现代的实际出发,同时又尊重历史与传统。只有这样做,诸多矛盾在不同层次、不同维度之中才能化解,使部件系统达到优化。

自觉遵循汉字字身的构形规律性,同时因势利导地调整汉字的社会约定性,立足现代,尊重历史,许多问题才能得到合理的解决。这是汉字部件规范所显示出的更为深刻的意义。

?

二、部件规范的实施步骤与标准

理解了汉字构形的规律性以及明确了汉字部件规范的意义,那么接下来要做便是规范部件的具体实施步骤。1997年12月国家语言文字工作委员会颁布了《信息处理用GB13000.1字符集汉字规范部件》。本节从以下几方面就其相关内容来具体介绍:制订规范的可行性、制订规范的基本原则、汉字构形原理及相关的概念术语、部件拆分的原则和部件归纳的原则等。需要说明的是,本节及下节内容均选自国家语委《汉字部件规范》研制组“关于制订《汉字部件规范》的若干问题”论文。

(一)制订规范的可行性

⑴规范性是评价汉字编码及其它信息处理系统的重要标准,也是使用者,特别是中小学教育界的使用者,选择输入系统的首要条件.过去由于缺乏部件规范,使编码的制订者和计算机的使用者缺乏衡量与选择的标准,造成了很多混乱.因此,制订规范已经成为大家共同的要求,具有广泛的社会基础.

⑵在有关GB13000.1字符集的字形规范、笔顺规范、基本术语规范等相关的规范中,有的已经制订,有的正与部件规范同步制订,这些都为部件规范的制订工作打下了良好的基础。

⑶进入90年代以来,有关计算机编码技术和汉字构形规律的理论研究已取得了实用性成果,使部件规范的制订具有科学的理论依据。

⑷GB13000.1大字符集中的西文操作系统和汉字部件自动拆分软件及其他工具的研制成功,使研究、制订部件规范有了高效可靠的技术手段。

⑸信息处理界与语言文字学界的长期合作,促进了彼此的交流、沟通与理解,使制订部件规范所需的学科交叉和理论交融有了比较成熟的条件,也为部件规范的制订准备了具有合作精神的专家队伍和专业人员。

(二)制订规范的基本原则

中文信息处理用汉字部件规范必须在两个方面具有严密的科学性。首先,必须符合汉字构形规律;其次,必须在部件的信息量和系统性上符合信息处理的需要。只有在这两方面是科学的,才能避免在部件规范形成中易出现的主观随意性,使最终成果既具有规范意义,又具有应用价值。

部件规范所确立的是用以衡量中文信息处理工作规范性的基础部件及其使用规则。它在拆分下限和拆分与归纳原则上应有严格的限定性;而用于编码设计时应在不违背规范的基础上,给出自由创造的余地。这两方面应在《基础部件表》和使用规则中体现。

为保证部件拆分与归纳的科学性,必须在理论上和实际操作中处理好汉字形体与理据的关系、历史与现实的关系、普遍规律与特殊情况的关系。研制组对上述三种关系的基本认识是:我们所要处理的汉字是现代汉字,因此,必须从现代汉字的实际出发。但是,现代汉字是从历史汉字传承而来的,当现代汉字的字形规律不够清晰时,必须参考历史,从字源上更深入地了解其构形规律。汉字属表意文字,其中相当一部分现代汉字构形是可以分析理据的,另有一部分在参考字源后,仍可追溯其理据。在这两部分汉字中,理与形是一致的,从理也就是从形。只有少部分现代汉字的理据不能直接分析,追溯历史后,理与形仍产生矛盾。当处理这些汉字时,应从现代汉字的实际出发,从形不从理。从总体看,汉字的构形是有规律的,又是成系统的。但是,由于现代汉字是变动不定的开放系统,GB13000字符集中的汉字又有一部分是日、韩专用汉字,必然会有游离于系统之外的特殊情况。对于这些特殊情况进行处理时,应尽量选择既不违背实际情况又适应总体系统的最佳方案。

正是基于以上认识而形成了制订部件规范的基本原则,即“从形出发,尊重理据,立足现代,参考历史”。

(三)汉字构形原理及相关的概念术语

⒈汉字结构分析

⑴结构理据

根据字源或参考字源,从汉字的部件组合中分析出的造字意图称结构理据。

例如:“旦”的理据是像太阳(日)从地平线(一)升起。“架”的理据是从“木”、“加”声。

现代汉字中有一部分字无法直接分析造字意图,或形体与字源发生矛盾而无法参考字源分析理据。

⑵结构层次

汉字按理据由多个部件组合时,大部分是依层次进行的。在每个层次中,一般为两部件组合。少部分为一次性多部件平面组合。

例如:“蓓”、“蕾”为多层次组合,各层均为两部件。“器”、“暴”为一次性多部件平面组合。

⒉部件拆分

将汉字拆分为部件称部件拆分。

⑴拆分依据

指将汉字拆分为部件的理论或现实根据。根据结构所进行的部件拆分,称有理据拆分;当无法分析理据或理据与字形发生矛盾时,依照字形所进行的部件拆分,称无理据拆分。

⑵拆分程序

指将汉字拆分为部件的次序。对层次结构的汉字递次进行有理据拆分,称层次拆分;对平面结构的汉字进行一次性的有理据拆分或无理据拆分,称平面拆分。

⑶过渡部件

进行汉字层次拆分时,在完成最后一步拆分之前所拆分出的合成部件,称过渡部件。

⒊部件归纳

将部件归纳成组的工作称部件归纳。部件归纳分同形部件归纳、主形与变体的归纳和形似部件归纳三方面。

⑴同形部件

形体完全相同的部件,不论其意源是否相同,均称同形部件。

⑵主形部件

在各组中具有代表和称说其它部件作用的领先部件称主形部件。

⑶变体部件

与主形意源相同、形体略有差异的部件称变体部件。常见的变体部件有:

A.因部位不同或组合方式不同而书写发生变异的变体部件。例如:“爪”,在上方写作“爫”;“川”,在下方写作“”,在中间写作“巛”。

B.在组字时省减某些部件或笔画而与主形功能仍然相同的变体部件。例如:“衣”与“”;“豕”与“”。

C.在组字时重加某些部件或笔画而与主形功能仍然相同的变体部件。例如:“长”与“長”。

D.放置方向不同而与主形功能相同的变体部件。例如:“八”与“丷”。

⑷形似部件

与主形部件形体相似,而意、源不同的部件称形似部件。例如:“子”与“孑”、“孓”。

⑸部件组

综合考虑部件之间的形、意、源关系,将主形、变体和形似部件归纳在一起所形成的组合称部件组。部件组是部件系统中最基本的组合。

(四)部件拆分的原则

⒈不违背形体的原则

⑴交重不拆

例如:“串”不拆分为“中”、“中”;“东”不拆分为“七”、“小”。

⑵相离相接可拆

例如:“明”拆分为“日”、“月”(相离);“名”拆分为“夕”、“口”(相接);“韭”拆分为“非”、“一”(相接)。

⑶极少数不影响结构和笔数的笔画搭挂,按相接处理。

例如:“孝”为“子”搭挂在“”上,可拆出。

⒉遵照结构规律的原则

⑴字形合乎理据的,进行有理据拆分。无法分析理据或形源矛盾的,依形进行无理据拆分。

例如:“分”拆分为“八”、“刀”(根据理据,有理据拆分);“赤”拆分为“土”、“”(参考字源,有理据拆分);“亦”拆分为“亠”、“”(无法分析理据,无理据拆分);“虎”拆分为“虍”、“几”(形源矛盾,无理据拆分)。

⑵在进行多部件的有理据拆分时,应依汉字组合层次进行。

例如:“蓓”的第一次拆分为“艹”、“倍”,第二次拆分为“艹”、“亻”、“”第三次拆分为“艹”、“亻”、“立”、“口”。

⒊相关对应的原则

⑴有对应关系的简化部件与繁体部件一般应统一处理。

例如:“讠”与“言”(简体不拆分,繁体也不拆分)。

⑵主形与变体,尽量统一处理。

例如:变体“肉”与主形“月”均不拆分。

⒋合理控制下限的原则

⑴两个以上的相离、相接部分,若其中任一个无构其它字的能力,则不再拆分。

例如:“西”不拆为“一”、“”(“”无构其它字能力);“黑”不拆分为“”、“灬”(“”无构其它字能力)。

⑵两个相离的对称部分,不分开用以构字的,不再拆分。

例如:“兆”、“竹”、“非”不再拆分。

⑶传统独体字和部首,以及构字能力较强或拆分后均为非字部件的,虽有相离或相接部分,不再拆分。

例如:“石”不拆分为“丆”、“口”;“禾”不拆分为“丿”、“木”。

⑷拆分出的部件中,有一个是单笔画的,一般应为有理据拆分。

例如:“太”拆分为“大”、“丶”;“生”拆分为“丿”、“主”;“犬”不拆分为“大”、“丶”;“自”不拆分为“丿”、“目”。

⑸最末一次拆分,不可拆成两个以上的单笔画。

例如:“刀”不拆为“”、“丿”;“刂”不拆为“|”、“亅”;“川”不拆成“丿”、“丨”、“丨”;“兴”、“氵”均不再三分;“”、“灬”均不再四分。

⒌综合衡量的规则

以上规则无法兼顾时,应权衡其利弊,综合处理。

(五)部件归纳的原则

⒈按形归纳的原则

⑴处在不同部位、大小不同的同形部件,均归纳为一个,不再分立。

例如:

豆----口着----羊

器----口归纳成口归纳成羊

谷----口羚----羊



回----口

?

⑵笔画变异的同一部件,变异的笔画与原笔画同类者,归类为不分立的部件;笔画不同类者,按变体归纳。

例如:“火”作左面偏旁时,捺改写为点,不再分立;“王”作左面偏旁时,横改写为提,不再分立;“木”中间一笔或为竖,或为竖钩,不再分立。

⑶意、源虽相同,但形体差异较大的部件,分立为不同部件。

例如:“火”与“灬”分立;“水”与“氵”分立;“手”与“扌”分立;“心”与“忄”分立。

⒉兼顾传统的原则

⑵传统独体字作部首时,因部位不同而写法相异,除形体差异较大者外,一般按主形与变体归纳。

例如:“示”(主形)与“礻”(变体);“金”(主形)与“钅”(变体);“食”(主形)与“饣”(变体);“衣”(主形)与“衤”(变体)。

⑵将意源不同的同形部件归纳为同一部件时,用不同的例字提示其部位与来源的差别。

例如:“口”的例字,“吐”、“扣”、“司”、“占”中“口源于口舌之口;“吊”中之口为讹变之形;“高”、“兽”、“豆”中之“口”源于象形号。

“厶”的例字,“私”、“公”中的“厶”同源不同部位;“丢”、“允”、“勾”、“牟”中的“厶”均为不同位、不同源的同形部件。

⒊简化部件系统的原则

⑴有对应关系的简体与繁体部件,按主形与变体归纳。

例如:“贝”与“貝”。

⑵组字字数极少的罕用部件,尽量避免单独成组。

例如:“孑”、“孓”依形归入“子”组。

⑶日、韩方提出的汉字的部件,不论归在哪组,均以“”标识。

⒋优选主形的原则

⑴非字部件与成字部件之间,以成字部件为主形。

例如:“八”(主形)与“丷”(变体);“文”(主形)与“攵”(变体)。

⑵繁体部件与简体部件之间,以简体部件为主形。

例如:“见”(主形)与“見”。

⑶上述两个条件无差别时,以组字能力较高、便于称谓的部件为主形。

例如:“土”(主形)与“士”(形似部件);“子”(主形)与“孑”、“孓”(形似部件);“人”(主形)与“入”(形似部件)。

?

(六)基础部件表的使用规则

《信息处理用GB13000.1字符集汉字部件规范》中的《汉字基础部件表》是对GB13000.1字符集中的20902个汉字逐个进行拆分、归纳与统计后制定的。表中共提供基础部件393组,包括主形部件和附形部件合计560个。详见附件《汉字基础部件表》和《笔画排序汉字基础部件检索表》附表。

《汉字基础部件表》的使用规则有以下两点:

1.基础部件不再拆分的规则

(1)《汉字基础部件表》中的部件均为基础部件,不得再行拆分。

例如:“非”不得再拆分为左、右两部分;“矛”不得再拆分为“矛”和“矛”。

(2)《汉字基础部件表》中的部件没有包容关系,不得将大部件拆分后归入小部件。

例如:“疒”不是“广”与“冫”的组合,不得再拆分为“广”和“冫”;“广”不是“厂”与“丶”的组合,不得再拆分为“厂”和“丶”。

2.基础部件可以组合的规则

《汉字基础部件表》中的基础部件可组合为成字部件使用,但不得组合出非字部件使用。

例如:可用“”、“由”、“八”组合成“黄”,作为部件使用;可用“自”、“田”、“丌”组合成“鼻”,作为部件使用;不得用“”、“由”组合成“”,作为部件使用;不得用“自”、“田”组合成“”,作为部件使用。

?

第四节汉字信息处理的未来发展

本章就信息处理过程中涉及到的汉字输入问题进行了讨论,并相应介绍了国家语言工作委员会最新颁布实施的《信息处理用GB13000.1字符集汉字部件规范》标准。从更广义的学科角度上讲,汉字与信息处理的内容远不止这些。仅从人工智能与自然处理的研究与发展领域来看,就已经产生汉语文本的分析与生成、汉字识别、语言识别与合成等方面的研究课题,而且这些研究课题在某种程度上已经取得较大的进展,以汉字识别为例,对印刷体汉字和手写体汉字识别的研究取得了实质性的突破,而且有很多实用性很强的产品投入市场,如印刷体与手写体汉字识别系统、语音识别系统、中文文稿校对系统等。这些产品的成功使用,一方面刺激了市场需求;另一方面也促进了这一研究领域的发展,使这些领域的研究引起更广泛的关注,这对学术发展与技术进步都是非常有益的。

但另一方面我们也应看到,由于一段时期以来,在世界范围内人工智能和自然语言处理整个研究领域的工作都处于一个低潮,这或多或少也影响到了汉字信息处理,要使汉字信息处理达到人们所期望的理想程度仍有漫长的路要走。

随着多媒体计算机时代的到来,纯以文字个体作为信息载体来阐述某种系统思想、方法,已经不能满足时代的需求了,因此可以通过声音、动画、图象、影像等多种媒体来表征。中华民族拥有五千多年的文明史,这些文明通过浩如烟海的古代典籍以文字的形式传承下来,继承和发展这些文明是当代人不可推卸的责任。但是如何继承、如何发展则不是仅凭一腔热血就可以实现的,需要认真、扎实的学术研究。

用系统论的方法对古代典籍的系统思想进行研究,并用系统工程化的方法通过多媒体计算机对这些系统思想进行阐述和表征,这对于我们理解先人的思想、继承人类文明以及促进社会发展都是十分必要的,仅从这一点来看,汉字信息处理在这一研究领域就有着十分广阔的天地可供驰骋。

反过来也应看到,信息处理技术也正在促进语言文字的研究和发展。信息技术不仅将改变我们的思想观念和研究方法,而且也必将对整个世界的经济结构、社会结构乃至生活结构产生深刻的的影响和变革。重视这种发展趋势,同时也重视汉语汉字本身的特异性质,才能在汉字与信息处理的研究与应用方面取得进展。

































14















?







献花(0)
+1
(本文系翰林 故事首藏)