分享

现代汉字属性的研究

 道2和 2020-08-11

作者简介孔祥卿,女,1966年出生于河北辛集,文学博士,现为中国文字学会会员,中国民族语言学会会员,中国民族古文字研究会会员,南开大学教授。

史建伟, 男, 1966年出生,河北省乐亭县人。南开大学汉语言文化学院副教授。

孙易,女,祖籍山东,1976年8月生于山西高平。现为中国语言文学系副教授、中国民族古文字研究会会员。

一、字频

文字是辅助性的交际工具,在交际过程中,有的字用得多一些,有的字用得少一些,呈现出一定的统计规律性。一个字在一定范围的语料中出现的次数,称为字的频度,即字频。字频统计对汉字研究和汉字应用都有重要意义。

汉字字频的统计工作从20世纪20年代开始,陈鹤琴的《语体文应用字汇》是最早的汉字字频统计研究。书中使用频度最高的前二十个字是:的、不、一、了、是、我、上、他、有、人、全、这、来、小、在、们、说、子、可、道。开始的统计是手工进行,目的是为识字教学,所用的语料范围也较小。经过80多年的发展,字频研究取得了长足的进步,统计的目的从识字教学扩展到信息处理;所用的语料从几十万字增加到两千万字;统计的项目从单纯的字频发展到多种数据;所用的手段从手工发展到计算机。

1977年,新华印刷厂编成《汉字频度表》,选用语料2160多万字,用手工统计,得到不同的字种数6374个,按频度由高到低排列成字表,共分《政治理论频度表》、《新闻通讯频度表》、《科学技术频度表》、《文学艺术频度表》、《综合频度表》五个表。每个表都分编号、单字、出现次数、累计数、累计数百分比五个栏目。这项研究成果成为《信息交换用汉字编码字符集·基本集》的主要依据。后来,1984年,贝贵琴、张学涛在原统计数据的基础上,用计算机重新计算,编成《汉字频度统计》,其中的《汉字频度统计表》,把汉字分为五级,统计如下:

1979至1985年,北京语言学院编成《现代汉语频率辞典》,这本辞典用人工和计算机相结合的方法,从词语应用的角度进行计量研究,同时兼顾汉字字频和组词能力的统计与分析。所用语料180万字。其中的《汉字频度表》,共有字种4574个,分级统计如下:

级别  序号     累计频率%

Ⅰ  1~100     47.33584

Ⅱ  101~1000   91.36559

Ⅲ  1001~2418   99.00023

Ⅳ  2419~4574   100.00000

前十个高频字依次是:的、一、了、是、不、我、在、有、人、这。

1981年,北京航空学院承担了文字改革委员会和国家标准局下达的现代汉语字频统计任务,利用计算机进行统计。《最常用的汉字是哪些?——3000高频度汉字表》(文字改革出版社,1986)就是这次统计的部分成果,全部成果汇编成《现代汉语字频统计表》(语文出版社,1992)。统计的语料总字数为1108万字,得到字种7754个。统计得出13个字频统计表:

1.社会科学·自然科学综合汉字频度表,收字1~7754

2.社会科学综合汉字频度表,收字1~7373

3.自然科学综合汉字频度表,收字1~6009

4.新闻报道类汉字频度表,收字1~4913

5.历史哲学类汉字频度表,收字1~5402

6.文学艺术类汉字频度表,收字1~6501

7.政治经济类汉字频度表,收字1~4888

8.文体生活类汉字频度表,收字1~4210

9.基础知识类汉字频度表,收字1~4426

10.农林牧副渔类汉字频度表,收字1~3688

11.重工业类汉字频度表,收字1~3619

12.轻工业类汉字频度表,收字1~4502

13.建筑运输类汉字频度表,收字1~3010

由此看到,不同的学科用字的情况很不一致,统计选用语料的范围非常重要,对统计的结果有很大影响。近些年,国内有很多家单位建起了大型语料库,今后的统计工作必须有大型语料库的支持,人工统计的时代已经一去不复返了。

通过对字频统计结果的分析,还得到了两条规律:

1.汉字效用递减率

1000常用字的覆盖率已达90%以上,增加到3000字时,覆盖率已达99%以上,以后无论增加多少字,其增加的覆盖率都只在1%。这个规律对于研制现代汉语常用字表和通用字表有指导意义。

2.常用字笔画趋简率

根据统计结果,最常用的字,其平均笔画较少,随着常用程度的降低,其平均笔画数成比例地增加。王凤阳从汉字历史也得出这样的结论:应用频率高的字一般地趋向简化。①这条规律对说明汉字的发展演变,指导汉字的简化工作,有重要意义。

二、字量

汉字的字数有多少?是个很难回答的问题。虽然各种字典中收的汉字已达几万字,但那是历代积累下来的,不是实际用字的量,而且其中有很多是异体、别体。现代汉语的用字究竟有多少,这是汉字定量研究的大课题。早在20世纪50年代,周有光就提出研制《现代汉语用字全表》的问题,可是《全表》只能解决定量的问题,还需要定形、定音、定序,合称“四定”,目前,有关部门正在研制《规范汉字表》。在此之前,先研制出常用汉字和通用汉字。

1988年1月,国家语委和教委联合发布《现代汉语常用字表》,共收常用字3500字,又分为一级常用字2500个和二级常用字1000个。经过检验,一级常用字覆盖率97.97%,二级常用字覆盖率99.48%。

1988年3月,国家语委和新闻出版署联合发布《现代汉语通用字表》,收现代汉语通用字7000字,包括《现代汉语常用字表》中的3500字。

区分通用字和罕用字、常用字的标准主要有四条:

1.字的频度

2.字的分布面和使用度

3.字的构词能力和构字能力

4.根据汉字的实际使用情况

基础教育的用字研究、对外汉语教学的识字研究都是在此基础上进行的。张卫国研究出《小学语文用字表》,包括字种3071个;② 陈良璜统计出小学各年级课本的生字量,六个年级合计3091字。③ 1990到1991年,国家汉办和北京语言学院联合研制了《汉语水平词汇与汉字等级大纲》,其中《汉字等级表》收汉字2905个,分为四级:甲级字800个,乙级字804个,丙级字601个,丁级字700个。其中有2485个字是《现代汉语常用字表》里的一级常用字。

此外还需要对专门用字进行研究,比如人名用字的研究、地名川字的研究、化学用字的研究等,如果这些专门用字不加限制,也会大大增加汉字的总量。

三、字音

理想的汉字应该是一字一音的,但是,汉字中有不少多音字,多音实际就是字无定音,需要根据上下文义来确定读音。

据统计,《新华字典》所收的8000多字中,多音字有828个,包含1857个读音。④ 《辞海》中收的多音字有2641个,其中一字二音的有2112个,一字三音的有422个,一字四音的有81个,一字五音的有18个,一字六音的有7个,一字八音的有一个,即“那”字。⑤ 《现代汉语词典》收字11000左右,其中一字多音的大约1000个。⑥ 《现代汉语通用字表》收字7000个,其中多音字625个,占总字数的8.9%;常用字和次常用字中多音字417个,占多音字总字数的67%,三分之二的多音字是常用字。⑦ 《汉字信息字典》收字7785个,其中多音字747字,占9.595%,其中二音字671个,占8.619%;三音字69个,占0.886%;四音字5个,占0.064%;五音字2个,占0.026%。⑧

以上的统计所用材料不同,结果当然会有差异。大体上说,现代汉字里的多音字约占总字数的十分之一。多音字的发展趋势是单音化,吕叔湘说:“一字一读是合乎文字功能的原则,因而也是深入人心的趋势。因此只有少数几个读音都是常常应用,势均力敌,才能长久并列,例如‘长’由cháng和‘长’zhǎng,‘乐’lè和‘乐’yuè。否则比较少用的读音很容易被常用的读音挤掉。”⑨

虽然多音字不可能消灭,但是可以不断地精简。我们的汉字整理规范工作应该通盘考虑,比如,在整理异形词、审定异读词时,应该以尽量减少多音字作为一个考虑的指标,汉字简化时的近音替代造成多音字的增加,就是考虑不周全的地方,今后应该避免。

四、字序

字序就是字的排列顺序。在文字的应用中,字典、辞典的排检都涉及到排序问题。字母文字的字序(实际是词序)由字母表的顺序决定,非常简单,又统一。而汉字是语素文字,字具有形音义三个方面,其排序也就有不同的方法。

目前大型辞书的排序法主要是两种:部首法和音序法。前者如《辞源》、《辞海》、《汉语大字典》、《汉语大辞典》,后者如《现代汉语词典》、《新华字典》。但是不管使用哪种排字法,往往都要配有两三种检字法,所以部首检字法、音序检字法、笔画检字法都是常用的检字法。

(一)部首法存在的问题

1.立部数量不统一

从东汉许慎创立540部首以后,历代的字书对部首进行了归并,到明代梅膺祚的《字汇》,减少至214部,以后的字书在这个基础上进行调整。现代的字书基本上都在200部左右,部首按笔画数排列,笔画相同的部首前后排列次序比较混乱。1983年制订的《汉字统一部首表》(草案),确定201个部首,按画数和起笔笔形顺序排列,发布后,部首的立部和排序有望得到统一。

2.归部原则不统一

主要是据义归部和据形归部两种。传统的字书主要是据义归部。因为汉字形旁表义的特点,据义归部实际是把字形和字义联系起来的做法,对于帮助理解字义、理解字形的构造都有好处。但是对于不认识这个字的人来说,不便检索。据形归部对于检索来说,确实方便一些,但是需要定出严格的条例。因为汉字字形带有很大的无序性,从形体入手,要找出一套严整、简易的部首规则来,也是很不容易的。而且,有时只从形体入手归部,又会和识字教学实践相矛盾,比如若规定部首“从左不从右,从上不从下”,而有些偏旁习惯于放在右边,如:刂、攵、页、月(月)、阝(邑);有的偏旁习惯于放在下边,如:皿、心。如果一定“从左不从右,从上不从下”,就破坏了这些字的系统性。

3.字头下面多音词的排序问题

有的按双字词、三字词、四字词的顺序排列,字数相同的再按第二字、第三字的笔画数由少到多排列;也有的不管是几字词,第二字相同的排在一起。

(二)音序法存在的问题

1.同音字的先后顺序

汉字的同音字很多,音序法无法解决同音字的先后顺序问题,必须结合别的排序方法,有的按笔画多少排列,有的把声符相同的字排在一起。

2.字头下面多音词的排序问题

有的按音节多少排列,音节数相同的再按第二音节的音序排列;有的不分音节,整个词按音序排列。

这些排序的不一致都是需要研究的问题。信息处理中字序的问题就更重要了。因此,必须研究制订统一的字序,使每一个汉字都能有一个唯一的位置。按笔画和起笔笔形给汉字排序是比较客观而又科学的,即便是在使用部首法排序和音序法时也要用笔画笔形作为补充手段。但是先笔画数后起笔笔形,还是先起笔笔形后笔画数,目前还不统一;几个基本笔形的先后顺序也不统一;笔画数和起笔笔形都相同的字怎样排序也还需要再进行研究。

①王凤阳《汉字学》,吉林文史出版社,1989年。

②张卫国《小学语文用字研究》,《教育研究》1983年5期。

③陈良璜《对我国小学语文课本生字量的研究》,《教育研究》1990年9期。

④李如龙《关于多音字的精简问题》,《文字改革》1984年2期。

⑤傅永和《汉字结构及其构成成分的分析和统计》,《中国语文》1985年4期。

⑥张清常《汉语汉文的一字多音问题》,《语言学论文集》136页,商务印书馆,1993年。

⑦龚嘉镇《现行汉字形音关系研究》57页,湖北人民出版社,1995年。

⑧《汉字信息字典》1086页,科学出版社,1988年。

⑨吕叔湘《语文常谈》31—32页,三联书店,1980年。 

——摘自 孔祥卿,史建伟,孙易《汉字学通论》

购买本书请点击下方链接



汉典:zdic.net

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多