我们分析比较中英文的基本元素时,认为与英文的基本元素字母相对应的是汉字笔画,而不是汉字本身。各汉字相互分开不粘连,这虽与字母之间的关系相同,但不相互对应。认字的这种分割应与英文字相互之间用空格分开相对应。汉字和英文字在数量上相当,其信息量——熵函数-∑Pilog2Pi相近,都有新创的、古老的、死灭不用的字,都有字典可查意义。字母和笔画则是最稳定不变的,数目多少相当,其信息量亦相近,都是字的最少组成部分。 但是汉字笔画与英文字母之间存在着明显的差别: 1、字母之间不相连,汉字笔画则不仅可以相互连成一串,还可相交(重叠)。但是中国人却很容易把两个连成一体的笔画区分为两个不同的笔画,区分(的)原则是:笔画运行方向必须是从上到下,从左到右,除了笔尾很短的带笔勾及挑(提),决不能取相反方向;斜向的笔画,以从上到下为住,即只允许从右上到左下的撇,不许从下向上;勾虽从下向上,但是笔尾,很短,且须提笔成尖;挑是向右上勾的特例,虽非笔尾,但亦必须短而尖。在这样的笔画原则下,首尾可连的都应连成一笔。如“乃”字,第一笔撇从上向下,无论如何不(能)与第二笔“乃勾”连成一笔,而第二笔虽四次改变运笔方向,却首尾相连成一笔。 2、字母是按一定不变的次序线性排列成英文字,而汉字笔画是分布在平面上的,虽然有笔顺原则:先横后竖、先撇后捺、从上到下、从左到右、从外到内、先里头后封口、先中间后两边”,笔画顺序有时还可以变化。如“乃”字,一般第一笔是撇,但第二笔“乃勾”起笔高于撇,也在撇之左,可先写。问题是,以不同顺序写出的方块字是一样的,识别汉字用不着笔顺信息。但要让电脑自动由笔画形成完整的汉字时,必须有确定不变的顺序,而且要研究笔顺与每笔落笔点的确定不变的关系,才能生成正确的汉字来。 3、汉字笔画远比字母简单。除了个别象“乃勾”一样(的)笔画比英文中最简单的字母“L”复杂点外,汉字笔画几乎都是单划,不是字,而英文字母即使是一笔写成的,也是“字”。汉字笔画的简单,由汉组成汉字时平面位置的“复杂性”得到了充分的补偿,使汉字的信息量高于英文字,这是汉字的高明处。 4、最使人惊奇的是,汉字笔画中没有圆弧形的,而52个英文字母中,有2/3以上是有圆弧部分的。要知道,西欧人以前用的羽毛笔,那是不适合于画圆形的。而中国人用的毛笔则很容易画圈,草书中也不乏圈点,但正楷、宋体等正式文书和印刷品中却都没有弧形笔画,连“点”也不是圆的。这一现象应在各自的文字发展史中得到解释。是不是因为西方文字起源于泥板上写的钉头字:钉头字显然是一种长杆在泥板上压成的,杆头宽且深,尾端尖且浅。用切断的中空的植物茎杆,也容易压出圆形来,配以同样易于压出来的短横,从而形成字母。汉字则是用刀刻在竹木板(竹简)上,最难刻的是圆形,所以正式的字没有圆弧,只有直线了。同样,宋体字之所以竖粗横细,是不是在竹木板上刻横笔易细(在木板上顺着木纹刻凸字,用于印刷)或刻横不易而只划一细线(在竹板上竖直于竹纹刻阴文字)之故呢。这仅是我的猜想而已。 我们对于汉字笔画,尚未进行充分的研究。古代几乎只在书法上认识和研究不同的笔画,目的是为了写好字。近代为了字典的检索和汉字用笔画码输入,才区分不同的笔画。为此目的,几乎都只把笔画区分为五种“横竖点撇折”,这里都把“捺”归于“点”,“挑”归于“横”,其他均归为“折”.这样归并的5类笔画,除了“横”多一些外,基本上很均衡,倒很适于输入法和汉字检索的需要。据我的统计,其间的分布如下表(按汉字出现的频率加权的统计结果列于第二行): 笔划 横 竖 点 撇 折 合计 按字统计30.5 26.9 16.5 16.9 19.2 100.0 按字频加权29.9 16.7 16.9 16.7 19.8 100.0 实际笔画数目在30种左右,但不同作者的划分和名称大有出入,我归纳于下表。(表中第一列的笔画名称是我拟的,那些很别扭的长名,都用出现该笔画的常用字命名之。该名前附一个编号,按此编号可从附图查到笔画形状。) 汉字笔画: 作者 1 刘志成 2 杨洪清 3 小学生字典 1 横 横 横 横 2 竖 竖 竖 竖 3 撇 撇 撇 撇 3-1 横 撇 横 撇 3-2 竖 撇 竖 撇 4 点 点 点 点 4-1 竖 点 竖 点 5 捺 捺 捺 捺 5-1 平捺 6 提 提 (归于横) 提 7 横折 横折 横折 横折 8 又撇 横撇 横撇 横撇 9 横钩 横钩 横钩 横钩 10 折钩 横折钩 横折钩 横折钩 11 言挑 横折提 横折提 横折提 12 风钩横 折斜钩 横折 斜钩 12-1 横弯 横折弯 横折弯 横折弯 12-2 凹折 横 折 折 12-3 九钩 横折弯钩 横折(右)弯钩横折弯钩 12-4 乙钩 横撇(右) 弯钩 13 耳钩 横撇弯钩 横撇(左)弯钩横撇弯钩 13-1 走之 横撇 (左)弯 14 建折 横折折撇 横折折撇 横折折撇 15 乃钩 横折折折钩 横折折折钩 横折折折钩 15-1 凸折 横折 折折折 15-2 易钩 横撇折 折钩 16 竖提 竖提 竖提 竖提 17 竖折 竖折 竖折 17-1 竖弯 竖弯 竖弯 竖弯 18 竖钩 竖钩 竖钩 竖钩 19 儿钩 竖弯钩 竖弯钩 竖弯钩 20 马钩 竖折折钩 竖折折钩 竖折折钩 20-1 专折 竖折撇 竖折撇 竖折撇 20-2 鼎 折 竖折 折 21 撇点 撇点 撇点 撇点 22 撇折 撇折 撇折 撇折 23 斜钩 斜钩 斜钩 斜钩 23-1 心钩 卧弯钩 卧弯钩 24 弯钩 弯钩 弯钩 弯钩 总数 39 31 31 28 注:1.见刘志成<汉字学>163页天地出版社2001年7月 2.见杨洪清.朱新兰<现代说文解字字典>365-270页群众出版社1999年7月 3.<新编小学生词典>袖珍本,744页人民教育出版社1989年7月 从上表即可看到不一致的一般性,尤其有些笔画名称太长,太别扭,我为他们另起了一个形象好记的或以它出现在某个常用字中字命名的两个字的名字。第1列就是我拟的笔画数最多的全部39种笔画。现在出现两个问题,第一个问题是这些笔画出现频率差异很大,有些笔画如“专折”频率只有0.00005.而鼎折,凸折,凹折几乎只出现在这几个字中,所以作了适当的合并。而笔画“横”则频率太高,我把它分为两种;与其他相交的“横”称为“交横”.第二个问题是,有些字的一些笔画可选用二种不同的笔画而不影响该字的形状,如外圈“囗”的第二笔,可以写成“横折”或“折钩”,我想基本上可以该部的大小来决定:大的,尤其是作为整个字的外圈时,用“折钩”。 到底应分成几种笔画为好,我认为应考虑把汉字植根于电脑的需要。一些出现频率很小,可以合并为一种,只要由笔画序列生成汉字时,可以用极简单的条件语句选用其中某一种正确的。这样可以不用全部39种不同的笔画,最好选26种以下,以便把它们安排在现有的字母键上,(甚至)还可以留出1~2个作结构键用。 我选了24种,第一种“横”拆分为两种,共25种。现按这25种笔画统计出现频率并计算信息量(熵),同时附上英文字母的出现频率和相应的信息量作对照,详见下表: 笔画 频率 加权频率 字母 频率 横 0.173 0.182 e 0.130 交横 0.104 0.098 t 0.092 竖 0.169 0.165 a 0.082 撇 0.165 0.164 o 0.078 点 0.140 0.132 i 0.070 捺 0.030 0.039 n 0.069 提 0.028 0.022 s 0.068 横折 0.064 0.057 k 0.062 又撇 0.016 0.019 h 0.050 横钩 0.010 0.009 e 0.042 折钩 0.023 0.032 d 0.035 言挑 0.002 0.002 c 0.030 风钩 0.003 0.002 u 0.028 耳钩 0.004 0.006 w 0.026 建折 0.0005 0.001 f 0.023 乃钩 0.0006 0.0003 y 0.020 竖挑 0.009 0.006 p 0.020 右折 0.008 0.004 q 0.019 竖钩 0.015 0.021 w 0.019 儿钩 0.010 0.013 b 0.015 马钩 0.004 0.002 v 0.011 撇点 0.004 0.002 k 0.007 撇折 0.012 0.016 x 0.002 斜钩 0.004 0.005 j 0.001 弯钩 0.002 0.0007 q 0.001 信息量 3.43 3.43 4.16 因为这里的字母频率,不包括空格,数值是我自己从大学英语课文统计的,频率有所不同,熵值也较大. |
|