分享

【传统文化】汉字数码简介:汉字数码(卷二)汉字数码原理

 老沔城人 2019-05-31




 





【传统文化】
 
汉字数码简介
汉字数码(卷二)
汉字数码原理

第一章 总说

    汉字数码是二十一世纪将对我国经济社会发展进程产生重大影响的一项原创性发明。以汉字数码为核心技术的汉字数字化工程将彻底地改变汉字的命运,改变中国的命运,改变人类生活方式,从而改变整个世界。这是继上个世纪的汉字照排、杂交水稻之后,中国能够在世界范围内称得上最具影响力、最具震撼力、最具世界市场的工程技术成就,具有极高的文化含量和科技含量。

    汉字数码向全世界揭示了中华民族伟大祖先在几千年前为我们子孙后代所创建的汉字文化基业,具有无比的价值、无限的魅力和无尽的智慧。其价值就在于它是文字的“五线谱”,当我们把它翻译为简谱时才发现它的巨大价值;其魅力就在于它是图形文字,当我们要想让人人都会用电脑、处处都能用电脑时才发现出路只有一条,那就是采用图形文字;其智慧就在于它有着数千年文化背景形成的丰富内涵,而这些都是任何其他民族的文字和文化所完全无法比拟的。中国汉字文化不仅有着历史的灿烂,更有在信息时代、数码时代里永远的辉煌。


    汉字之所以成为当今仍在为最多数人使用的最古老的文字,其强大的生命力足以说明汉字内部隐藏着一种无比的东西,其中之一就是汉字与数字之间的神秘关系。汉字数码则向人们揭示了这样一种神秘关系。

第二章 研究动机

    一.语音识别

    人机对话是人类进入工业文明时代后梦寐以求的崇高理想,而人机和谐对话已成为世纪之交信息科学领域里最为振奋人心的口号和科学精英们角逐最为活跃的尖端领域。几乎所有的世界级巨擘在语音识别领域里投入了数百亿美元的资金。至今,他们的研究成果大多还停留在实验室阶段,即使某些语音识别产品进入了市场,也不能令消费者感到满意。从20世纪80年代起,我国就将语音识别技术的研究纳入了国家“863”计划,中国科学院、清华大学、中国科技大学等科研单位投入了大量人力物力进行研究。

    经过了半个多世纪的探索研究,科学家们终于明白了这个道理:比计算机聪明千万倍的动物尚且只会简单语言,而要让计算机能够完全听懂并理解自然语言,只能是我们人类的美好梦想。现在就有科学家站出来说,解决这个问题的难度可能远远超过让人登上火星,在未来一百年内别想在这个领域取得任何实质性进展。

    科学研究还表明,在大多数应用上,自然语言并不是人与计算机之间合适的沟通渠道,因为自然语言容易给人机沟通造成混乱。然而,科学家们只是证明了自然语言不适合于人机交互,却没有指出什么样的语言才适合于人机交互,更没有提出实现人机对话新的途径和方法。


    二.解决思路

    1996年初,我们开始了汉字数字化研究工作。从一开始,我们就将目标锁定在通过汉字数字化来解决用语言控制机器、人机语言交互问题上。虽然在资本实力方面,我们与大公司不能相提并论,但是,要解决语音识别这一世界性难题,雄厚的资本固然很重要,解决问题的思路以及由此形成的核心技术更为重要。我们认为,要将人类的这个梦想变成现实,主要依靠的是人类的智慧和技术的力量,这就是我们在一无资料可循、二无资金支持的情况下,单枪匹马闯入这样一个非常有前景的领域的深层原因。

    我们是这样思考这个问题的:计算机自然语音识别率,无论如何也达不到百分之百,所以,自然语音不可以用来控制机器。道理很简单,即使万分之一差错,所造成的结果也可能是灾难性的。

    既然计算机无法准确地识别人类自然语言,那么,能不能找到这样一种理想语言,它既为人类所完全熟知、又为计算机所准确识别呢?如果世界上真的存在着这么一种理想语言,我们的任务不过就是发明一种将自然语言文字转换为这种理想语言数的方法,再交给计算机去识别就行了。
   

    三.通用语言

    幸运的是,世界上还真的有这么一种理想语言,这就是阿拉伯数字。世界通用语言既不是使用范围最广的英语,也不是使用人口最多的汉语,而应该是阿拉伯数字。阿拉伯数字可以说是无人不知,无人不晓。全世界的人都在使用阿拉伯数字,虽然他们的阿拉伯数字发音不尽相同,但是,他们对阿拉伯数字的理解却没有什么差别。

    阿拉伯数字也是世界上最简单文字,它只有十个数字符号。阿拉伯数字除了具有标识事物、论证与推理信息的功能外,还具有计算功能,这是其他任何文字所不具备的。计算机原理正是建立在数字计算的基础之上的。

    数字是人类唯一共用的语言文字,也是机器唯一理解的符号系统。数字,只有数字,才是人类与机器之间进行沟通和交流的最简单、最直接、最有效的方式。面对人机语言交互、用语言来控制机器这个世界性难题,我们终于找到了一个再简单不过的解决方案,这就是对机器用数字说话。

第三章 基本要求

    将自然语言转换成数字语言的方法,必须同时满足下面三个条件:

    1.数字语言要被机器所理解,就要求它所表达的意思必须是唯一的。因为机器不具有人类的智能和灵活的判断能力,它们面对同一信息的多种含义将很难自动地作出正确选择。

    2.数字语言要被人类所理解,就要求它所遵循的规则必须是简单的。简单得人人都能轻松掌握,因为将自然语言表示为或者转换为数字语言是依靠人类来完成的。

    3.数字语言要被高效率处理,就要求它所表达的数码必须是精练的。事实上,任何文字数字编码,只要建立足够多的规则和具有足够长的位数,都可以做到唯一对应性。 

    将自然语言翻译成数字语言,通俗地讲,就是使用阿拉伯数字来表示自然语言,用科学术语讲,就是文字数字编码。这种编码是根据一定的规则来实现的,它所遵循的规则被称为编码规则。文字数字化的核心就是制定文字数字编码规则,使其同时满足以上三个要求。


    实现声音和图像与二进制数字相互转换的规则,被叫做通信协议。同样理由,实现自然语言与二进制相互转换的规则,也应该被叫做通信协议。所不同的是,声音和图像方面的通信协议,主要由西方发达国家制定的。而文字方面的通信协议,由于我们走在了世界的前面,则主要由我们中国来制定。 

第四章 拼形字母 

    没有字母的汉字,使我们中华民族吃尽了苦头。两千年前我们中国人开始编字典,

    一百年前我们中国人开始拍电报,三十年前我们中国人开始用电脑,无不遇到很大的麻烦。文字的发展是先表意而后表音。文字通过图形来表意,通过字母来表音。表音的字母都是从表意的图形中抽象出来的。汉字再往前走一步,就抽象出了字母,就成为了表音文字。然而,我们祖先却转向了以形声为主导的既表意又表音的文字体系。
   
    虽说字母没有被抽象出来,汉字却综合了象形文字和拼音文字的优点,成为了一种表达能力极强、信息容量极其丰富的文字符号。这一兼收并蓄的杂交优势,可以说是汉字文化在世界上诸多古文化中后来居上、生生不息的一个根本原因。直到今天,人们才明白这是我们祖先最明智的选择、最了不起的创新。


    通过研究,我们发现汉字本身是有字母的,它们隐藏在汉字字形之中,只是人们还没有发现它们而已。

    拼音文字是音形统一的文字,它们的字母既是拼音字母,又是拼形字母。汉字则是音形不统一的文字,它拥有拼音字母和拼形字母两套体系。上个世纪中叶,我们借用拉丁字母来表示汉字读音,发明了汉语拼音字母,从而建立了汉语拼音体系。本世纪初叶,我们借用阿拉伯数字来表示汉字字形,发明了汉字拼形字母,从而建立了汉字数码体系。

    一.字母属性

    既然文字都有字母,那么,它们的字母必然存在着一些共性。

    1.字母数量具有简约性。

    拼音文字的字母大多是20~30个,最多不超过50个。汉字部件却有上千种,所以汉字部件不是汉字字母。

    2.字母组合具有唯一性。

    3.拼形字母

    横笔、竖笔、撇笔、捺笔通过相折、相离、相连、相交,组合成了16个汉字拼形字母,加上单个横笔、竖笔、撇笔、捺笔,共有20个汉字拼形字母。在折笔字母中,形似“口”的图形很多,组字频率很高,我们将其单列出来,作为第21个汉字拼形字母,命名为折口。

    单笔字母 折笔字母 离笔字母 连笔字母 交笔字母

      横笔     折横     离横     连横     交横

      竖笔     折竖     离竖     连竖     交竖

      撇笔     折撇     离撇     连撇     交撇

      捺笔     折捺     离捺     连捺     交捺

    折口

    四.形数转换

    1.笔画形状代码

    横、竖、撇、捺是汉字笔画形状的自然顺序,这种顺序原本就是用数字来标识的。

    横笔  竖笔  撇笔  捺笔

    2.笔画位置代码

    折、离、连、交则是汉字笔画位置的自然顺序。形象地说,“折”是有拐弯处的一条街道,“离”是两条平行的街道,“连”是呈丁字形的三条街道,而“交”则是垂直交叉的四条街道。 

    折笔  离笔  连笔  交笔

    3.拼形字母代码

    用两位数字表示拼形字母。第一位数字表示笔画位置,第二位数字表示笔画形状。除横笔、竖笔、撇笔、捺笔、折口外,其他十六个拼形字母代码如下表所示:

折横  11

折竖  12

折撇  13

折捺  14

离横  21

离竖  22

离撇  23

离捺  24

连横  31

连竖  32

连撇  33

连捺  34

交横  41

交竖  42

交撇  43

交捺  44


    4.将拼形字母的笔画位置代码与笔画形状代码相加

    X=汉字位置代码+笔形形状代码

    5.按照以下规则将拼形字母代码转换为拼形字母数码

单笔、离笔

交笔、连笔、折笔

折口

15

1

5

26

2

6

37

3

7

48

4

8


    6.转换结果

1

横笔、离撇

2

竖笔、离捺

3

撇笔、离横

4

捺笔、离竖

5

折捺、连竖、交横

6

折横、连撇、交竖

7

折竖、连捺、交撇

8

折撇、连横、交捺

9

折口



第五章 汉字数字化解析

    一.均匀性分析

    要做到汉字数码无重码,首先要使各个数字所承载的拼形字母数量大致相等,也就是要让每个数字在字词编码中使用的次数大致相等。这是基于这么一个原理:拼形字母在九个数字上的分布越均匀,出现重码字的概率就越小。

    下表是国家标准《信息交换用汉字编码字符集·基本集》中的6724个汉字分解为拼形字母所得到的统计结果:

横笔2959

竖笔142

撇笔1453

捺笔1971

离横2036

离竖 400

离撇1110

离捺1642

折横1529

折竖2171

折撇 807

折捺1711

连横2192

连竖 573

连撇 317

连捺722

交横66

交竖1885

交撇 498

交捺 99

折口3116


    第一组数据:笔画字母和离笔字母,用数字1~4表示,共组字12999次,平均到每个数字为3250次。

    第二组数据:折笔字母、连笔字母和交笔字母,用数字5~8表示,共组字 12570次,平均到每个数字为3118次。

    第三组数据:折口字母,用数字9表示,共组字3116次。

    从统计结果来看,每个数字所表示的拼形字母平均组字次数非常接近(3250次、3118次和3116次),这说明汉字拼形字母在各个数字上的分布是非常均匀的。

    进一步观察发现,在同一个数字上,每个拼形字母的笔画形状和笔画位置都不相同。据此推断,拼形字母的最佳组合应该是每个数字所表示的拼形字母具有完全不同的笔画形状和笔画位置,因为笔画形状和笔画位置的任何重叠配置都相当于生物学意义上的近亲繁殖。

    二.表意性分析

    汉字部首是汉字表意的基础,在汉字形意关系中占有重要地位。将汉字部首转变成数字以后,我们惊讶地发现,每个数字表示出了同类汉字部首,这就将电脑不能识别的形意关系转变成了电脑可识别的数意关系。

    我们中华民族祖先创造的汉字,以其独有的汉字部首来对表示万物的汉字信息进行分类,产生了“望字生义”的神奇效应。进入二十一世纪后,我们华夏后代又发明了汉字数码,使用世界唯一通用的阿拉伯数字来对汉字部首进行分类,产生了“以数表意”的神奇效应。

数码

喻指对象

部首归类

1

借用生产工具和生产条件来喻指

人类依靠双手(提手)使用各种工具,运输用辆、测量用米、盛物用罐子(酉),通过合作方式(双人旁),利用降等自然条件来从事生产活动。

2

借用山水来喻指

耸入云宵,在古人看来通过山才能到达天,所以佛院寺庙大都建在山上。水(三点水)是从天上降下来的雨,带来了上帝的信息,维持着人类的生存。

3

借用环境条件来喻指

保护好人类赖以生存的环(王旁)境,苗才能茁壮成长,人们才有米白面吃(食旁),才能在江河湖海里利用船(舟),才能捕捉到类,狗(犬旁)等宠物才能与人们朝夕相伴。

4

喻指宇宙

宇宙象个硕大的盖子(宝盖),向远处延伸似乎与地面接触了,宝盖演变为,仔细研究才发现宇宙是个(空洞的意思)。人类崇拜宇宙,认为上帝主宰一切,在祭祀(示旁)的过程(走之旁)中,人们必须穿着衣服(衣旁),送上鹿等动物、等植物,这样才能避免灾病(病旁)。


 

5

借用人性及其生存条件来喻指

人分男人(单人旁)和人。人要生存,必须要有饭(繁体食旁)吃,要有线织的衣服(绞丝旁),要有钱花(繁体金旁)。

6

借用地面上的东西来喻指

都是地面上的物质。草(草头)和木都是地面上的植物。虎豹豺狼等动物都是地面上的兽。

7

借用扇形和弧形来喻指

月亮是一轮弯月,是弯弓,海边拾到的类大都是扇形,围在人脖子上的毛也只是一段圆弧。

8

借用人们获取钱财的活动来喻指

人们使用金币、银币、铜币作为金(金旁)钱,我国民间将金钱称为孔兄。为了挣到金钱,人们或者开工,燃放爆竹(竹头)、口出良言(繁体言旁)以示庆贺,或者做买卖,在市场气冲天时大赚一把。

9

借用圆形和方形(汉字用方形来表示圆形)来喻指

太阳(日)是圆的,太阳上的子是圆的,动物张开的嘴(口)和睁大的眼睛(目)是圆的,子和动物的腿(足)的横截面也是圆的。只有人类耕种的是方形的。


    下表列出了最常见汉字部首的数码。这18个汉字部首共组字3158个,约占国家标准《信息交换用汉字编码字符集·基本集》中汉字总数的47%。由表可见,这18个汉字部首的数码无一相同。这表明,通过两个数码就可以向电脑传递出更加细化的事物分类信息。

汉字

部首

组字数

350

334

304

266

241

217

214

142

139

数码

21

62

9

11

65

86

5

46

51

汉字部首

组字数

131

127

126

111

103

101

95

80

77

数码

73

22

97

61

45

43

69

38

27



    从汉字部首,我们一眼就能看出汉字的类属,能够区分它们所表示的是动物还是植物,是草本还是木本。然而,电脑却看不见这些汉字部首。在电脑中,汉字是作为不可拆分的字符来处理的。

    当我们将这些汉字部首转变成数码以后,情形就大不一样了。根据汉字部首数码,电脑从汉字部首语义库中找出这些数码所表示的概念,就会知道这些汉字的类属。与汉字声旁数码和汉字声旁语义库相配合,效果就更神奇了,因为电脑可以据此推理出汉字所表达的概念。

    汉字部首或者汉字部首组合构成了汉字声旁,这些汉字部首或者汉字部首组合被称为汉字部件。既然汉字部首数码承载着特定的概念,那么,由汉字部首数码构成的汉字声旁数码和汉字部件数码,乃至由汉字部件数码构成的汉字数码,以及由汉字数码构成的词语数码,一定也承载着特定的概念。 

    九个阿拉伯数字都承载着特定的概念,它们的组合又会产生出许多新的概念。通过这种方式,汉字及其各个组成部分就同数码发生了生动形象的联系,按照数意对应关系,又将数码映射到了字义和语义上去。就这样,汉字依照自身的成形规律拆解反推,顺理成章地回归到了数字语言。 

第六章 数字圆环


 
    研究发现:

    以数字4打头的汉字部首都与宇宙圈有关;

    以数字7、8、9、1打头的汉字部首都与太阳圈有关;

    以数字2、3、5、6打头的汉字部首都与地球圈有关。

    将九个数字按照顺时针方向首尾相连,就构成了一个数字圆环。在这个数字圆环中,将数字4放在最上方,其余8个数字分为上下两组,这样,就将数字圆环划分为三个部分:上方是宇宙圈,下方是太阳圈,中间是地球圈。

    我们从这一数字圆环中,可以窥见我们中华民族祖先对宇宙自然的认识水平,这是汉字数码的神奇之处。

    一.天、地、人、环境构成了地球圈

    这是数字圆环的第一层次。我们祖先在创造汉字时,已经认识到了环境的重要性,从而将环境与天、地并列为人类赖以生存的三大条件之一,将环境与天、地、人并列为构成地球生态系统的四大要素之一。

    天、地、人、环境的和谐统一,应该说是大自然的最高法则。人类要是违背了这一法则,如对自然的过度索取,对土地的过度开发,对环境的过度污染,将遭受到大自然的报复。这正是老子在《道德经》中所阐述的重要思想,这就是“人法地,地法天,天法道,道法自然。”只是人们在理解这一伟大思想时,更多地关注了天、地、人之间的关系,而忽视了环境因素,这不能不说是人类对地球生态系统认识上的倒退。


    二.日、月、金、火构成了太阳圈

    这是数字圆环的第二层次。太阳、月亮、金星、火星是古代先民们最先观察到的太阳系成员,它们构成了太阳生态系统。

    太阳、月亮是最明亮易见的两个星体。先民们从太阳、月亮昼夜交替、明暗转换的规律中,抽象出了阴阳概念,创造了《易经》学说,以此来解释宇宙自然现象。

    金星、火星是离地球最近的两颗行星。先民们之所以用“金”和“火”来命名这两颗行星,我猜想是有原因的。“金”象征着材料,“火”象征着能源。材料、能源是古代文明的两大支柱,构成了古代文明的两个层次。

    三.未知天体物质构成了的宇宙圈

    由于受到当时生产力发展水平的限制,先民们对太阳生态系统的认识仍是不完整的,他们还无法对太阳系以外的银河星系进行科学地描述。

    四.金、土、火、水才是世界本原

    根据数意关系,数字2既指“天”又指“水”,数字6既指“地”又指“土”。在数字圆环中,只有“金、水、火、土”四种基本物质,意味着我们祖先在创造汉字时,已经将世界本原归结为“金、土、火、水”四种基本物质。
 
 
    以“金、土、火、水”作为汉字部首时,它们的首位拼形字母分别对应着“横、竖、撇、捺”。就是说,我们祖先用“横、竖、撇、捺”来表示“金、土、火、水”,其中,用笔直的“横、竖”来表示固体的“金、土”,用弯斜的“撇、捺”来表示流体的“火、水”。这种表示方式既形象生动,又高度抽象,可见我们祖先是何其智慧。

    中国古代的“五行学说” 认为世界本原是“金、木、水、火、土”,其实“木”并不是基本物质,因为将“木”烧掉,得到的将是火、水蒸汽、尘土,还有微量元素的金属。古印度人认为世界本原是“水、风、地、火”,古罗马人认为世界本原是“水、火、气”,古希腊人则认为世界本原是“水”。比较起来,汉字创造者对世界本原的认识更加接近了世界本质。

第七章 汉字数字化方案

    汉字数字化模型的理论价值无疑是巨大的,然而,实际应用起来并不方便,有必要对这一模型再度简化,最终形成性能的卓越性和规则的致简性综合起来趋近于极限的汉字数码方案。这并不是说汉字数码没有改进的余地了,也不是说将来就没有任何一种汉字数字编码技术能够超越汉字数码,只是说超越汉字数码如同攀登珠峰一样困难。

    最简单的对应方式就是将笔画数和末笔形相同的拼形字母都表示为同一个数字,这样记忆起来会很方便。重新组合后,21个拼形字母简化成了9个汉字笔形,从而与9个数字之间建立起了一一对应的关系,并以数字直接作为这些汉字笔形的符号。通过这种对应方式,我们就将较复杂的拼形字母简化为较简单的汉字笔形,进而又将较简单的汉字笔形归结为最简单的横、竖、撇、捺,可以说,再也找不出比这更简单的汉字笔形分类方法了。


    通过对汉字笔形的定义,我们就得到了汉字数码方案。如同在几何学中,用几条公理和定理就可以构建起一整套几何理论一样,用几条定义和规则也可以构建起一整套汉字编码理论。从此,人们根据定义就能确定汉字笔形种类。汉字笔形与数字之间的对应关系极具规律性,没有任何例外规定,无需任何死记。这些表明,汉字数码方案的科学性极强,实用性极好。






'’'’








    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多