分享

中文在数字化处理中从无到有加速进化,已远超英文的处理速度

 我是爱家男人 2021-12-04

近两百年来,中国失败了前两次工业革命,但在第三次工业革命中取得了巨大成功。第三次工业革命是以电子计算机的发明和应用为主要标志,在诸多领域进行的一场信息控制技术革命。

计算机的最底层由电子正负极(01码)构成的逻辑开关系统来实现数据的运算、储存和传输。在计算机低级发展阶段,英语文字是拼音文字,只由26个字母拼成和只能从左至右一维直线方式书写,是一种相对简单的方式,因此简单的字母方式用来构建的计算机编译器就相对简单。加上工业革命首先发生在西方,所以英文率先在数字世界里建立起了生态系统。

这一阶段,因汉字是主流文字中唯一表意文字,常用汉字六千多个,汉字的计算机处理技术比英文字符复杂得多,汉字在书写、印刷、电报、计算机输入、检字等方面都要比拼音文字耗费劳力,降低了效率。

文章图片1

老外眼里的中国键盘应该是这样,可是中国人发明了更妙的输入算法

但中国人知耻而后勇,奋力追赶,因祸得福

在电报时期,我们就从 “四角查字法”中找到灵感,用四个数字一组来代表一个汉字。发电报时先发出数字的脉冲信号即可,再根据不同的数字组合来“还原”汉字。数字仅有十个,比西方的二十六个字母还要少很多!这是一种对于汉字的重新思考和处理的尝试。

键盘打字体现不出中文优势,因为键盘是按照西方人的按照字母文字结构设计的,中文对这种键盘开始很不适应,但依旧实现了较为完美的解决方案。

在70/80年代初个人电脑普及后,各种输入法如雨后春笋般出现。输入法的本质就是替汉字编码(检索出汉字的代码),用数个键入一组指令来检索一个特定的汉字。这些输入法将中国庞大的汉字目录转化为一项优势,尤其是五笔输入法和拼音输入法的发明普及让中文打字的人都有“代码意识”。在中文输入的不断刺激下,人的手,眼,脑得到了协调发展,智商普遍提高。

另一方面,中文输入对应用软件也提出了更高要求:速度更快,重码更少,比如:在键盘上键入“a”,电脑将会“推测”你可能会打出的汉字。也促进了各种算法的发明,并让应用软件也越来越智能。

文章图片2

键盘还是那个键盘,但中文输入法赋予键盘中国人的思维和灵魂

中文在数字化处理中从无到有加速进化,完全印证进化论的“用进废退”原则(1):中文处理和应用软件直接相互影响和促进,尤其在计算机技术进入智能图形时代,在数字世界里,中文的处理速度和效率比用英语要快得多,尤其在语音的处理上具有绝对优势。

英文用字母拼写词汇和一维直线书写方式反而成了劣势,在输入效率,识别效率,信息密度,语音处理,文艺创新等方面明显比中文落后。

西方在输入英文时,还一直停留在使用键盘的最基本方式:在键盘上物理敲击字母键,按下“a”键,“a”就会出现在屏幕上,这几乎不需要使用计算机的处理能力和内存。

以手机打字速度缓慢为代价才让西方人认识到其现有的、逐字母输入的键盘的局限性。然而他们也只能认识到这种程度,因为习惯的力量太大了,西方仍然紧抱着QWERTY键盘输入不放,已远远的落在了后面。

中文中汉字的独特构造规律和发音在音律方面的独特规则,这也是中文在数字世界里能发展迅猛的原因之一,因为汉字上的这些规律和规则能让构建的中文处理算法相对容易

字形稳定,成词有规律

中文在构字成词造句有封装继承性(3),最大的优点是专业词汇和大众词汇是同一套词汇,识别专业名词壁垒很低,没受过专业教育的普通民众,少量学习就能看懂专业书籍,因为可以让人望文释义,不言而喻,触类旁通甚至无师自通。

以英文为代表的字母文字却没有字的封装,由无任何实际意义的字母直接成词,只能从左至右一维直线方式书写,虽有词根一说,但词根只是某几个字母约定成俗的组合,这和汉字部首完全不同,即不象形又非指事,缺少由词根联想到事物的功能,而且词根多变形,甚至新词出现后才往某词根上做牵强附会的解释。

因为字母文字是为记录发音而生,发音多变导致拼写不稳定;由于缺少“字”级拼写单位,所以必须源源不断创造或从其他文字里借用出新词,才能跟上时代的发展,词汇数量不断膨胀(2)。

各表音文字用字母记录发音相对容易,文字和含义的关联性较弱,望文识义能力不强。在物理化学医学生物学等专业领域里各有一套和生活词汇完全不一样的词汇(2),不知其来源,自成体系,互不来往,这样导致专业知识让用字母文字来传承和交流变得越发困难,不同专业的人所掌握的专业词汇有很大区别,很难深入交流,一个个庞大术语词汇生生的把生活用语割裂开来,知识只掌握在少数的专业人员手里。

在科技大爆发新事物层出不穷的时代,用英文记录新事物的单词越来越长,减少单词长度的一个办法是使用缩写,但缩写又带来另一个严重问题:重复率太高并且本身没有含义导致更加难认,比如TNT,MBA,FYI等常见的意思就有几十种,随着这些无规律的新词和缩写越来越多,不仅限制了学习速度,而且加重了学习难度:除了记住不同体系里的专业名称外,还需熟悉一套单词缩写!这也让英语越来越复杂,是英文阅读障碍症产生的另一大主因。

几百年后的英语最可能的结果是:因词汇过于繁杂、庞大而被放弃,仅在计算机等少数领域内发挥作用。

音义分离 一字一音

中文的汉字每个字的笔划虽有多有少,但发音时每一个字只占一个音节,口腔只需动作一次。

中文经过几千年的改进沉淀,抛弃冗余,没有时态,单复数,字词变形,男女之分(口语)以及主格宾格,化繁为简,很多术语都是简单明了的普通字组成,所见即所得,相比英文单词的各种变形省去很多麻烦。

汉字的这种大量单音节结构,不仅让语言更加简洁,而且让思维速度更快!同样是背乘法口诀,中国小孩“一一得一,一二得二,一三得三.......' 非常简单并且高效。

相对字母文语言的发音,计算机(人脑)对于单音节的中文很容易直接识别,而多音节构成的语言就必须要经过复杂的分离组合运算。

而以英文法文为代表的表音文字多态性不强,在表达某个事物的不同使用场景时,只能增加音节或变形,导致表达同一个事物时口腔动作比用中文时多,比如:国际化:中文里做名词和做动词时词形不变,发音也不变,而英文时名词是internationalization,动词是internationlize,名词的发音比动词要多一个音节。

而以拉丁字母为基础的表音文字所需要的语法规则也就相对应的要求越来越麻烦,比如英语有十六种时态,动词随时态要不同而变形,更要命的是这种变化和动词种类相关,这就大大增加了学习成本和使用效率;句子里的词汇必须符合语法规则,只能出现在它应该出现的地方,否则句子稍长就无法被人断句和理解。

从影响文字效率的几个因素来比较,中文的效率最高,中文领先英文55%,领先日文65%。

音调让中文发音有音律美

人类口腔里能发出的声音种类总是有限的,中文又创造性地使用了声调,口腔动作不变,发出来的声音却增加到了四倍。即使这样,中文仍有较多的同音字和同声词,但多态性(3)的使用较为完美地解决了此问题,通过上下文词汇的搭配关系来扩展含义或消除歧义。

声音穿透力强,在噪音环境下识别率更高。随着说话者距离变远,首先听不清的是辅音,然后是元音,最后才是声调。所以,声调对于区分读音起巨大作用。中文的发音更符合语音学的基本规则,读起来朗朗上口,不是在读,而是在有节奏地唱!

但其他字母文却是另外一种解决方式:通过增加音节来区分,即口腔要多做运动才能表达出相应的意思,于是引入了重音、连读、轻读、弱读、略读等各种规则,需要大量练习才能掌握,不仅母语为非拉丁语系的人学习起来不比学中文的难度要低,而且在语音识别算法等方面复杂得多。

在中文世界里没有这些发音规则的约束,我们看视频时可以用2倍速度快进并配合字幕来接受处理信息没一点问题,而字母文字就无法胜任。这就是中文在数字时代更有优势的原因。

中文在语音输入最高效

中文在同样数量的音节中往往能表达出远多于西方语言的含义,这使得中文在语音输入的效率更高。

语音输入相对于键盘本身就是一种更先进高效的输入方法,对键盘具有绝对优势,而中文已经站在了语音输入的效率之巅。

中文的汉字自身特点以及文化底蕴再加上在新技术环境下的本质优势使得中文将在未来发挥更大的作用,为人类的进步与知识的整理与推广做出更大的贡献。

中文的语音输入法前景十分光明,相信随着科技的发展,语音输入法的准确率将越来越高,语音输入法加上触屏会将键盘逐步淘汰,智能设备的外形也将变得更加人性化,中文在语音输入法中的绝对优势也会让中文更加广泛地流通于全世界。

科技技术和中国庞大的市场结合,已让人工智能,大数据,物联网,数据安全,基因技术,量子技术,可控聚变,新材料等在中国存爆发的态势,加上中文的简练和高效,第四次工业革命必将首先在中国发生!

扩展描述说明

(1)“用进废退”原则:生物体的器官经常使用就会变得发达而不经常使用的就逐渐退化

(2)新词和外来词汇更容易进入英文体系导致英语杂交化和复杂化,词汇量不断膨胀:英语的历史就是一部被入侵史或入侵史,大部分时间里统治阶层和被统治阶层都不说同一种语言,所以英语吸收了大量外来词,这就是英语词汇间关系为何如此混乱的原因。比如:lung(肺),inflammation(炎) ,pneumonia(肺炎)却是与肺和炎都无关联的词,tooth(牙齿),doctor(医生) ,dentist(牙医)却是另外一来源的词。英语新词增长速度约为每年1万个,让英语变得越来越臃肿,来源于出现的新事物或其它语言中引入的词汇,比如从中文引入的fengshui风水、kongfu功夫、tuhao土豪等,从日语引入的ninja忍者、Okuni艺伎、Sumo相扑,英文单词已经超过一百多万,而且还在持续高速增长。英文,已踏上词汇增长的不归路,要么借鉴汉字思想,要么消亡。而中文则以不变应万变!

(3)《中文有封装继承和多态性将成为世界文》头条可搜索,从编程视角来总结一下中文,对汉字优势科学分析,从底层逻辑彻底发掘展现汉字之美。

#数字化# #科技# #汉字# #人工智能#

————结束————

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多