分享

汉语语言和文字的二维高带宽属性及其形成原因

 昵称55530099 2020-05-20

 前言 

这篇文章在行文前,曾在洛杉矶会晤严锋教授的时候向他口头表述过,并有过简略的讨论。但由于当天时间所限,探讨并未深入进行下去。现在闲来有空,正式以行文方式表达出来。同时需要说明的是,行文一半的时候突发意外,本来设定好的汉语文字高带宽属性及其对中国历史进程的影响,被突然发现的多音调与表意文字的两个小概率事件同时发生改变了方向:这两个世界语言族群中的少数现象,难道仅仅是一种巧合么?进一步的思考说明,这不是巧合,而是某种必然,或者说,是语言文字发展过程中的最优选项。

这篇文章的内容是我在进行帝国系列文明研究中的副产品,其问题的属性,归入文明范畴并不恰当,应该放在中国文化相关领域内考虑比较合适。帝国系列的研究恐怕会生产出很多类似的副产品。他们各自独立,不成系列,难成体系,只能单独论述。万分之一的可能性是,最后帝国论流于虎头蛇尾,而这些无意中记录下来的副产品却自成一派,数木竟已成林,也未可知。

一.  汉语语言与文字概念界定

在全世界绝大多数语言中,语言与文字是可以合二为一,一一对应的。 文字不过是语言的书面记录版本,而语言则是文字的朗读效果。比如说英文的I want to drink water 这几个字,就是英语我要喝水的书面记录,和英文语言是完全一致的。

但在中文世界里面,语言是语言,文字是文字。文字既可以用来记录汉语这种自然语言,这种文字我们成为白话文。也可用来写文言文这种脱离中文自然语言的存在的书写系统。而且随随便便一个字:比如说,文,到底怎么读,怎么发音,其实和实际语言是完全脱节的。北京人和广东人,对这个字有完全不同的意见。

所以本文说的汉语语言,指代的是中国人在日常生活中所使用的自然语言,在今天称为现代汉语,在古代称为古汉语。

本文所说的汉语文字,指代的是汉语所催生的汉字书写体系,这套书写体系也被其他语言如日语所运用。现在你读到的就是汉字。别念出声音来哈。

二.  汉语语言的音调、音节所具备的高带宽属性

汉语语言几乎是全世界主要语言中唯一使用复杂音调体系的语言。普通中国人会说汪网往忘,一共四声。而全世界绝大多数语言仅有升调和降调,主要用于表达疑问句和表示强调语气,是句法层次上的产物,与单一具体的单词发音并无关系。而在中文中,同一个wang 音,就有四个声调,分别对应四个不同的字(暂时不考虑同音字情况)。

而这只是描述了现代汉语的普通话。事实上现代广东方言包括9个音调,客家话6个。而严锋老师家乡的南通话,竟然有11个音调!

令人发指啊!

想象一下一个老外学南通话的场面,画面美的不敢想。

所有的老外都要哭了。

因为这些老外从小接受的语言训练里面,water就是water,want 就是want , 同一个音只有一个调,对应一个词。万万不会出现中文同一个音,由于音调的不同使用,对应不同单词的状况出现。

南通话不同。

wang 这个音一发出来,随着音调的不同,同一个发音时间段内,可以表达10几个不同的意思。

嗯?

嗯嗯嗯?

学通讯的同学看到这里会顿一下。

这个现象好像有点眼熟嘛!当年电报刚发明出来,滴滴滴,滴,滴滴,通过长短两种信号的不同排列组合,构成了摩尔斯电码。摩尔斯电码是没有音调的,只有不同长短的信号进行组合。因此在给定的时间段内,可以发出的电报信文长度是相近的。在单位时间内传递信息的容量,我们称为带宽。你有100K带宽就只能打语音电话,你有10M带宽就能看电视了,如今数字时代的人们,对于带宽这个概念是非常非常敏感了。

在电报的时代,通信带宽的提高是非常有限的。一个熟练的电报员,无论其手指多么灵巧,一分钟内长长短短能发出去的信号总量总是有限的。后来引入电子设备,比人手按来按去可就快多了,同时另外一边的收报员也不能是人来承担了,速度太快,人脑反应不过来,所以后一代通信设备,是电话线的两端分别有个发报设备和收报设备,负责把编好码的信号以极快的速度发送出去,接收下来。

嗯。我们这里就在讨论二代设备:电传机了。

但是就算是电传机也有自己的极限:单位时间内的信号容量总归是有限的。

三代设备就引入了音调。发报机不再是发出滴滴滴滴滴的单调声音,而是高高低低的不同声音。不同频率的声音就代表了不同的信号。这样比如说把发报机的声音设定为10个音调,那么单位时间内,同一个滴,根据不同的音调,就可以翻译为10个不同意思!通信容量一举提高了10倍!

嗯,是不是感觉有点耳熟?

对。老网友们当年用的拨号上网Modem,就是一个调音设备。还记得滋里哇啦一通乱响之后介入互联网并显示付费信息时候的那种兴奋夹伴着肉疼的感觉了吧?

新一代人类已经听不懂我们在说什么了。

所以用通信学的概念理解一下,那就是,中国语言,由于引入了音调,因此在带宽上,就天生比外国其他语言,大了至少3倍!广东大了8倍!南通人大了足足10倍!

What?

换一句话说,在单位时间内,中国人的口头表达速度可以比外国人最少快3倍!南通人大10倍!

很多人摸不清头脑。

好,你跟一个外国人一起数数。

中文:yi er san si wu liu qi ba jiu shi。

英文:one two three four five six seven eight nine ten.

手机号:138188488643

中国人说,我的手机号码是 yao san ba yao ba ba si ba ba liu si san.

外国人说:my cell phone number is one three eight one eight eight four eight eight six four three.

画面美的不敢想。

这种高带宽带来一个属性:用汉语表达日常生活中的用词,一个音节(音素)就够了。

什么意思?

根据全世界各国教育机构的统计,在各个国家,普通人日常生活所用的基本词汇量是3000-4000个左右。

而汉语拼音中,像 wang这样的组合,一共是388个拼音组合。如果用普通话4音调,可以表达出4 x 388 = 1552个不同的音。如果用南通话,则可以产生 4268个组合!

也就是说,用南通话来表达日常生活用语的话,根本不需要第二个字,一个字就足够了。而每个汉字对应的都是单音素(类似于单音节)。

而英语就不行。一个汉字,水shui, 英文是water,日语是mizu。 都是两个音节。

为什么?因为单音节的排列组合,任何语言,来来去去也就是那么几百个不得了了(几十个辅音节乘以10来个元音节),而日常生活需要3000多个词,除了少数使用频率极高的比如说you, me, he, one, two 等等可以占用宝贵的单音节,大量其他的二级词汇必须要以双音节,甚至三音节来表达了。

所以理论上来说,日常生活用语,南通人完全可以全部用单音节来完成,而日本人、英国人,则不得不用大量的双音节、三音节词汇来表达。

有很多网友听的不耐烦了,什么单音节双音节,什么这个带宽那个带宽,跟我有毛线关系?

还真有。

我们中国人从小就要学乘法九九表。一一得一,二二得四,它有个先决条件:每个数必须都是同样音节长度,才能朗朗上口,而且越短越好。而中文全部是单音节,所以每个中文数字,也都是单音节,所以这个乘法口诀表的每一句,都是四音节、五音节。

三五一十五,四五二十,五五二十五。

换成英文试试
Three five is fifteen. Four five is twenty,Five five is twenty five…

玩不动啊,大哥!舌头都搅到一块捋不直喽!

很显然这套数数的系统太牛逼了。所以日本人无论自己的语言怎么数数,跟唐朝学了以后,基本就是用中文这套语音系统来数数了。不仅日本,中国周边国家,一个一个都学去了。没办法,数的又快又准又顺溜啊。

当然也有例外,好好的7,非要说成nana,费劲! 8要说成是“哈七”!你说哈谁不好非要哈7呢?不解!婶婶的不解!

别的好处呢?

十四亿中国人。人口基数大。一个班50个学生很常见。三个字的姓名,三音节,轻轻松松的没有重名的可能性。你再看看外国人,好么,托马斯点儿史密斯,五六个音节算是最短的,搞不好还有重名。等你中国人出了国,姓名全改成没有音调的拼音,完蛋了,重名率大幅度提升,如果是两字姓名,出了国以后,英文重名率就太高了,要是外国学校想把50个中国人变成一个班,班长报个名简直就是一场灾难:通信带宽缩小数倍,导致通信紊乱、失败。汪王不分,梅美眉不分,那不就乱套了。

当然,最大的好处是,我们平时说话,速度非常快。

你打我。3音。You hit me。 也是3音节。平分秋色。

Please give me some water. 请给我点水。10比5~~~

十年前我曾希望未来能有所变化。

Ten years ago I used to hope there would be some changes in the future.

我去你妈的。掀桌子不玩了!

根据现代语言主谓宾结构,3个字,也就是3个音节就能完成一句话。英语极少数情况下可以,大多数情况下无能为力。而加一个字,还能饶个定状补,那就是很生动的一句话了。现在知道为什么中国的汉语里面包括了那么多四字成语了么?他们绝不仅仅是简单的习惯用语结构,他们就是完整的一句话!过河拆桥是不是省略主语的一句话?相见恨晚算不是一句话?很多复杂的意境,中国人4个字就是一句话,4个音节表达完了!!

这就是高带宽语言带给普通中国人的好处!

相应的表达,换成其他语言,没有8到16个音节搞不定!没法玩了。

中国汉语的高带宽属性,在诗经这个平民文学作品大成中得以表现得淋漓尽致:

硕鼠硕鼠,勿食我黍。

1.由于用字过于精炼,做诗时为了韵律的表现,经常使用叠字、发语词来制造冗余信息,字太少,叠字发语词来凑,好不容易才凑够4个字一句!

2.勿食我黍四个字,换成现代汉语,是“请不要吃我的粮食了”,勿字一字,就代表了“请不要再XXX了”的祈使句核心结构。四个字构成了内容完整的一句话。注意,诗经是用语口头传诵的作品,并非文言文。古汉语的高度凝练精简可见一斑。

维鹊有巢,维鸠居之。之子于归,百两御之。

短短16个音节,不表达任何意思的发语词“维”,竟然重复使用了两次。前8个音节,实际有效音节仅6个,用鹊巢鸠占来做比喻。而后面讲这个女人要出嫁,要一百辆车来接她。仅仅8个音节。全部有效表达12音节足矣。

所以什么之啊,什么兮啊,这些没啥意义的字,大量出现在上古诗歌中,充当韵律因素,实在是因为表达效率太高,给韵律制造了困难,需要注水才行!

很遗憾的是,由于古代书写成本极高,不太可能如实记录普通老百姓的日常会话。更没有录音机这样的设备进行物理记录。所以古人,尤其是夏商周上古人的怎么说话,我们今天已经不得而知了。我们只能通过诗经这样的作品来推断。难免有妄断的成分啊。

但是从理论上说,上古代人日常生活的基本会话,每句话4、5个字,4、5个音节,是足够用的。

三、汉语语言高带宽的代价:更高的训练成本

当然,天下没有免费午餐。汉语语言的使用双方进行沟通时,沟通速度快,占用时间少,带宽高,也是有代价的。

先请大家欣赏一段粤语音调的视频。希望粤语区以外的读者,大家都能活着回来哈。

真的。意外身亡我可是不负责任的。

请点击这里:(反正我是看完视频差点吐血身亡的)

三分钟教你粤语九声六调(B站标题)

https://www.bilibili.com/video/av10077352/

前面我们说通信的时候提过了,第一代电报人工就可以搞定。后期引入设备,对电报代码进行了时间维度上的压缩,人工发不出去,也记录不下来,只能借助于电传设备进行压缩和解码了。引入音频之后,对电子设备的要求显然更高,不仅要在时间维度上记录信号,还要在音调维度上记录高低变化,这边要把信号调制成高低音频,那边厢也要根据音调高低变化,解调成相应的信号,这就是调制解调器,也就是英文Modem(modulator-demodulator-> mo/dem-> modem)的名称来源。

这个Modem可就比上一代的电传机,晚诞生了很多年。因为对设备的要求更高了。而且上一代互联网用户知道,越是高带宽的Modem约晚,价格也越贵。

这是因为,为了提高带宽,在发射端的压缩成码需要的运算代价很大,在接收端再把信号解压缩的运算成本也很大。

所有的压缩、解压缩原理都是一样的,利用首发端的算力进行高密度的压缩和解压缩,形成很小的压缩文件传输体,从而在信号传递时使用更少的时间完成传输:用首发两端的高运算代价,换取宝贵的沟通时间缩短。也就是说,用钱买时间。

汉语音调同样如此。

对于学习汉语的人来说,他需要反复分辨水和睡的不同音调。但是对于英文学习者来说,辨识water和sleep 实在是太容易了。单词越长,辨识度越高。单词越短,辨识度越低。音节当然也是如此。

因此,汉语使用者,是花费了比其他语言使用者更长时间的训练来完成汉语词汇的学习,进而掌握高难度的语音体系。一旦熟能生巧,在每次进行使用的时候,形成了条件反射,代价就显著降低了。

这样来说,汉语使用者,是花费了学习上的更高代价,来获得了日常沟通中的更高效率。用训练成本的提高,来换取日后沟通效率的提高。这是一种非常聪明的策略选择。

这种高效的沟通能力,平时可能看不出来,在应对紧急情况,比如灾难和战争的时候,会给古代中国人赢的更多的生存空间。关键时刻,哪怕多个几分几秒也是能决定胜负的。

 当然,我可不是说,由于拥有了这样的语言,所以汉族的先祖在战争中打败了其他对手。

四、少数民族入主中原简化了汉语语言,降低了带宽

随着公元5世纪的全球气候变冷,西罗马帝国覆灭。大陆东端的中原帝国也未能幸免,随着气候变化,已经提前一百年败于北方南下的少数民族浪潮了。关于气候变化引起帝国兴衰的内容,我会放在帝国系列里面进行系统性的论述。大家在这里只需要知道一个结论,中原数次被少数民族入侵,都是基于气候变化带来的,中原帝国的内因反而要退居非常非常次要的因素。

少数民族入主中原,首先面临的就是文化统治问题。由于游牧民族的文明程度,于中原高度繁荣的农业文明相比,差距较大,而想在中原实行有效统治,又需要尊重中原文明所衍生出的种种制度,直接实行原有的游牧制度是万万行不通的,因此,由于文明程度的原因,少数民族不得不牺牲自己的文化,而渐渐融入中原文化。使用汉语,就是少数民族融入中原文化的核心指标。

大量的北方少数民族作为移民,而且是居于统治地位的移民,混入中原留存的原住民中(大量的中原权贵和富裕阶层已经衣冠南渡,过了长江),共同使用汉语,这就形成了汉语的简化压力:一方面,动不动10个音调的汉语语音,对于一个又一个反复入侵中原的各少数民族,形成了极大的学习压力。二方面,在使用过程中,居于统治地位的少数民族,有权利有资格有机会,使用简化后更适用于自己的新版汉语。三方面,少数民族不熟练使用者,和中原原住民母语使用者进行沟通的时候,本身语速已经大为下降,过于精炼的用词已经毫无意义,延缓沟通节奏,反而会提高效率。与其反反复复说三遍才说明白,不然慢一点一次就说明白。

因此汉语的简化不仅是势在必行,而且是无法避免的了。

所以随着时代的演进,多轮次上千年的反复融合,以北方方言为代表的近代汉语语言,越来越简化,音调越来越少。普通话是4音调,而安徽山东河南这些地方,甚至只有3音调。音调的减少,显然降低了学习成本。而较少受到北方少数民族入侵影响的南方各方言区,仍然得以保留古代汉语的多音调属性。

减少的不仅仅是音调。还有冗余单词进一步降低带宽。

比如说凳子,椅子,桌子,胡子,男子,女子,这后面的这些子字,统统都是蒙古人带来的。这个子字,对汉语影响巨大。举凡各种生活用品,基本上都带个子字,什么桌子椅子,什么裤子袜子。把子字全部删掉,完全不影响阅读,但是对于今天北方方言区的人来说,几乎就是把所有的名词,从双音节一下变成单音节,整个说话的节律都变掉了,恐怕话都不会说了。但是对于粤语区的人来说,完全不受影响。

子字把几乎所有的单音节名词都变成双音节名词,一举降低了汉语的沟通速度。带来的却是进步:降低了语速、降低了信息密度之后,我们不仅跟少数民族之间的沟通效率提高了,其实我们自己的信息沟通效率也有所提高,因为不会发生听不清再讲一遍的事情了。

当然这种胡化,也就是对汉语的简化,主要发生在北方方言区,即长江以北地区,加上云贵川。南方方言区所受影响,大小不一,总的来说比较少。

但是无论如何简化,无论如何增加冗余词以降低语速、提高韵律感,汉语语言的多音调高带宽属性并没有丢。同时也应该看到,自然语言的简化,是全球所有优势语言进一步扩大其使用者范围而必然发生的趋势。汉语如此,英语也如此。但简化的趋势并不会影响该语言的核心属性。

同样简化的还有我们熟悉的爸爸妈妈。其实古代中国人说的是爷娘。爸爸妈妈这种全球化的叫法,也是少数民族带来的。。。。。。这是捎带脚的一句话。

五、多音调的汉语语言一种二维语言

为什么全世界的主要语音里面,只有汉语是多音调语言?

为什么全世界的主要文字里面,只有汉字是原生(以区别于周边民族模仿汉字而来的其他文字)的表意文字?

这两个独特性事件难道仅仅是巧合么?

恐怕没这么简单。

在同一个时间间隔内,英语只能说water还是want。但汉语不仅能说出来wang,还能给你分出汪王网忘。发出wang这个音,是沿着时间轴的一个发音事件。但是于此同时,还发出了关于wang的语调的另一个时间事件。

也就是英国人刚说完want,我们还把wang 说出了9个变种(如果是粤语6音9调的话)其中的一个。我们不仅有语素wang 的维度,还有在此基础上叠加出来的音调维度。并且这个维度分辨率还很高,不仅仅是升降调,而是分出9个,甚至11个音调!

 

所以说英语是沿着时序的一维语言。汉语是沿着时序的二维语言。

在同一个时间段内,中国人不仅完成了wang的发音,还完成了wang音的至少4个语调以上的选择。当wang 音完成的时候,音调选择也同时结束了!没有占用单独的任何时间!

当英文want只有升降调的修饰(表疑问)的时候,汉语却需要在同一个时间间隔内完成wang音的4选1,甚至9选1,11选1 !这是整整多出了一个音调维度啊!

现在提出第一个问题:

为什么中国人的祖先要发明这样一种二维语言?是为了高带宽,同样时间内发出更多的信息么?

别问我这么多。我不知掉。对后一个问题我倾向于世持怀疑态度的。古人很可能并非为了表达的高效而刻意发明了一种高带宽语言,从而用单音节词完成所有日常会话。我不认为这是一种主观故意。

我只能说,嗨,反正古人就这么发明了。我们目前不知道为什么,以及如何发展出来的。

我们只能说,好想我们南边的邻居都跟我们一样嘛,缅语啊,泰语啊,越南语啊,似乎都是多声调语言~

当然这跟我们根据DNA证据,初步认为中国汉人是一万年前从缅甸一带逐渐北上进入青海劲儿进入华北生息壮大的过程倒是蛮符合的。

打住打住。千万不要问我中国汉族跟这些民族一万年前是什么关系。我真的不知道。

现在第二个问题来了,针对这样一种已经形成的,给定的二维语言,古代中国人打算发明一种什么样的文字来记录呢?

很显然,拼音文字是行不通的。因为拼音文字也是一种一维的符号。

如果说英语是沿时间轴不断发音的音素的一维组合,那么,英文,作为一种拼音文字,和这种一维语言,是一一对应的,完美贴合的。

但是拼音方案用来记录汉语则是一场灾难。

为什么这么说?

我们以借鉴了外国拼音文字高度发展方案的汉语拼音方案来说吧。

作为注音符号,汉语拼音完美的完成了历史使命。但是,就像英文的音标一样,它用来表达某个字的发音是很OK的,但是写出来了,却不是一种高效的表达方法。

为什么?

我们来看一个拼音:

主体是个wang,上面戴了一个帽子,二声的调号。

这是人家西方拼音的玩法,主要的词是wang,然后有个调号修饰。修饰之后,主要的意思还是wang,只不过是转个词性、词格啊这些,算是一个中文后面加个“的地得”,加完的核心意思还是那个词,比如说want。

但是中文不同啊,wāng wáng wǎng wàng,这四个音,可是一毛钱关系都没有,谁也不是谁的派生,谁也不是谁被修饰,也根本不存在一个叫做wang的主体词作共同基础。

你把这个四个摆一块看半天看不清,打算干个啥?脑子被驴踢过???

我就问你,这四个字放一块,你眼晕不眼晕?

这四个字,风马牛不相及啊!!!

你再来看看,用来表示音调的,仅仅占了这个字5%的面积。其他95%的面积,都是用来表示音素wang 的。

如果高速公路出口的牌子,一个是王庄,一个是望壮,隔着一个出口,一个司机视力有点不好,只能开到50米外才能看清音调符号,知道是王庄不是望壮,那个画面真的是美的不敢想。。。。

这不是吃饱了撑的么?

这就是用一维的文字,用来记录二维语言的灾难。

那么,不用音调符号,用“1wang” “wang1””1 wang” “wang 1”会不会好点呢?辨识度有所提高,但是仍然有80%的无效信息冗余。Wang1 wang2 wang3 wang4,真的,眼神不好的人,匆忙之中的人,真的是会看出问题来。这个根本不存在任何意义的wang你放在哪里干什么?

而且,四声语调是跟发音的过程同步完成的,你非要割裂开来,加个头或者加个尾巴,要看到最后才知道到底是哪个字,这是啥意思?

王和网一毛钱关系都没有,干嘛让他们长的那么像?仅仅是因为发音音素相同么?那个wang搞来搞去到底要干啥?

这就是用一维文字,来表达二维语言的画蛇添足,把王和网两个完全不同的词,写的不仔细看根本看不清。

直接写成这样的对比,大家看看效果。汉语拼音的训练大家接受了10到12年,不可谓训练不够了。最后结果呢?

六、结论:二维存在的汉语,必须要求一种二维的文字

反过来我们再来看一个字母一个字母,从左到右排列起来的一维拼音文字,和其对饮的没有音调的语言,一个音素一个音素地发音,真的是完美配合。

而吐一个字,连音素带语调同时付与你二维信息的汉语语言,要想高效,甚至仅仅是有效地表达,就必须要选择一种二维的文字,才能达到目的。

幸好有一个偶然,就是,根据目前的观点,似乎人类是先有楔形文字这种表意文字,再有根据这个逐渐抽象出来的拼音字母。

而中国人似乎是用上了表意文字之后,发现这个二维结构跟中国的二维语言完美配合,所以索性沿着另外一个维度,不断地去发明新字,跟汉语单词逐渐完成一一对应,并且逐渐延伸。

于是,人类的文字发展方向,在此有了一个分野。

当然,很多多音调语言,最后是受了拼音文化影响而衍生出拼音文字。而中国周边国家,像日本韩国,乃至历史上的金、西夏等民族,虽然是单音调语言,但是也模仿汉字,衍生出本民族的表意文字。那是另外一个故事。与本文主题无关。

至于汉字在后来的发展过程中,兼顾了发音和语意,发明了声部、形部两者的有机结合,那也是建立在二维文字之上的衍生规则。总的来说,无论对语音表达的追求多么迫切,二维表意(图画)文字的基本原则不能废弃。

当然,你也可以说,仁厚的仁字,是人和二拼出来的。这个没问题啊。中国文字从来没有拒绝过拼,也没拒绝过音,中国文字拒绝的是一维的拼音!

这并不是多音调语言的必然。

但是这是多音调语言的最优文字设计!

中国语言也因此能够继续保留其多音调的特点,并且在较少外族入侵移民的南方得以保留和光大,而在北方地区则获得了简化和新生,在节奏感和表现力上,变得更加具有口语魅力了。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多