分享

通信的数学理论PartⅠ

 西北望msm66g9f 2024-05-24 发布于山东

本文是信息论鼻祖-香农的划时代的论文,当时发表在《贝尔科技系统期刊》中,它尤其激起了一名读者瓦伦·韦弗的兴趣,他后来成为香农最重要的推广者。他是洛克菲勒基金会自然科学分会的会长,也是美国科学和数学研究的主要赞助者之一。韦弗在更早的时候就与香农有了接触,他在战争期间给予了香农一份研究火力控制的工作。之后,他在香农的职业发展中扮演了更关键的角色,在他的助推下,著作《通信的数学理论》得以出版。这本书对信息理论发展的贡献是一篇技术期刊所不能及的。本篇即为韦弗为香农论文撰写的通俗的解读Part Ⅰ,以帮助大家理解。

1.分析性通信研究一般背景的引言

1.1. 通信

这里将使用“通信”一词,其含义非常广泛,包括一个思想能够影响另一个思想的所有过程。当然,这不仅涉及书面和口头的语言,还包括音乐、绘画艺术、戏剧、芭蕾,事实上包括所有人类行为。在某些情境中,使用更广泛的通信定义可能是可取的,即包括通过一种机制(例如追踪飞机并计算其可能的未来位置的自动设备)影响另一种机制(例如追逐该飞机的制导导弹)的程序。这份备忘录的语言通常看起来是指言语交流这一特殊但仍然非常广泛和重要的领域,但实际上几乎所说的一切都适用于任何形式的音乐,以及静态或动态图像(如电视)。

1.2. 通信问题的三个层面

相对于通信的广泛主题,似乎存在三个层面的问题。因此,如此按顺序问是合理的:

Level A. 通信的符号的传输精度如何?(技术问题。)

Level B. 传输的符号如何精确地传达所需的含义?(语义问题。)

Level C. 接收到的含义如何有效地以期望的方式影响行为?(有效性问题。)

技术问题涉及将符号集(书面语言)、连续变化的信号(语音或音乐的电话或无线电传输)、或连续变化的二维图案(电视)等从发送方传输到接收方的准确性。从数学上讲,第一种涉及传输有限的离散符号,第二种涉及传输时间的一个连续函数,第三种涉及传输时间的多个连续函数或传输一个连续函数的时间和两个空间坐标。

语义问题涉及接收者对含义的解释与发送者的预期含义相比的同一性或令人满意的近似程度。即使只处理通过语言进行沟通的相对较简单的问题,这也是一个非常深刻和复杂的情况。

一个重要的复杂性可以通过这样一句话来说明:如果怀疑X先生不理解Y先生说的话,理论上通过让Y先生继续与X先生交谈是不可能在任何有限时间内完全澄清这种情况的。如果Y先生说“你现在明白我说什么吗?”而X先生说“当然,我明白了;”这未必是理解已经实现的证明。可能只是X先生不理解问题。这可能听起来很荒谬,请尝试使用'Czy pan mnie rozumie?'和答案'Hai wakkate imasu.'来再次尝试。我认为这个基本难题,在语言沟通的受限领域中,通过“解释”减小到了可容忍的程度(但永远无法完全消除),这些“解释”(a)大概是对所解释的思想的近似,但(b)可理解,因为它们是以先前通过可操作手段相当清晰地表达的语言来措辞的。例如,在任何语言中,用可操作方法来让'是'的符号变得可以理解不需要很长时间。

如果考虑通信的一般含义,语义问题具有广泛的影响。例如,考虑美国新闻片对俄罗斯人的意义。

有效性问题涉及将传达给接收者的意义以多大成功导致他的期望行为。乍一看,暗示所有通信目的是影响接收者的行为似乎太狭窄了。但使用任何合理广泛的行为定义,很明显通信要么影响行为,要么根本没有任何可辨认和可能的效果。有效性问题在美术方面涉及审美考虑。在语音、书面或口头方面,它涉及从风格的纯粹机械性,经过宣传理论的所有心理和情感方面,到对于在本节的有效性问题中的“成功”和“期望”这两个词赋予有用意义的价值判断。

有效性问题与语义问题密切相关,并以一种相当模糊的方式重叠。事实上,所有建议的问题类别之间都存在重叠。

1.3.评论

如此陈述,人们可能倾向于认为Level A是一个相对表面的层次,仅涉及通信系统设计的工程细节;而B和C似乎包含了通信一般问题的大部分(如果不是全部)哲学内容。

工程方面的通信数学理论,主要由克劳德·香农在贝尔实验室发展,确实首先适用于问题A,即从发送方到接收方的各种信号传输准确性的技术问题。但我认为这个新理论有一个深刻的意义,证明了前一段文字是严重不准确的。新理论的一部分意义来自于这样一个事实,即B级和C级只能利用在A级分析时被发现的那些信号准确性。因此,在A级理论中发现的任何限制必然适用于B级和C级。但更大部分的意义来自于这样一个事实,即在A级的分析揭示了这个层次与其他层次的重叠程度超出了一个人可能天真地怀疑的范围。因此,A级的理论至少在相当程度上也是B级和C级的理论。我希望本备忘录的后续部分能阐明并证明这些最后的评论。

2.Level A的通信问题

2.1通信系统及其问题

所考虑的通信系统可以用符号表示如下:

图片

信息源从一组可能的消息中选择所需的消息(这是一个特别重要的注解,需要在后面进行详细解释)。所选的消息可以由书面或口头的文字组成,也可以是图片、音乐等。

发射器将这个消息转换成实际从发射器发送到接收器的通信信道上的信号。在电话通信中,信道是一根电线,信号是在这根电线上变化的电流;发射器是一组设备(电话发射器等),将声音的压力转变为变化的电流。在电报通信中,发射器将书面文字编码为变化长度的中断电流的序列(点、划、空格)。在口头语言中,信息源是大脑,发射器是产生变化的声音压力(信号)的声音机制,通过空气(信道)传输。在广播中,信道简单地是空间(或者是以太,如果还有人更喜欢这个古老且误导性的词),信号是被传输的电磁波。

接收器是一种反向的发射器,将传输的信号转换回消息,并将该消息传送到目的地。当我和你交谈时,我的大脑是信息源,你的大脑是目的地;我的声音系统是发射器,而你的耳朵和相关的第八神经是接收器。

在传输过程中,不幸的是,某些东西被添加到信号中,而这些并不是信息源原本意图传输的。这些不需要的添加物可能包括声音的失真(例如在电话中),或者静电(在广播中),或者图像的形状或着色失真(电视),或者传输错误(电报或传真),等等。所有这些对传输信号的改变都被称为噪声。

关于这样一个通信系统,人们试图提出的问题包括:

a. 如何测量信息的数量?

b. 如何测量通信信道的容量?

c. 在将消息转换为信号的发射器的操作通常涉及编码过程。高效编码过程的特征是什么?并且当编码尽可能高效时,信道可以以多快的速率传递信息?

d. 噪声的一般特性是什么?噪声如何影响最终在目的地接收到的消息的准确性?如何最小化噪声的不良影响,以及在多大程度上可以消除它们?

e. 如果正在传输的信号是连续的(如口头语言或音乐),而不是由离散符号组成的(如书面语言、电报等),这一事实对问题有何影响?

我们将现在陈述Shannon取得的主要结果,不附带任何证明并使用最少的数学术语。

2.2 信息

在这个理论中,“信息”一词具有特殊含义,不得与其普通用法相混淆。特别是,信息不得与意义(meaning)相混淆。

实际上,就信息而言,从目前的观点来看,两条消息(其中一条充满意义,另一条纯粹是无稽之谈)可以完全等同。毫无疑问,香农说“通信的语义方面与工程方面无关”时所指的就是这一点。但这并不意味着工程方面必然与语义方面无关。

当然,在通信理论中,'信息'这个词,与你所确实所说的内容相比,更多地与你可能说的内容有关。换句话说,信息是在选择消息时一个人选择的自由度的度量。如果一个人面临一个非常基本的情况,他必须在两个备选消息中选择一个,那么可以武断地说,与这种情境相关联的信息是一个单位的(信息)。请注意,说其中一个消息传递单位信息是误导性的(尽管通常方便)。信息的概念不适用于单个消息(就像意义的概念一样),而是适用于整个情境,单位信息表示在这种情境中,在选择消息时一个人拥有的自由度量,这方便地被视为标准或单位量。

在这样的选择中,一个人必须在两个消息之间进行选择,这两个消息可以是任何喜欢的东西。其中一个可能是詹姆斯国王钦定《圣经》的文本,而另一个可能是 'Yes.'。发射器可能会对这两个消息进行编码,使得 '0' 是第一个消息的信号,而 '1' 是第二个消息的信号;或者使得闭合电路(电流流动)是第一个消息的信号,而开路电路(没有电流流动)是第二个消息的信号。因此,一个简单继电器的两个位置,闭合和断开,可能对应于这两个消息。

更加具体地说,在最简单的情况下,信息的数量被定义为可用选择数量的对数。由于使用以2为底的对数比使用以10为底的常用对数对数更为方便,所以当只有两个选择时,信息与以2为底的对数成比例。但这是单位的,因此一个两项选择的情境被表征为单位信息,正如上面已经陈述的那样。这个信息单位被称为 '比特',这个术语最初是由约翰·奈德(John W. Tukey)提出的,当数字用二进制表示时,只有两个数字,即0和1,就像十进制数字系统中使用10作为基数一样,其中使用了0到9(包括9)的十个数字。正如上面所指出的,0和1在符号上可以被理解为代表任何两个选择,因此'二进制数字'或'比特'是与具有单位信息的两项选择情境相关联的自然术语。

如果有16个备选消息可供选择,并且在其中他可以自由选择,那么由于16等于2的4次方,即,因此可以说这种情境具有4比特的信息。

当初次接触到信息被定义为选择数量的对数时,无疑似乎有些奇怪。但在理论的展开中,越来越明显的是对数度量实际上是自然的度量。目前,只会给出一个关于这一点的指示。如上所述,一个简单的开关继电器,带有两个标签,比如0和1,可以处理一个信息单位的情境,其中只有两个消息选择。如果一个继电器可以处理单位信息,那么比如三个继电器可以处理多少信息呢?想要说三个继电器可以处理三倍于一个继电器的信息似乎是非常合理的。这确实是这个理论的工作方式,如果使用对数定义的信息。因为三个继电器能够响应 或 8 个选择,这可以用符号表示为 000、001、011、010、100、110、101、111,在这八个选择中,第一个选择中的所有三个继电器都是开的,而在最后一个选择中,所有三个继电器都是闭合的。而 是 3,所以对数度量给予这种情境三个信息单位,正如人们所期望的那样。同样,将可用时间翻倍会使可能的消息数量翻倍,对数也会翻倍;因此,如果用对数度量,信息也会翻倍。

到目前为止的讨论涉及人为简单的情境,信息源只能在几个明确的消息中选择之间进行选择,就像一个人在一组标准的生日祝福电报中挑选一个一样。更自然、更重要的情境是信息源从一组基本符号中做出一系列选择,然后选定的序列形成消息。因此,一个人可以挑选一个接一个的单词,这些被单独选择的单词然后相加形成消息。

在这一点上,一个在迄今为止一直存在于背景中的重要考虑因素成为主要关注的焦点。即,概率在消息生成中所起的作用。因为随着连续的符号的选择,至少从通信系统的角度来看,这些选择是受概率控制的;实际上,这些概率并不是独立的,而是在过程的任何阶段都依赖于先前的选择。因此,如果我们关注的是英语言,且最后选择的符号是 'the',那么下一个词为冠词或非动词动词形式的概率是非常小的。事实上,这种概率的影响延伸到了两个以上的词。在三个词 'in the event' 之后,'that' 作为下一个词的概率相当高,而 'elephant' 作为下一个词的概率则非常低。

有一些概率在一定程度上对英语产生控制的事实也变得明显,例如,我们的语言中字典中根本没有以 j 开头后面跟着 b、c、d、l、g、j、k、l、q、r、t、v、w、x 或 z 的单词;因此,实际上以 j 开头后跟这些字母中的任何一个的概率是零。同样,任何人都会同意这样一个词序列的概率很低,比如 'Constantinople fishing nasty pink.' 顺便说一下,它低,但不是零;因为完全可以想象一个段落,其中一个句子以 'Constantinople fishing' 结尾,而下一个句子以 'Nasty pink' 开头。我们可以顺便观察一下,我们正在讨论的不太可能的四个词的序列已经出现在一句好的英语句子中,即上面的句子中。

按照一定概率产生符号序列(当然可以是字母或音符,而不仅仅是单词)的系统被称为随机过程,而概率依赖于先前事件的随机过程的特例被称为马尔可夫过程或马尔可夫链。在所有可能生成消息的马尔可夫过程中,有一类特殊的过程对通信理论至关重要,这些过程被称为遍历过程。这里的分析细节很复杂,推理也很深奥,以至于一些最优秀的数学家们付出了最大的努力来建立相关的理论;但遍历过程的大致性质是容易理解的。遍历过程是一种产生符号序列的过程,对于调查员来说是一个梦幻般的选择,因为任何合理大的样本都趋向于代表整个序列。假设两个人以不同的方式选择样本,并研究在样本变大时它们的统计性质将显示出什么趋势。如果情况是遍历的,那么这两个人,无论他们如何选择样本,都会在对整体性质的估计上达成一致。换句话说,遍历系统展示了一种特别安全和令人宽慰的统计规律性。

现在让我们回到信息的概念。当我们有一个信息源,通过逐步选择离散的符号(字母、单词、音符、特定大小的点等)来生成消息,该过程的某个阶段选择各种符号的概率依赖于先前的选择(即马尔可夫过程)时,与这个过程相关的信息是什么呢?

满足对“信息”设定的自然要求的唯一量化方式恰好是热力学中称为熵的概念。它以涉及的各种概率表示 - 即在形成消息的过程中到达某个阶段的概率,以及当处于那些阶段时,选择下一个符号的概率。此公式还涉及概率的对数,因此它是上述在简单情况下提到的对数度量的自然泛化。

对于那些学习过物理科学的人来说,与熵类似的表达式作为信息的度量是非常重要的。熵是由克劳修斯在近百年前引入的,与玻尔兹曼的名字紧密相联,并在吉布斯关于统计力学的经典著作中赋予了深刻的意义。熵已经变得如此基本和普遍的概念,以至于埃丁顿评论道:“熵总是增加的法则,热力学第二定律,在自然法则中占据着至高的地位。”

在物理科学中,与一种情境相关的熵是该情境中随机性或“混乱度”的度量;而物理系统趋向于变得越来越无组织,变得越来越完美地混合,这种趋势是如此基本,以至于埃丁顿认为这主要是赋予时间其方向的趋势 - 这将向我们展示,例如,物理世界的电影是向前运行还是向后运行。

因此,当一个人在通信理论中遇到熵的概念时,他有理由感到相当兴奋,有理由怀疑自己掌握了可能是基本且重要的东西。毕竟,在通信理论中,将信息用熵来度量是自然的,因为在构建消息时,信息与我们拥有的选择自由度有关。因此,对于通信源,一个人可以说,就像他也会说对于一个热力学整体来说一样:“这种情况非常有组织,不具有很大的随机性或选择性 - 也就是说,信息(或熵)较低。”我们将在稍后回到这一点,因为除非我完全弄错,这是这一理论更一般意义上的一个重要方面。

在计算了某个信息源的熵(或信息,或选择自由度)之后,可以将其与该熵的最大值进行比较,只要源继续使用相同的符号即可。实际熵与最大熵的比值被称为源的相对熵。如果某个源的相对熵为0.8,这大致意味着该源在选择符号形成消息时,与使用相同符号的最大自由度相比,大约有80%的自由度。1减去相对熵被称为冗余。这是消息结构的一个部分,不是由发送者的自由选择确定的,而是由规定使用这些符号的被接受的统计规则确定的。它被合理地称为冗余,因为消息的这一部分实际上在某种程度上是多余的;也就是说,如果缺少了这一部分,消息仍然基本上是完整的,或者至少可以被完成。

非常有趣的是,英语的冗余度大约是50%,这意味着我们在书写或说话时选择的大约一半的字母或单词是在我们的自由选择之下的,而另一半(尽管我们通常没有意识到)实际上受到语言的统计结构的控制。除了更严肃的含义,我们将这些讨论推迟到最后,有趣的是要注意,如果一种语言在字母选择方面没有至少50%的真正自由度(或相对熵),那么人们就无法构建令人满意的填字游戏。如果它具有完全的自由度,那么每个字母排列都可以成为填字游戏。如果只有20%的自由度,那么构建复杂度和数量足以使游戏受欢迎的填字游戏将变得不可能。香农估计,如果英语语言的冗余度只有约30%,那么就有可能构建三维填字游戏。

在结束关于信息的这一部分之前,应该注意到,Level A 分析处理的信息概念是对信息源整体统计性质的刻画,不涉及个别消息(也不直接涉及个别消息的含义)。这是因为从工程的角度来看,通信系统必须面对处理信息源可能产生的任何消息的问题。如果不可能或不切实际设计一个可以完美处理所有消息的系统,那么系统应该被设计成能够很好地处理最有可能被要求执行的任务,并且应该为罕见的任务而降低效率。这种考虑立即导致了对刻画给定类型信息源可能产生的整个消息集合的统计性质的必要性。而在通信理论中使用的信息正是完成这一任务的。

虽然本文的目的并不是关注数学细节,但对于测量信息的熵式表达,尽可能地理解是至关重要的。如果我们考虑一个包含 n 个独立符号或 n 个独立完整消息的简单情况,它们的选择概率分别为 P1,P2,...,Pn,那么信息的实际表达式为:

这里 表示信息的熵,是第 i 个符号或消息的选择概率, 是以 2 为底的对数。这个表达式的含义是每个符号或消息的信息量,通过其概率的对数来度量,然后加权求和以得到整体信息熵。

这看起来有点复杂,但让我们看看在一些简单情况下这个表达式的行为如何。

首先假设我们只在两个可能的消息之间进行选择,它们的概率分别是 。如果为这种情况计算 H 的数值,结果表明当两个消息的概率相等时,即 时,H 达到最大值,即为1。这意味着在这两个消息之间完全自由选择时,H 最大。一旦一个消息的概率高于另一个(比如 大于 ),H 的值就会减小。当一个消息非常有可能时(比如 接近 1 且 接近 0),H 的值会非常小(接近零)。

在一个概率为1(确定性)且其他概率为零(不可能性)的极限情况下,H 为零(没有不确定性,没有选择的自由,没有信息)。

因此,H 在两个概率相等时最大(即在选择时完全自由和无偏时),并在没有选择自由时减小至零。

刚才描述的情况实际上是典型的。如果有很多选择而不只是两个,那么当各种选择的概率尽可能相等时,H 最大,即在做选择时有尽可能多的自由,尽可能少地被驱使朝着某些具有更多概率份额的选择。另一方面,假设其中一个选择的概率接近 1,以至于所有其他选择的概率接近零。这显然是一种在很大程度上受到朝向某一特定选择的影响,因此选择的自由很小。在这种情况下,H 的值确实计算为非常小 - 信息(选择的自由,不确定性)很低。

当情况的数量固定时,我们刚刚看到信息越大,各种情况的概率越接近。还有另一种增加 H 的重要方法,即通过增加情况的数量。更准确地说,如果所有选择都是等可能的,那么选择越多,H 就越大。如果你可以在五十个标准消息中自由选择,那么相比于在二十五个中自由选择,信息量更大。

2.3.通信信道容量

在前面一节的讨论之后,人们对信道的容量不是以它能传输的符号数量为单位,而是以它传输信息的能力为单位,感到不惊讶。更准确地说,如果源是一种简单类型,其中所有符号的持续时间相同(例如,电传打字机),如果源是这样的,每个选择的符号表示 比特信息(从 28 个符号中自由选择),并且信道可以传输,比如 n 个符号每秒,那么信道 C 的容量被定义为每秒 ns 比特。

在更一般的情况下,必须考虑各种符号的不同长度。因此,信道容量的一般表达式涉及到某个时间段内符号的数量的对数(当然引入了信息的概念,并对应于前面段落中的 s 因子);还涉及到处理的这种符号的数量(对应于前面段落中的 n因子)。因此,在一般情况下,容量不是以每秒传输的符号数量为单位,而是以每秒传输的信息量为单位,其单位是比特每秒。

2.4.编码

一开始就指出,发射机接受消息并将其转换为称为信号的东西,后者实际上是通过信道传递到接收机的内容。

在这种情况下,发射机只是将听得见的语音信号转换成一些东西(电话线上的变化电流),这东西在一瞬间显然是不同的,但显然是等效的。但发射机可以对消息执行更复杂的操作,以产生信号。例如,它可以获取一条书面消息并使用某种代码将其加密为一系列数字;然后将这些数字作为信号发送到信道上。

因此,通常说,发射机的功能是对消息进行编码,而接收机的功能是对消息进行解码。该理论提供了非常复杂的发射机和接收机,例如具有“记忆”的发射机和接收机,因此它们对消息的编码方式不仅取决于该消息的一个符号,还取决于消息的先前符号以及它们已被编码的方式。

我们现在可以陈述该理论为无噪声信道传输离散符号的基本定理。该定理涉及一个容量为 C 比特每秒的通信信道,从具有 H 比特每秒的熵(或信息)的源接受信号。该定理说明通过为发射机设计适当的编码程序,可以以接近 C/H 的平均速率传输符号,但无论编码有多聪明,都不能使其超过 C/H。该定理的意义将在稍后讨论,当存在噪声时,我们将涉及到更一般的情况。但此刻,重要的是注意编码发挥的关键作用。

请记住,与生成消息或信号的过程相关的熵(或信息)是由该过程的统计特性决定的 - 通过到达消息情境和在这些情境中选择下一个符号的各种概率。消息的统计特性完全由源的特性确定。

这里涉及到信号的统计特性,实际上由信道传输确定的信号的统计特性(即信号熵),既受到尝试输入信道的内容的影响,也受到信道处理不同信号情境的能力的影响。例如,在电报通信中,点与点之间、点与划线之间、以及划线与划线之间都必须有空格,否则点和划线将无法识别。

当信道存在某些限制,限制了完全信号自由时,事实证明有一些特定的统计信号特性会导致信号熵大于对于其他任何统计信号结构而言的信号熵。在这种重要的情况下,信号熵确切地等于信道的容量。

根据这些思想,现在可以精确地描述最有效的编码方式。事实上,最好的发射机是这样编码消息的,以使信号具有最适合所使用信道的最佳统计特性 - 实际上,使信号(或者可以说是信道)的熵最大化并使其等于信道的容量 C。

这种编码方式根据上述基本定理导致了符号传输的最大速率 C/ H。但为了获得传输速率的增益,必须付出代价。因为有些反常的情况发生,随着编码变得越来越理想,人们被迫接受越来越长的编码时间。这种困境的一部分是由于在电子设备中,“长时间”可能意味着极小的一部分秒,另一部分是因为存在一种权衡,权衡了传输速率的增益与编码时间的损失。

未完待续,敬请期待。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多