通信的数学基石——信息论

新用户0118F7lQ 2022-09-21 发布于山东

展开全文

引言

1948年，美国科学家香农（C. E. Shannon）发表了题为“通信的数学理论”论文，这篇划时代学术论文的问世，宣告了信息论的诞生。文中，香农创造性地采用概率论的方法研究通信的基本问题，把通信的基本问题归结为“一方精确或近似地重现出另一方所选择的消息”，并针对这一基本问题给予了“信息”科学定量的描述，第一次提出了信息熵的概念，进而给出由信源、编码、信道、译码、信宿等组建的通信系统数学模型。如今，信息的概念和范畴正不断地被扩大和深化，并迅速地渗透到其他相关学科领域，信息论也从狭义信息论发展到如今的广义信息论，成为涉及面极广的信息科学。

信息论将信息的传递看作一种统计现象，运用概率论与数理统计方法，给出信息压缩和信息传输两大问题的解决方法。针对信息压缩的数学极限问题，给出了信息源编理论；针对信息传输的极限问题，则给出了信道编码理论。

《信息论基础与应用》在力求降低信息论学习对数学理论要求下，加强了信息论中基础概念的物理模型和物理意义的阐述；除此这外，该书将理论和实际相结合，增加了在基础概念的理解基础上信息论对实际通信的应用指导，并给出了相关应用的MATLAB程序实现，以最大可能消除学生对信息论学习的疑惑。

全书共分7章，第1章是绪论，第2章介绍信源与信息熵，第3章介绍信道与信道容量，第4章给出信源编码理论，第5章给出信道编码理论，在此基础上，第6章、第7章分别介绍了网络信息理论和量子信息理论。

什么是信息论

什么是信息论？信息论就是回答：

1）信息是如何被度量？

2）如何有效地被传输？

3）如果接收到的信息不正确，如何保证信息的可靠性？

4）需要多少内存，可实现信息的存储。

所有问题的回答聚集在一起，形成的理论，称为信息论。总之，信息论是研究信息的度量问题，以及信息是如何有效地、可靠地、安全地从信源传输到信宿，其中信息的度量是最重要的问题，香农首次将事件的不确定性作为信息的度量从而提出了信息熵的概念。

香农熵是香农信息论中信息度量的基础，它与事件发生的概率相联系，以“不确定性”作为它度量的基础。在此基础上，可引进联合熵、条件熵、互信息、信道容量、率失真函数等概念，它们可看作是信息度量的其它形式。值得注意的是：香农熵虽然是以概率分布构成的不确定性为度量基础，但是随着信息科学的不断发展，香农熵的理解也被日益加深和扩大，新的信息度量与新的学科分支不断出现，出现了如量子信息论中的冯诺依曼熵等新型熵概念的延伸。

信息论的产生和发展与通信、计算机技术的产生、发展密切相关，信息论的发展大体可以分为早期酝酿、理论建立与发展、理论应用与近代发展等几个阶段。在人类文明的早期，就已经知道可利用信息或信息传递等手段来达到某种目的。例如，古代的烽火台就是用烽、火来传递外敌入侵的信息。但是，大量信息的运用还是在有线、无线电通信产生以后。20世纪初，信息论进入了早期酝酿阶段。为了提高通信的质量与效率，人们开始从物理和数学两个方面考虑。在物理上，主要研究和改进了通信的物理手段和条件，如不同通信方式(有线、无线)的采用、发射与接收设备的改造、波段的选择与信噪比的提高等。在物理技术改进的同时，人们也发现数学理论与工具的使用也变得十分重要，因为通信中的许多问题如果没有数学的描述就无法精准说明。期间信息论的一些基本问题开始形成。如早期编码问题：莫尔斯(Morse)码和波多（Bodo）码把文字通过点、划、空等信号表示，这些码虽然原始，但他们实现了从文字到通信信号的重大转变；再如通信的有效性和可靠性问题：随着通信距离的加大，如何克服噪声干扰就成为通信技术中迫切需要解决的问题；控制论的奠基人维纳(N.Wiener)和美国统计学家费希尔(E.Fisher)与香农同时提出信息度量的一种方式，即信息熵的定义；再如纠错与检测码的产生问题：人们发现由点、划、空等组合成的一定结构的信号具有更强的抗干扰能力。

自1948年香农理论产生以后，信息论得到迅速发展，通常把1948年到20世纪60年代称为信息论的确立期，其主要特点是对香农理论的研究和说明，包括对通信系统的数学模型与基本问题的说明和对信息量、香农熵的来源、意义与作用的讨论，对通信基本问题的讨论，对信源、信道编码问题的模型、本质问题与意义的讨论，以及信源、信道编码的编码实现与应用问题等。这一阶段完成的主要标志是对以上问题实现了严格的数学描述与论证。同时，一系列专著的完成也标志着香农信息论的确立，如B.McMillan、A.Feinstein(1954)、Robert G.Gallager(1968)和J.Wolfowitz(1978)等人的重要论著，这些著作基本上完成了对香农理论的阐释，在理论上解答了通信中所提出的问题。随后是香农信息论的发展期。由于香农理论的阐明与通信技术的发展，信息论的研究范围日益扩大。1959年，香农发表了《保真度准则下的离散信源编码定理》，首次提出了率失真函数及率失真信源编码定理。另一方面，多用户信息论的最早思路也是由香农于1961年在《双路通信信道》中提出，由此开拓了多用户信息论的研究。在此基础上，Cover提出了广播信道，P.Bergmans，R.G.Gallager等人分别研究了广播信道的容量区域问题，指出只有降价广播信道的容量区域可以求解；同时Gamal于1979年找到了降价中继信道的容量区域。各种不同类型的多用户信源、多用户信道模型被提出，许多相关的编码定理也得到证明。最后，信息论近期发展的主要特征是向多学科结合方向发展，其重要的发展方向有：信息论与密码学、算法信息论与分形数学、信息论在统计与智能计算中的应用等等。

信息论的产生是以1948年香农奠基性论文《通信的数学理论》为起点，至今已有70多年的历史。在这70多年中，电子、通信与计算机技术、产业与市场经历了空前的、大规模的发展，信息技术的产品进入千家万户，成为工作、学习与生活中不可缺少的组成部分。可以毫不夸张地说，信息论在这场空前的技术革命的许多问题中起到了理论基础、思想先导与技术关键性的作用。现代的快速通信、多媒体与网络技术、大数据处理无不受益于信息论与编码理论，以及它们的相关学科的发展，这些发展又推动了信息技术的革命，也丰富了信息论的内容。

通信系统模型

香农信息论研究的问题主要来自于通信系统。图1是目前较常见、较完整的（不含加密）的通信系统模型。

图1-1 通信系统模型

由图1可知，通信过程可归结为：首先将信源发出的消息（又称为原始信息）由编码变换为信号，并进入信道成为信道的输入信号(简称输入信号或入口信号)。输入信号经信道的传输，到达通信的另一端，形成输出信号(或出口信号)。输出信号经译码处理把输出信号变为消息，这种消息是原始消息的还原，所以又称为还原消息。还原消息最终由接受者接受，实现通信过程。

那么信息是如何有效地被传输的？信息论认为是通过信源编码方法。下面我们以一无失真信源编码为例说明信息是如何有效地被传输的？即信息压缩过程。假设信源有4个符号A，B，C和D，它们的分布概率分别是1/2,1/4,1/8和1/8。对于这样的信源，若要进行信息传输，最简单的方法是将每个信源符号用两个'0’、'1’信道符号表示，即A用00，B用01，C用10，D用11，那么，每个信源符号在传输时用了2比特信息表示；由于信源分布不均匀，可以实施信息的压缩，即信源编码，如哈夫曼编码。通过编码，可将A编码为0，将B编码为 10，将C编码为110，且将D编码为111。计算平均每个信源符号用的信道符号数可表示为

由此可见，通过信源编码，每个信源符号现仅需要7/4比特的信息表示，而不是原来2个比特，所以信息被压缩了。

更为重要的是，信息论通过信源编码理论，如无失真信源编码理论和限失真编码理论，给出了信息能被压缩的最大极限。

我们再看一下信道编码，它的目的是保证信息传输的可靠性。我们知道，由于信道中存在着噪声，当信息传输时会产生差错。例如对于二进制对称信道（交叉概率为e），由于噪声的干扰，当发送'0’时接收的符号可能是'0’（概率为1-e），也可能是'1’(概率为e)；同样，当发送'1’时，接收到的符号可能是'0’（概率为e），也可能是'1’（概率为1-e）。由此可见，信息在有噪声的信道中传输时会产生差错，即正解接收概率只有1-e，错误概率为e。那么，通信系统如何保证信息的可靠呢？信息论告诉我们可以通过信道编码。现我们通过最简单的重复编码方法来说明如何通过信道编码提高系统的可靠性。针对重复编码，可将'0’编码成'000’，将'1’编码成'111’。这样，在接收端，根据概率译码准则，人们获得正确的恢复消息的概率将被提高。例如，当发送信息为'0’，通过信道编码，被编码成'000’，且'000’将在信道中传输。当'000’在信道中传输时，接收端可能接收到'000’（没有差错），可能接收到'100’，'010’和'001’（出现一个差错），也可能接收到'110’，'011’和'101’（出现两个差错）和'111’（出现三个差错）。对于'100’，'010’和'001’，由于出现一个差错的概率大于出现两个差错、出现三个差错的概率，我们认为它从000差错过来的可能性要大于从111差错过来的可能性。因此若我们接收到的是'000’，'100’，'010’，'001’，我们将它们译码为000，于是，我们恢复出发送的信息为'0’。这样，正解译码的概率为1-3e²-e³。由于e远小于1，如e＝0.01，则经过信道编码后的正确概率将为0.999699，而没有信道编码的正确传输率为0.99，由此可见通过信道编码，获得正确信息的概率被提高，信道编码成为在有噪声干扰的信道中信息传输可靠性的保证。

信息论是研究在含噪信道中，信息传输的有效性、可靠性和安全性问题。表现为三大编码定理，即无失真信源编码定理，又称为第一极限定理；信道编码定理，又称为第二极限定理；限失真信源编定理，又称为第三极限定理。因此，香农信息论又常称为狭义信息论。

信息论的应用及成果

自从香农信息论和相关编码理论产生以来，随着电子、通信与计算机的发展，信息论的研究成果得到了广泛应用，最后我们看看经过70多年的发展，信息论获得到哪些应用和成果。

编码技术在快速通信领域中的应用

20世纪70、80年代的编码理论在快速通信技术中得到大量的应用。当时的通信技术正在从低速向高速发展，通信手段正向微波、卫星等方向发展。因此误差干扰问题就突现出来。利用纠错码可大大降低通信中的差错率。当时的代数码如BCH码、R-S码等，为克服误差干扰发挥了重要的作用，成为通信工程不可缺少的组成部分。另外，卷积码理论当时也有重要发展，如卷积码的维特比（Viterbi）译码算法产生了新一代卫星的通信技术，如“先驱者”号太空探测器、木星和土星探测器都采用了卷积码技术，成为当时信息与编码理论在工程技术应用的一个光辉典范。

调制解调码技术

20世纪80、90年代的信息编码理论应用的两项重要成果是调制解调码理论及数据压缩理论在多媒体技术领域中的应用。由G.Ungerbock等人在1982年利用网格码与软判决理论，对高斯信道给出了调制解调码的结构与编、译码算法。该技术的出现从根本上改变了数据通信的状况，使调制解调码通信速度从原来的1200比特/秒逐步增加到30000比特/秒，数据传输速度提高了25倍。

数据压缩理论与技术

数据压缩理论分无失真压缩与限失真压缩两大部分，它们有各自的理论基础与应用范围。无失真压缩理论适用于离散信源，且与数据存储密切相关。目前在计算机数据与文件的存储中得到广泛应用，成为计算机软件技术中不可缺少的一个组成部分。限失真压缩理论在20世纪70年代就已提出，T.Berger的专著标志着该理论的成熟。但数据压缩技术的大量应用是在90年代。由于多媒体技术的需要，在综合无失真数据压缩技术、限失真压缩理论与信号处理技术的基础上，形成实用化的限失真压缩技术。该技术在不影响人的视觉、听觉效果的条件下大大压缩了通信与存储中的信息数据量，如动态、彩色图像的数据压缩率达到50:1至60:1。有了这样的压缩多媒体技术才真正具有实用意义，出现了多媒体技术压缩标准，如JPEG(Joint Photographic Experts Group)，MPEG(Moving Picture Experts Group)等静态或动态图像数据压缩技术标准。1989年CCITT（国际电报电话咨询委员会）提出的H.261视频压缩标准其压缩比可达到25:1至48:1。2013年2月，ITU-T VCEG(Video Coding Experts Group)正式推出视频压缩最新标准H.265，为音视频服务提供了更优的编码方法。

新型领域信息理论

随着信息技术应用的不断深入，出现了网络信息论、量子信息论和生物信息论。这些新型领域信息理论既与基本信息论相关，又具有自已的特点，其中有的信息理论刚刚被提出，有的信息理论已基本完成，这也正是信息论今后发展的新起点。例如，量子信息论自从BB84协议提出以来已得到迅速发展，形成了类似信息与编码理论的一整套体系结构，定义了量子信源、量子熵，对量子信息进行数据压缩的量子信源编码，量子率失真理论等，也定义了量子信道、传输经典信息的信道容量、传输量子信息的信道容量、在纠缠辅佐下的信道容量，以及量子信道编码等，本书在第7章着重介绍了量子信息论的基本理论。

模拟话路中数据传输速率的提高

最初，调制解调器(Modem)调制解调的速率为300比特/秒，而信息论指出标准带宽为4KHz，信噪比为25dB的话路信道的极限速率应在25千比特/秒。在信息理论指导下，1967年调制解调器传输速率提高到4800比特/秒，之后在1971年达到9600比特/秒，1980年能够达到14.4千比特/秒，1985年提高到19.2千比特/秒。

降低信息传输所需的功率

信息理论已证明可采用低码率的信道编码降低传送单位比特所需的能量E_b与噪声功率谱密度N₀之比。利用不太复杂的信道编码可以使同样误码率下所需的E_b/N₀比不采用信道编码时低6dB左右。好的信道编码方案，（如RS码做外码，卷积码为内码）可以使误码率在10^-5的情况下使E_b/N₀降到0.2dB。

计算机中的容错问题

计算机的存储器是计算机的重要组成部分。内、外存存取速度不断提高，如何保证存取的正确性已成为越来越突出的问题。现在广泛采用的解决办法是增加适当的检错纠错装置。例如，IBM4300、Cray-1等大型机的内存都有较简单的检错纠错措施，会根据不同的要求，可采用最简单的Fire码、BCH码甚至RS码。

数据存储

文本数据的存储和读取以及音视频数据的存储与播放（如计算机硬盘、CD、VCD、DVD等）所经过的通道也如同通信信道一样存在噪声，也有带宽限制，因此也要求传输的有效性和可靠性。按照香农信息论的理论，可以采用相应的编码技术来实现。当前，数据存储中使用了各种压缩技术来提高有效性，并采用信道编码来提高可靠性，最典型的纠错编码是RS码（Reed-Solomon code）。

相关图书