关于信息熵及信源熵率

FeelKill 2011-04-13

展开全文

关于信息熵及信源熵率

摘要: 熵与温度、压力、焓等一样，也是反映物质内部状态的一个物理量。它不能直接用仪表测量，只能推算出来，所以比较抽象。在作理论分析时，有时用熵的概念比较方便。该文指出了如何用统计物理的方法计算随机过程的多重分形维，以二态隐马尔可夫信源作为例子，该文计算了其熵率。计算结果和理论结果的比较表明，用统计物理的方法计算隐马尔可夫过程熵率具有实用价值。这一方法可以推广到一般信源熵率的数值计算。从数学模型的角度来说，信源和随机过程有着一一对应的关系。

关键词: 熵;信源；熵率；多重分形谱；隐马尔可夫过程

引言

在自然界发生的许多过程中，有的过程朝一个方向可以自发地进行，而反之则不行。例如，一个容器的两边装有温度、压力相同的两种气体，在将中间的隔板抽开后，两种气体会自发地均匀混合，但是，要将它们分离则必须消耗功。混合前后虽然温度、压力不变，但是两种状态是不同的，单用温度与压力不能说明它的状态。两个温度不同的物体相互接触时，高温物体会自发地将热传给低温物体，最后两个物体温度达到相等。但是，相反的过程不会自发地发生。上述现象说明，自然界发生的一些过程是有一定的方向性的，这种过程叫不可逆过程。过程前后的两个状态是不等价的。用什么物理量来度量这种不等价性呢?通过研究，找到了“熵”这个物理量。

熵的概念最初是由R.J.克劳修斯在19世纪中叶建立的，1870年，玻耳兹曼给出了熵的统计解释。熵概念对于初学者，一直是一个较抽象并难以通俗表达的物理概念。但是，近40年来，熵的概念有了迅速而广泛的发展。在天体物理中，黑洞的熵与面积这样的几何概念有联系；在信息论中，信息的熵与信息量的概念有联系，并且出现负熵的概念；在生物学中，生命现象也与熵有着密切关系。此外，由普利高津和哈肯建立的非平衡态统计耗散结构理论及协同学理论，使人们对熵规律有了更新的认识，在无序中产生有序机制的出现，使得熵在许多方面都显示出它的重要性。信源输出信号在数学中可以用随机过程加以描述，因此，可以说信源的建模在某种程度上也就是用恰当的随机过程来描述信号。从复杂性科学的角度来说，熵率只是非线性系统多重分形谱中特殊的一维，即信息维。因此熵率的计算完全可以用统计物理的方法加以解决。多重分形可以分为规则分形和不规则分形。规则多重分形可以用解析方法或统计物理的方法得到它们的多重分形谱，不规则多重分形谱只能用统计物理的方法得出。在得到其多重分形谱以后，熵率就可以从多重分形谱中计算得到。

熵的单位为 J/(mol·K) 或 kJ/(kmol·K)。但是，通常关心的不是熵的数值，而是熵的变化趋势。对实际的绝热膨胀过程，熵必然增加。熵增加的幅度越小，说明损失越小，效率越高。

在本文中，我们引入统计物理中的方法，用以计算信源的熵率。我们将信源的随机模型和非线性动力学中对象之间建立联系，其中离散无记忆信源、隐马尔可夫信源和康托集之间具有对应关系。我们还将演示如何用解析的方法计算离散无记忆信源的熵率。并且这种统计物理的方法，完全可以推广到一般信源熵率的计算。

1 信息熵

信息论的创始人申农引入了一个重要概念：不确定程度。中文电报中的每个字都由4位数字码代表，在没有收到一个数字码以前，人们对它到底是什么并不知道，如果设法计量这个不确知的程度有多大，就为计量信息找出了线索。
信息论指出，如果一个事件（例如收到一个信号）有n个等可能性的结局，那么结局未出现前的不确定程度h与n的自然对数成正比，即有

　　（c为常数）　

　（1）

一个电报码从0到9共10个等可能结局，不确定程度就是cln10。当人们收到一个电报码后，就消除了这种“不确定”。这样，人们就从消除了多少不确定程度的角度来定义一个消息中含有的信息量。
  4个数码组成一个中文字，因此一个汉字带来的信息量是4ln10或者ln10⁴。
    申农把不确定程度h称为信息熵，就这样，“信息”这个词进入了科学的领地，它在定量化的进程中又与物理学中的“熵”概念联系起来。
    这种对信息的理解完全排除了获得信息的载体是什么的影响，也排除了信息本身对信人是否重要之类的干扰，从而使信息这个词在极为广泛的领域中都能应用。
    假定一个信息量是n个相互独立的选择的结果，其中每个选择都是在0或1中作出，则这个信息量的可能的选择数值为

于是

令，则可得到常数

这样计算出来的信息量单位称为比特(bit)，在通信中广泛使用。
一条通讯线路如果1s中能传送75bit的信息，我们就说这条线路传输能力为75波特(baud)，波特就是1bit/s。而在计算机述评中常用字节(byte)作为信息量的单位，1个字节是8个比特(1byte=8bit)，它容得下一个8位二进制数，或说它可记住256个(2⁸)可能状态中究竟是哪一个。平常我们说微机的内存为64k(k为千――kilo)，是说它供用户任意存放数据的空间ram是 byte(字节)。
上面所讨论的计量不确定程度（或信息）的方法仅适用于对某事件的结局为几个等可能结局时的情况。当几个结局出现的机会并不相同时，我们可以这样来计量。设有a₁，a₂，…，a_n共n个可能的结局，每个结局出现的几率分别为p₁，p₂，...，p_n，则其不确定程度h由下式给出

（2）

当时，即等可能结局情况下，由于各结局出现机会相等，有，（2）式则还原为

这就是等可能结局情况下的计量公式（1），因此（1）式仅是（2）式的一个特例，（2）式是信息熵的一般定义，信息熵也称为申农熵。
注意：在（2）中，由于0＜pi＜1，有lnpi＜0，因此信息熵 h ＞ 0。（2）式前的负号正是为了保证熵不可能为负值。
若考虑离散型随机变量x，它可以离散地取值x₁，x₂，x₃，…，对应的几率分别为p₁，p₂，p₃，…，则离散型随机变量x的信息熵

(3)

对应于多维情况，例如对二维离散型随机变量，若p（x_i，y_j）是x为x_i，y为y_j时出现的几率，则复合信息熵为

（4）

可以这样说，只要知道概率分布，就可以求出这个分布（一组概率值）对应的信息熵值（一个数值），它表示在一次抽样时变量出现什么值（即结局）的不确定程度。
对连续型随机变量，容易得到类似的计量公式。
对于一维连续型随机变量x，若它是概率密度分布函数为f（x），则x在区间（a，b）的信息熵为

（5）

信息熵的概念建立，为测试信息的多少找到了一个统一的科学的定量计量方法，奠定了信息论的基础。这里引入的信息熵的概念，既不与热力学过程相联系，也与分子运动无关，但信息熵与热力学熵之间有着密切的关系。
可以证明，信息熵与热力学熵二者之间成正比关系。从某种意义上讲，我们完全可以这样看，熵概念在热力学中即为热力学熵，应用到信息论中则是信息熵。

2.1 不均匀康托集的多重分形谱和熵率

在下面我们简单介绍一下康托集和多重分形谱的概念，关于更多有关康托集和多重分形谱的介绍请参见文献[7]。一种质量分布不均匀的简单康托二分集可以由如下方式生成：初始只有一条线段，每操作一次，将原有线段三等分并舍去中间1/3段后，余下两段的质量分布概率分别为P和1

原文： http://blog.sina.com.cn/s/blog_4ac0eed901000ckf.html