分享

信息熵

 vvviiiooo 2008-09-18

1948 年,香农提出了信息熵”(shāng) 的概念,解决了对信息的量化度量问题。

   
香农指出,它的准确信息量应该是

    = -
p1*log p1 + p2 * log p2 + ... +p32 *log p32)

   
其中,p1p2 , ...,p32 分别是这 32 个球队夺冠的概率。香农把它称为信息熵” (Entropy),一般用符号 H 表示,单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时,对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量 X(比如得冠军的球队),它的熵定义如下:H=-∑pi *log pi

   
变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
   
信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;
   
反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。
   
香农理论的重要特征是熵(entropy)的概念,他证明熵与信息内容的不确定程度有等价关系。熵曾经是波尔兹曼在热力学第二定律引入的概念,我们可以把它理解为分子运动的混乱度。信息熵也有类似意义,例如在中文信息处理时,汉字的静态平均信息熵比较大,中文是9.65比特,英文是4.03比特。这表明中文的复杂程度高于英文,反映了中文词义丰富、行文简练,但处理难度也大。信息熵大,意味着不确定性也大。因此我们应该深入研究,以寻求中文信息处理的深层突破。不能盲目认为汉字是世界上最优美的文字,从而引申出汉字最容易处理的错误结论。
众所周知,质量、能量和信息量是三个非常重要的量。
人们很早就知道用秤或者天平计量物质的质量大小。然而,我们关于热、燃料、功与能的计量问题,迟至19世纪中叶,随着热功当量的明确和能量守恒定律的建立才逐渐清楚。能量一词就是它们的总称,而能量的计量则通过卡、焦耳等新单位的出现而得到解决。
然而,关于文字、数字、图画、声音的知识已有几千年历史了。但是它们的总称是什么,它们如何统一地计量,直到19世纪末还没有被正确地提出来,更谈不上如何去解决了。20世纪初期,随着电报、电话、照片、电视、无线电、雷达等的发展,如何计量信号中信息量的问题被隐约地提上日程。
1928年哈特利(R.V. H. Harley)考虑到从D个彼此不同的符号中取出N个符号并且组成一个的问题。如果各个符号出现的概率相同,而且是完全随机选取的,就可以得到DN个不同的词。从这些词里取了特定的一个就对应一个信息量I。哈特利建议用N log D这个量表示信息量,即I=N log D 。这里的log表示以10为底的对数。后来,1949年控制论的创始人维纳也研究了度量信息的问题,还把它引向热力学第二定律。
但是就信息传输给出基本数学模型的核心人物还是香农。1948年香农长达数十页的论文通信的数学理论成了信息论正式诞生的里程碑。在他的通信数学模型中,清楚地提出信息的度量问题,他把哈特利的公式扩大到概率pi不同的情况,得到了著名的计算信息熵H的公式:
H=∑-pi log pi
如果计算中的对数log是以2为底的,那么计算出来的信息熵就以比特(bit)为单位。今天在电脑和通信中广泛使用的字节(Byte)KBMBGB等词都是从比特演化而来。比特的出现标志着人类知道了如何计量信息量。香农的信息论为明确什么是信息量概念作出决定性的贡献。
事实上,香农最初的动机是把电话中的噪音除掉,他给出通信速率的上限,这个结论首先用在电话上,后来用到光纤,现在又用在无线通信上。我们今天能够清晰地打越洋电话或卫星电话,都与通信信道质量的改善密切相关。
   
于是在20世纪中叶,人类终于对三个非常重要的概念:质量、能量、信息量都有了定量的计量办法。我们应该牢记,为阐明质量概念做出伟大贡献的是发现物体力学定律的牛顿(Sir Isaac Newton1642-1727),为阐明能量概念作出伟大贡献的是热力学第一定律的发现者们:迈耳(Julius Robert von Mayer1814-1878)、焦耳(James Prescott Joule1818-1899)、赫尔姆霍兹(Hermann von Helmholtz1821-1894)、开尔文(Lord Kelvin1824-1907),而为阐明信息概念作出伟大贡献的就是香农。
20世纪中期随着原子弹的出现,物理学成为最荣耀的科学学科。在随后的50年里,晶体管、人造卫星、集成电路、电脑的飞跃发展无不与物理学知识的应用有关。但是我们也惊奇地发现这些新技术都是为提高信息的处理能力服务。光荣的物理学家们忙了半个世纪,终于发现自己仅是给信息科学当仆人。信息量能进入物理学吗?但信息不是物质!在物理学的版图中人们不知道把信息论放到哪里合适。人类知识体现的这种新的混乱局面需要我们不断地澄清。
后来,他在人工智能方面也做了许多工作。例如他设计了一个电子老鼠来解决迷宫问题。他还研究过四色问题。他设计了国际象棋程序,发表在1950年的论文《Programming a computer for playing chess》中。1956年在洛斯阿拉莫斯的MANIAC计算机上实现了一个国际象棋的下棋程序。这一年香农还发表论文说明通用图灵机可以仅用两个状态构建。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多