本书作者是美国《纽约时报》的记者兼编辑詹姆斯·格雷克,也是著名的科普作家,科普读物拥有百万数量级的销量。《信息简史》的英文书名直接翻译是,信息:它的历史,它的理论和它掀起的洪波。 ![]() 一、信息的历史 1.1会说话的非洲鼓 早期,非洲部落用鼓来传递一些简单的信息;在作战的时候传达进攻或撤退的命令等。虽然只有一部分人知道怎样用鼓声来沟通,但几乎所有的人都能够理解鼓声的含义;虽然鼓手的节奏、快慢会有不同,但是不妨碍他们表达同一个意思。 ![]() 1.2文字 文字是一种外在的符号,它将知识从人那里抽离出来,要将他们的记忆存储在别处。信息传播工具是独立于“心智”的,本身不带情感、立场和认识。 为了避免文字的复制产生差错,逻辑与词典应运而生。逻辑使得传播思想的文字表述具有严谨性,为文字传播信息的正确性提供保障。乡村教师罗伯特· 考德里在1604年编的英语词典《字母排表》是按照字母顺序排列的。这种排列法后来被称为“词典排列法”,它给不知道词义的读者提供了查询的方便。 1.3 机器计算 18世纪,对数表在欧洲盛行,因为对数可以极大地降低计算的复杂度。英国数学家巴贝奇设想造一台机器来制作对数表,并将这台机器称为差分机。在英国财政部的支持下,巴贝奇历经10年才造出了可以演示的样机,然而真正的差分机一直没有造出来。 ![]() 后来,巴贝奇又构思一种新的计算机,并称之为“分析机”,顾名思义,这种机器会思考。巴贝奇关于计算机的构思,特别是分析机成为以后计算机的雏形,为此我们称它为零代计算机。零代计算让信息的存储和产生与计算机器挂上了钩。 1.4电报 18世纪人们认识了电,也知晓电可以远距离传送,从那时开始人们就想用电来传输信息。科学家知道电从正极流向负极,并造出了安培计来检测电流方向。大数学家高斯是第一批利用安培计让电来转递信息的实验者。 后来的电报采用的摩尔斯电码,它是由美国人摩尔斯和韦尔发明的。根据电键接通的时间分别画出点和线,相当于现在的0和1,韦尔发明了发报用的电键和接收端的自动记录设备,这样可以自动记录电报内容。摩尔斯将26个英文字母和0-9的10个数字根据在传输中出现的频率编制了摩尔斯电码,一个普通的操作员一分钟至少可以发送30个字母或数字。 ![]() 电报促使了密码的诞生。例如,A给B发了一份电报,这两个人早就约定了一个数字3,二进制为11,单词ask正确的摩尔斯代码是 000100 010110 001011,但是发报人对这个二进制数加11,发送的成了000111 011001 001110,接受方按照正常摩尔斯代码查到的是dvn。只有接受者事先知道3这个数,在摩尔斯代码表上朝后倒数3个字母就得到了正确的报文。这个过程就称为加密,3这个数字称为密钥。出现加密是信息传递的一个重要的里程碑,它说明信息在传播过程的调制和恢复是可以定制的。 二、信息理论 2.1 美国人克劳德·埃尔伍德·香农 1937年,香农到贝尔实验室实习,对继电器做了深入的研究。他尝试将继电器的两种状态,断开和导通与数字1和0相对应,然后尝试应用布尔代数对多个继电器连接结果进行分析。香农在一封信上描述了他对信息传输过程的研究,他说几乎所有的通信系统都存在两个函数和两次变换,发送方要发送一个信息给接收方,记为函数小f,但是在发送的过程中这个小f 函数被转换成另一个大F函数,因此接受者收到的是大F,他通过一定的设备,相当于密钥,将这个大F转换成小f ,从而完成“精确的复制”。香农指出,“精确的复制”很难实现,总会有“失真”,怎样估计和排除“噪音”是通信的重要任务。 香农将熵引进到信息论。首先,信息论里的信息“虽然与日常意义的信息有关,但是又不同,不应该将他们混淆。”香农说:“信息与不确定性相关。”它是不确定性带来的。香农想到用“熵”来描述信息。 ![]() 克劳德·埃尔伍德·香农 如果一个事件H有n种可能的结果,出现这些结果的概率是已知的,分别是P1、P2、P3等。我们可以用公式计算出这个事件的熵。如果这个事件只有一个结果,那么n=1,P1=1,熵H等于0;如果事件有两个结果,它们出现的概率是一样的,也就是n=2,P1=P2=0.5,计算出来熵等于1;进一步,事件还是只有两个结果,但它们出现的概率不一样的,一个是1/4,另一个是3/4 ,这时可以算出熵大约等于0.811。 香农将算出的结果用比特做单位,那么当n=1时,这是确定事件,熵为0比特;当存在两种结果,而出现两种结果的可能性是一样的时候,熵是1比特;当存在两种结果,而出现两种结果的可能性是不一样的时候,这时熵就小于1比特了。熵越大的事件不确定性也越大,而信息是用来减少不确定性的,就是用来减少一个事件的熵。 2.2 计算机之父——阿兰· 图灵 图灵构造了逻辑上的图灵机,尽管他没有造出计算机,但是今天他的机器无所不在。 图灵构思这样的机器至少有“纸带” “符号” 和 “状态” 几个组件,他详细定义了这些组件的构造与运作模式。他论证了这台机器能够算出多项式方程的解,能够算出圆周率和自然对数的底数,他还论证了确实存在不可计算的数,而且“极大多数”的数是不可计算的。目前的计算机设计还没有跳出图灵机的框架。 2.3 美国人诺伯特· 维纳 二战期间,维纳是第一批被美国招募参加火炮控制的专家,他的主要工作是噪声处理,这项成果后来被称为“维纳滤波”,维纳与同事比奇洛将对火炮追踪敌机的行为称为“伺服控制”。 维纳最著名的书是一本很薄的小册子《控制论——或关于在动物和机器中控制和通信的科学》。这本书最核心的是负反馈原理,维纳认为负反馈是动物与机器在控制行为中的基本规律。他指出闭环控制系统不是根据目标完成控制的,而是根据现状与目标之间的偏差完成控制的。维纳强调了这个偏差便是一种信息,信息用来降低盲目性。 三、信息掀起的洪波 3.1 遗传密码的破解 1910年,丹麦植物学家约翰逊首先采用“基因”这个词来表示遗传的载体,他解释说,基因未必是一种独立存在的物质。这意味着基因可以是一种信息。 孟德尔是第一个证明基因存在的生物学家。他用黄色和绿色两种豌豆做试验,这两种豌豆可以杂交,但是杂交后代要么是黄色要么是绿色的,没有出现黄绿色的豌豆。他用的词叫“遗传因子”,他说,遗传因子不会混合也不会扩散,它在遗传过程中是不变的。 1953年,生物学家詹姆斯· 沃森和弗朗西斯· 克里克在《自然》杂志上发文,声称他们找了基因。他们发现DNA具有双螺旋结构,两条链相互缠绕但不相交,之间由碱基连接,碱基的精确序列承载着遗传信息的编码。 3.2 对文化发展的冲击 1970年,英国生物学家道金斯在《自私的基因》这本书里提出了“模因”的概念。“模因”学说也称文化进化论,它认为文化发展也是传承的,就像生物的遗传一样,代替基因的是模因,它寄生于人类的大脑中得以传承。如果说基因是生物信息的载体,遗传是生物信息的传递,那么模因就是文化信息的载体,社会形态发展根源是文化信息的传递。 3.3 对随机理论的冲击 随机理论的奠基者是苏联的数学家柯尔莫哥洛夫,柯尔莫哥洛夫丰富了香农的研究,学术界将他的贡献称为“算法信息论”。 计算出一个数要依靠程序,有的程序简单,有的复杂,因此柯尔莫哥洛夫在算法信息论里定义了“复杂度”,它与程序的复杂程度成正比,与这个数带有的信息量成正比。有的数可以用较短的算法计算出来,而有的数不行,不能用简短算法计算的数称为“随机数”。随机数有更大的不确定性,也就是说,它的“熵”更大。 3.4 洪波之后的世界 第一个现象是信息泛滥。人们造了无数多的信息仓库,而且信息的持久性和遗忘的困难性给信息仓库的管理带来了莫大的混乱。大爆炸使得信息熵增大,权威性丧失和混乱的增剧。 第二个现象是存储技术的飞速发展。香农曾经估算过美国国会图书馆藏有的资料信息量约为十太字节。现在这个图书馆还收集数字资料,到2010年2月,资料的信息量已经达到160太字节,是香农时代的16倍。现在更发明了云端技术,其容量甚至无法估量。 我基本忽略了前面精彩的非洲鼓的故事,原因在于,作为一个语言学出身的人,这部分知识(语素、信息、语法结构的关系)早已熟悉,读起来没什么收获,也就没啥可写的。 虽然我标题写的是「信息论的入门」,但实际上,读完这本书离入门还有十万八千里。这本书能让你明白,为什么信息论的所有教材都是铺天盖地的数学,明白为什么有的人说信息论是一门纯应用数学的学科。 最后想说的是,作者每一章后面都有几十个脚注,足见其用心与演进。这本书不是国内哪些张口就来的认知升级,而是一个诚恳的作家7年的呕心之作,值得一读。 |
|