分享

从掷骰子到阿尔法狗——趣谈概率

 huyanluanyuya 2022-12-23 发布于河北

《从掷骰子到阿尔法狗——趣谈概率》

作者:我就是个傻B 

来自我就是个傻B的雪球专栏

转载▼

标签:杂谈

分类:

处处是概率,万物皆随机,世界由变量构成,人人都有必要学点概率论。本书以悖论、谬误、以及一些饶有趣味的数学案例作先导,讲述概率论中的基本知识及其在物理、信息、金融、网络、人工智能等技术中的应用。

作者张天蓉,物理学者,科普作家。美国得州奥斯汀大学理论物理博士,现住美国芝加哥。

第一章:趣谈概率

研究随机变量及其概率的数学理论称为概率论。概率论源于赌博,17世纪欧洲贵族盛行掷骰子、抛硬币的赌博方式。1654年,一位法国贵族向科学家帕斯卡请教一个亲身经历的分赌注的问题:贵族和赌友各出32枚金币为赌注,抛掷硬币,出现正面贵族得一分,出现反面对方赢一分,谁先得到十分,谁就赢得全部的赌注。赌博进行了一段时间后,贵族得了8分,对方也得了7分。但这时贵族接到命令要觐见国王,于是只好中断赌博,那么64枚金币应该如何分配?帕斯卡认为从赌博的中断点出发,还需要4次来决定最后的输赢,这4次随机抛掷将产生16种等概率的可能,因为贵族赢还需要2次正,对方赢需要3次反,所以在16种结果中有11种是贵族赢,5种是对方赢,贵族赢的概率是11/16,对方赢的概率是5/16,按此比例来分配赌注应该是最合理的方法。帕斯卡由此提出了离散随机变量的期望值概念,期望是概率论中的重要概念,期望值是概率分布的重要特征之一,它常被用在与赌博相关的计算中。比如美国赌场有一种轮盘赌,轮盘上有38个数字,每一个数字被选中的概率都是1/38。顾客将1美元压在其中一个数字上,押中了顾客得到35倍的奖金,否则赌注就没了。那么如何来计算顾客的期望值呢?赢钱数额÷发生的概率,再加上输钱数额÷输钱的概率,顾客赢钱的期望值是-0.0526,也就是说对赌徒而言,每赌1美元就会输掉5美分,所以赌场永远不会亏。

我们的生活中有许多难以确定的随机变量,比如股票的价格,明天天气等等,随机变量不是用固定的数值表达,而是用某个数字出现的概率来描述。在经典意义上,概率可以被粗糙的定义为事件发生的频率及发生次数与总次数的比值,更准确的说是总次数趋于无限时,这个比值趋近的极限。虽然概率的定义不难懂,但是概率论是一个经常出现与直觉相悖的奇怪领域,连数学家也是稍有不慎便会一塌糊涂。经典概率中有个悖论叫做基本比率谬误,比如小明去医院做检查,患有某种疾病的结果居然为阳性,他惊吓之余立即在网上查资料,网上说检查总是有误差的,这种检查有1%的假阳性概率和1%的假阴性概率,这句话的意思是说在得病的人中做检查有1%的人是假阴性,99%的人是真阳性,而在未得病的人中做检查有1%的人是假阳性,99%的是真阴性。于是小明认为自己得这种疾病的可能性为99%。但学过概率论的医生却告诉他,他得病的概率只有0.09%。他是这样计算的,因为测试的误报率是1%1000个人将有10个被曝为假阳性,而根据这种病在人口中的比例1‰来计算,真阳性只有一个,所以大约11个测试为阳性的人中,只有一个是真阳性,因此小明被感染的概率大约为1/110.09%

抛硬币和掷骰子游戏中涉及的概率是离散的,抛掷的结果数目有限(正或反),此类随机事件结果构成的样本空间是离散的、有限的。如果硬币或骰子是对称的,每个结果发生的概率基本相等,这一类随机事件被称为古典概型,数学家们将古典概型推广到某些几何问题中,随机变量的结果变成了连续数目,成为无限多,这种随机事件被称为几何概型。第一个几何概型是布丰投针问题,一根长度为L的针,随机的投向相隔为D的平行线,针压到线的概率是多少?古典概型求和在几何概型中要用积分代替,概率的计算可以简化为几何图形的面积计算,计算结果出乎人的意料,布丰投针的结果提供了用概率实验来确定圆周率的方法,用一根针丢来丢去,也能丢出一个数学常数来。

图片

本福特定律是一个听起来有点奇怪并违反直觉的现象,叫首位数字定律。本福特收集并研究了两万多个统计数据,分成20组,包括河流的面积,人口统计,银行的存款余额,分子及原子质量,物理常数等多种资料。这些数字中人们发现在很多情况下,第一个数字是1的概率要比靠直觉预料的11%大的多(达30%),数字越大出现在第一位概率就越小,数字9出现于第一位的概率只有4.6%左右。虽然本福特定律适用的范围非常广泛,但是这些数据必须跨度足够大、样本足够多,人为数据不满足本福特定律,比如电话号码、身份证号码、彩票等等。美国税务局就利用本福特定律来检验报税表,揪出逃税漏税行为的人。

为什么赌徒十赌九输?这其中的原因有两个,一方面是因为所有赌场游戏的概率设计本来就是有利于赌场(稍稍高于赌客赢钱概率),另一方面,利用赌徒心态也是赌博游戏设计者的拿手好戏,比如说赌徒谬误。赌徒谬误来源是把前后互相独立的随机事件当成有关联的,比如说连续抛硬币两次,一次是随机事件,再抛一次是另外一个随机事件,第一次和第二次相互独立,再多抛几次也是一样。但赌徒总会犯糊涂,比如连续抛硬币五次都是1,第六次你也许会认为这一次1出现的概率更小了,这种想法是掉进了赌徒谬误的泥坑,误区便是将大数定律运用于小样本区间,将小样本中事件的概率分布看成总体分布,把短期概率当成长期概率。

大数定律决定实验多次后平均值的极限,但并未涉及事件频率和概率的分布问题。比如,100个学生的身高平均值仅描述了这100个数据的总体特征,并不能说明100个数据在每个值的分布情况,分布描述的是每一个不同的数据段中的人数在总人数中所占的比例,也就是概率。在现实生活总,当样本足够大时,很多分布逼近一个特别理想的正态分布(也称为高斯分布),其分布曲线呈钟型,两头低,中间高,左右对称,因此人们又常称之为钟形曲线。大量的统计实验告诉我们,钟形曲线随处可见,我们的世界似乎被代表正态分布的钟型曲线包围着,很多事物都是服从正态分布的,人的身高、灯泡的寿命、面包的分量、学生考试分数等等。正态分布是被大自然选择出来的特殊使者,他有着深奥的物理意义,充分表现出随机中的必然。钟型分布曲线无处不在,这是为什么呢?其奥秘来自于中心极限定理。

中心极限定理是奇妙的,在一定条件下,各种随意形状概率分布生成的随机变量,它们加在一起的总效应符合正态分布。这点在统计学实验中特别有用,因为实际上的随机生物过程或者物理过程都不是只由一个单独原因引起,他们受到各种各样随机因素的影响。中心极限定理告诉我们,无论引起过程的各种效应的基本分布是怎么样的,当实验次数充分大时,所有这些随机分量之和近似是一个正态分布的随机变量。比如,许多因素决定了人的身高,营养、遗传、环境、性别等等,这些因素的综合效果,使得人的身高基本满足正态分布。为什么大自然这个上帝创造出来一个中心极限定理?物理学中有一个最小作用量原理,无疑是大自然最迷人、最美妙的原理之一,它的简洁性和普适性令人震撼,大自然犹如一个经济学家,总是使物理系统的作用量取极值,就像光线选择时间最短的路径传播,引力场中的物体沿测地线(空间中两点的局域最短或最长的路径)运动,随机变量按照最优越的钟型曲线分布。中心极限定理从理论上证明了在一定条件下,对于大量独立的随机变量来说,只要每个随机变量在总额中所占比重很小,那么不论其中各个随机变量的分布函数是什么形状,也不论他们是已知还是未知,当独立随机变量的个数充分大时,它们的和的分布函数都可以用正态分布来近似,这就是为什么实际生活中遇到的随机变量,很多都服从正态分布的原因。这使得正态分布成为统计理论的重要基础,又是实际应用的强大工具。

第二章 趣谈贝叶斯学派

概率学中有两个学派,频率学派与贝叶斯学派,他们探讨不确定性的出发点与立足点不同,频率学派试图直接为产生事件的物理本质建立模型,而贝叶斯学派则认为也许根本不存在这个固定的物理参数。就使用而言,贝叶斯学派也需要一定程度的反复实验,频率学派也照样使用贝叶斯公式。有人用麻将为例来比喻频率学派和贝叶斯学派。如果你在游戏中只考虑下面未翻开的牌中还剩下些什么,并且根据计算这些牌下次出现的概率来做决定的话,你就属于频率学派。而贝叶斯学派打麻将时考虑的问题要复杂一些,不仅要记住下面有什么牌,还得看游戏过程中谁打了些什么牌,什么时候打的,因为每个人手中的牌也是未知的,因此你摸到某张牌的概率也在不断的变化,你需要根据场上情况的变化不断更新,大多数麻将高手可都是这么做的。

物理学家一直被量子力学中的种种诡异现象所困扰,并且在哲学理解的层面上互相难以达成共识,那么是不是说量子力学就是错误的呢?当然不是,量子力学被认为是自然科学史上被实验证明最精确的理论之一,他是我们理解原子、原子核、电子、半导体以及天文学中恒星的理论基础。

量子力学主流学派的观点。首先以电子双缝实验为例,回顾一下量子力学中的诡异现象。在双缝实验中,电子被一个一个的发射到双缝附近,从经典的观点来看,一个电子不可分,并且电子之间不会相互干涉,但是实验结果却表明电子束在后面的屏幕上产生了干涉条纹,因此这是一种量子效应,表明电子和光一样既是粒子又是波,有粒子和波的双重特性,即波粒二象性。为探索电子双缝实验中干涉是如何发生的,物理学家在双缝实验的两个狭缝口放上两个粒子探测器,试图测量每个电子到底走哪条缝,如何形成干涉条纹。然而,诡异的事情发生了,一旦想要用任何方法观察电子到底是如何通过那条窄缝干涉的,条纹就立即消失,波粒二象性似乎不见了,实验给出的与经典子弹实验一样的结果。哥本哈根学派认为,微观世界的电子通常处于一种不确定的经典物理不能描述的叠加态,既是此又是彼。比如说被测量之前的电子到达狭缝时处于某种叠加态,既在狭缝位置A又在狭缝位置B,每个电子同时穿过两条狭缝便产生了干涉的现象,但是一旦在中途对电子现象进行测量,量子系统便会发生波函数坍塌,原来表示叠加态不确定的波函数坍缩到一个固定的本征态。这也是著名的薛定谔的猫理论,打开盖子之前,猫既是死又是活,只有揭开盖子后,观测猫的死活状态才能确定。

21世纪初,有三位美国学者发表了一篇题为《作为贝叶斯概率的量子概率》的论文,探索一种量子力学的新解释,他们将量子理论、贝叶斯学派的概率结合起来,建立了量子贝叶斯模型。哥本哈根诠释认为波函数是客观存在的,人为的测量干扰破坏了这个客观存在,使原来的量子叠加态产生了波函数坍塌,从而造成了悖论。量贝模型则认为波函数并非客观存在,只是观察者所使用的数学工具。根据量贝模型,盒子里薛定谔的猫并没有处于什么既死又活的恐怖状态,但盒子外的观察者对里面的猫认识不够,不足以准确确定他的死活,便主观想象它处于一种死活并存的叠加态,并使用波函数的数学工具来描述和更新观察者自己的这种主观信念。量贝模型的创建者证明了计算概率的波恩法则几乎可以用概率论彻底重写,而不需要引入波函数,因此也许只用概率就可以预测量子力学的实验结果,目前这个目标尚未达成。但无论如何,量贝模型为量子力学的全是提供了一种新的视角。

神奇的德国坦克问题。从观察到的数据样本来推断随机变量的整体性质叫做统计推断,统计推断的方法在第二次世界大战中曾经大显身手。二战期间,德国制造的每一辆坦克都有一个序列号,假设德国每个月生产一批坦克从1到最大值N,按顺序排列,那么可以把这个最大编号N当做总的生产量,发现和截获任何德国坦克上的序列号都应该介于1N之间的一个整数,根据这些序列号数据如何来猜测总产量?比如,盟军发现了k辆坦克,序号分别为i1i2i3等等,最大的序号是M,估计总数为N,频率学派的答案是N= m+m-k/K,战后证明利用统计方法预测出的答案令人惊讶的与事实符合,统计学家的准确率比间谍高的多。

第三章 趣谈随机过程

世界上有两类变量,确定变量和随机变量,确定变量遵循经典的物理定律,比如牛顿力学和麦克斯韦方程,之前所介绍的随机变量的概率性质都尚未涉及时间的概念,如果随机变量随时间而动,则变成为随机过程。布朗运动是随机过程的典型事例,并由此而促进了统计物理及其他相应学科的发展。1905年是爱因斯坦的奇迹年,这位26岁的专利局小职员发表了五篇论文,为现代物理学三个不同领域做出了划时代的贡献。光电效应开创了量子时代,狭义相对论颠覆了经典时空观,对布朗运动的研究促进了分子论的发展。在这三项成就中,人们通常低估了爱因斯坦研究的布朗运动。

何为布朗运动?1826年,布朗在显微镜中发现悬浮在水中的花粉微粒,不停地做不规则的运动。后来科学家们发现液体或气体中各种不同的与生物毫不相干的悬浮微粒都存在这种无规则运动,一直到19世纪70年代波尔兹曼才提出这种运动的原因并非外界,而是因为液体自身微小颗粒受到周围分子的不平衡碰撞而导致的运动。科学天才的性格往往都具有互为矛盾的两个方面,波尔兹曼也是如此,它有时的表现极为幽默,但是内心深处又似乎自傲与自卑混杂,经常情绪波动起伏不定,类似躁郁症患者。以波尔兹曼为代表的原子论支持者认为物质由分子、原子组成,而唯能论者则把能量看作是最基本的实体,原子论的支持者寥寥无几,因此波尔兹曼一直认为自己是在孤军奋战,精神痛苦,在这场旷日持久的争论中,玻尔兹曼最终获胜,却最终走上了自杀之路。

假设布朗运动是因为液体分子对悬浮粒子的碰撞造成的,悬浮粒子的运动便反映了液体或气体分子的运动,液体内大量分子不停地做杂乱的运动,不断地从四面八方撞击悬浮的颗粒,在任意一个瞬间,每秒每个颗粒受到周围分子约1021次方的碰撞,如此频繁地碰撞造成了布朗粒子的无规运动,这不太可能靠经典的适用于单粒子体系的牛顿定律来解决,必须使用统计和概率的方法计算小颗粒集体的平均运动。

爱因斯坦是将统计概率的数学观念用以研究布朗运动的第一人,正式为布朗运动建立起严格的数学模型的科学家是著名的控制论创立者、美国应用数学家维纳。他也颇具有神经质的性格,曾经有过严重的躁郁症,多次产生过自杀的念头。维纳仔细地从数学上分析研究了理想化的布朗运动及维纳过程,发现了在电子线路中电流的一种类似于布朗运动的不规则效应,这个问题在为那时代尚未成为电子线路的障碍,但在20年后成为电气工程师的一个必不可少的工具,因为当电流被放大到某一倍数时,就显示出明显的随机噪声。有了维纳过程的数学模型,工程师才能够找到适当的方法来避免它。与随机漫步一样,一维和二维的维纳过程是常返的,也就是说几乎一定会回到原始的起点。当维度高于或等于三,则维纳过程不再是常返的,正如数学家总结:醉鬼总能找到回家的路,喝醉的小鸟则可能永远回不了家。

麦穗问题和博士相亲。柏拉图问苏格拉底什么是爱情?苏格拉底叫他到麦田走一趟,目标要摘一棵最大最好的麦穗,但只可以摘一次,并且不能回头,路径不能重复。柏拉图以为很容易,但最后却空手而归。原因是他在途中看到的很不错,却总希望后面有更美好的,最终使他错失了所有的机会。苏格拉底告诉他,这就是爱情。之后又有一天,柏拉图问苏格拉底什么是婚姻?苏格拉底叫他到树林走一次,争取带回一根最好的树枝,照样只摘一次,且不许回头。最后,柏拉图拿着一根中等质量的树枝回来,他接受了上次的教训,走到半途之后看到差不多的树枝就决定了。苏格拉底说这就是婚姻。两位哲学家用麦穗的问题来形象地比喻了爱情和婚姻的不同,前者是错过了的美好,后者是人生旅途中权衡之后的抉择。

傻博士40岁还没有交上女朋友,奉母之命回国相亲,有100位佳丽应招。母亲要求博士在15天之内对100位佳丽一个一个进行的面试,每位佳丽只能见一次面,面试一个后立即要给出答案,如果不要则以后再无机会见面,如果是要则意味选中了该女子,相亲结束。傻博士立即用上微积分中的最优化求极值的技巧建立数学模型,根据方程,数量为100的时候,得到极值的最佳数字是36,也就是说,在面试过程中,他首先应当忽略前面的35个佳丽,然后从第36位面试者开始认真的比较,只要看见第一个优于前面所有人的面试者,便选定。这样的策略选到第一名佳丽的可能性是36%。博士也可以考虑不一定非要第一,排名第二的佳丽也可以,于是他将原来的方法进行了修改,从第36个应试者开始比较,如果这个临时的第一名久久不出现,那么傻博士将考虑第一,也考虑第二佳丽,这样他选到第一和第二的概率大约是57%,比只选择第一的概率又高了许多,这就是数学的威力。

第四章 趣谈熵

熵的概念首先来自于热力学。历史上早逝的科学家不少,他们二三十岁便匆匆离世,却爆发出照耀数百年的生命光辉,热力学之父卡诺就是其中之一。他出生于法国大革命和拿破仑时代的动乱年代,唯一的著作《论火的动力》,没有在学界引起重视,不久以后就绝版了。几年后,卡诺染上流行性霍乱而被夺去了生命。卡诺将热机做功的过程总结为包括两个等温过程和两个绝热过程的卡诺循环,即提出了由绝热膨胀、等温压缩、绝热压缩和等温膨胀4个步骤构成的理想热机。所谓理想的意思是假设卡诺循环是一个可逆循环,而实际上的热机过程是不可逆的。卡诺的理论如今说起来再简单不过,但在当年却抓住了热机的本质,成为热力学的第一块奠基石。

克劳修斯在1850年第一次明确表述热力学第一定律:在一切由热产生功或者由功转化为热的情况下,两者的总量不变。热力学第二定律:不可能把热量从低温物体传递到高温物体而不产生其他影响。在研究卡诺循环的过程中,克劳修斯发现了一个物理量即热量与温度的比值,表现出某种有趣的性质。当系统按照卡诺循环绕一圈之后,热量与温度的比值的总和保持为零,于是克劳修斯由此定义了一个新的物理量S。克劳修斯惊喜的发现:孤立系统的S的数值只增不减,S有点类似于能量,但又不是能量,如果说热量Q是一种能量的转换的话,S还需要除以温度。这个颇有来历的名称被1923年到南京讲学的普朗克介绍给中国物理学家时,胡刚教授翻译时灵机一动,创造了一个新的词汇,因为S是热量与温度之,再按照中文的结构规则给他加上了一个火字旁。从此以后,熵诞生于热,亮相于物理界,后来又走得远远的来到了宇宙学、生物学、金融等领域,至今仍是一个十分令人迷茫,造成许多混乱,然后值得深究的科学概念。

克劳修斯的两句名言:宇宙的能量是恒定的,宇宙的熵趋于最大值。这两句话揭示了热力学中的两个基本规律,能量既不能增加也不能减少,你只能将他们变来变去。而最使人感到心中不爽的就是这个古怪的熵,他竟然将能量分成了不同等级,比如说机械能可以全部转化为有用的功,而热能的性质就差了一大截,只有一部分有用。

在任何自发产生的物理过程中,熵只增不减,熵的增加意味着系统的能量不断贬值。物理学家彭罗斯指出:太阳不是地球的能量来源,而是低熵的来源。生命体不是孤立的系统,而是一个开放系统,生命过程不是自发的有序退化为无序的熵增加过程。恰恰相反,他们是朝气蓬勃的,从无序走向有序的过程。我们想要维持我们生命的活力,就需要尽量的减少熵,这也是当年薛定谔研究生命是什么时的想法:要摆脱死亡,要活着,就必须想办法降低生命体中的熵值。地球白天从太阳得到高能的光子,到了晚上又以红外线辐射或其它波长比较长的辐射方式将能量返回到太空中。也就是说,地球每天不停地将其从太阳获得的能量元素奉还给宇宙空间,但是从太阳吸收的光子频率比较高,应该能量更大,而由长波辐射出去的是频率更低、能量更小的光子。如果吸收的总能量与返回太空的总能量相同的话,向外辐射的光子数目将比吸收的光子数目大的多,粒子数目多,熵就越高。由此说明地球从太阳得到的低熵的能量,并以高熵的形式反馈给太空。换言之,地球利用太阳降低他自身的熵,这就是万物生长的秘密。

如何理解粒子数越多熵就越高?在状态空间中,每一种微观态对应一个点,比如说一个硬币,正反两个状态可以用一维线上的两个点来表示,两个硬币的四个状态可以表示为二维空间中的四个点,当N等于50时,状态空间的维数增加到了50枚硬币正反面分布的各种可能微观状态,等于50维空间中的2⁵⁰个点来表示。熵是微观状态空间的某集合中所包含的点的数目之对数,这些点对应于一个同样的宏观态。

孤立系统中的熵只增不减,此为熵增加原理或热力学第二定律,这是物理学中科学地描述时间箭头的理论,熵值的增加赋予了时间箭头精确的物理意义。

第五章 趣谈信息熵

惠勒说过:万物皆比特(信息)。什么是信息?人人都能列出一大串,而信息什么就比较难回答了。信息熵在通俗意义下可以被粗暴的理解为:信息中所包含的信息量,发生概率越小的事件包含的信息量反而越大。比如,比较下面这两句话我的妹妹今天去城北的中文学校图书馆读老子的书发生的概率显然要比我的妹妹读书发生的概率要小的多,由此验证了概率小——信息量大这个事实。再比如说,抛掷一枚不那么对称的硬币,正的概率为99%,反的概率仅为1%,这样的硬币抛来抛去,你看到绝大多数的情况都是正面,你感觉十分无趣,突然你发现出现了一个反面,你因为少见多怪而惊喜,因为这给了你更多的信息,这枚硬币的确是有正反两面的。说明比较不可能发生的事情,当他真正发生了,能提供给你更多的信息。

信息论创始人香农用随机变量中所有可能事件信息量的平均值,来度量这个随机变量信源的信息,简称信息熵。比如英语有26个字母,假如每个字母使用时出现的概率相同,那么每个字母的信息量应该为4.7比特,汉字的数目大的多,常用约2500个,假如每个汉字出现概率相同的话,每个汉字的信息量为11.3比特。实际生活中,英文26个字母各有各的概率,中文成千上万个字出现的概率也不大相同。所以如果想要计算一段话的信息熵,就必须知道每个字的概率以后才能计算。设想有一本书分别有英文版和中文版,那么进一步设想两个版本都没有废话,表达的信息总量完全相等,那么显然中文版的汉字数应该少于英文版的字母数。不知道这算不算汉字的优点,但显然从英文翻译过来的中文书页数的确要少一些。

科学上的大多数研究说穿了也就是一个处理信息的过程,摒弃无用的信息,想办法要得到有用而正确的信息,用于消除原来课题中的不确定性,得到更为确定的科学规律。只有使用信息论中的最大信息熵原理,才能达到信息论所预测的上限。通俗的讲,最大信息熵原理就是当你对一个随机过程不够了解时,你的概率分布的猜测要力求信息熵最大。比如,专家会建议你购买各种类型的不同股票,不要把鸡蛋放在一个篮子里,这句话的意思其实是警告你要遵循最大熵的原理,才能降低预测的风险。举个例子,小明准备花一笔钱购买15个大公司的股票,他选择投资方案很可能是15种股票均摊,但这时有一位专家告诉他,其中B公司有潜力,其次是C公司,那么他可能将更多的钱投到BC,剩下的钱再平均分到剩下的13种股票中。上面的例子符合人们的常识,科学家却认识到这其中可能隐藏的某种大自然的玄机。

大自然最玄妙的规律之一是最小作用量原理,凡事讲究最优。物理中有熵增加原理,一切孤立系统的时间演化总是趋向于熵值最大,朝着最混乱的方向发展,那么熵增加原理是否意味着最混乱的状态是客观事物最可能出现的状态。1957年华盛顿大学物理学家杰恩斯提出信息熵的最大熵原理:如果我们只掌握关于分布的部分知识,应该选取符合这些知识但熵值最大的概率分布。什么样的分布熵值最大呢?对于完全未知的离散变量而言,等概率事件的熵最大,这就是小王选择均分投资15种股票的原因,不偏不倚地每种股票都买一点,这样的才能保留全部的不确定性,将风险降低到最小。

第六章 趣谈互联网中的概率

互联网是一种巨大的随机网络,万维网以及社会中各类人际关系都有一些共同的特征,它们的网络结构不是固定的,而是不断变化的,具有某种随机性,在这些巨大的网络世界中有一个有趣的小世界现象。以万唯网为例,万维网的大小定义为一个网页到另外任意一个网页鼠标最多需要点击次数的平均值,那么遍布地球超过140亿个点和几十亿条连线的万维网的直径是多大呢?出人意料的是,他直径大约等于19。也就是说万维网的一个网页需要连接任意一个网页,平均最多需要按19次鼠标,从140亿到19,这便是大网络中的小世界。人类社会有6度分隔的说法,地球上任意两个人之间,平均最多通过6次关联,就能互相到达。因为人类社会有明显的社团现象,各社团内部联系紧密,社团和社团之间有相对少的多的连线,称之弱纽带。有很多人在找工作时会体会到这种弱纽带的效果,通过弱纽带的连接,人际关系网的直径迅速大幅变小。

第七章 趣谈人工智能的设计

人工智能的技术部分归功于计算和统计的联姻。2016年谷歌公司牵出了一条精通围棋的阿尔法狗,以四比一的比分战胜了顶级围棋大师李世石。阿尔法狗使用的关键技术叫做多层卷积神经网络,网络的层与层之间像瓦片一样重叠排列在一起,第一部分包括一个13层的监督学习策略,每层有192个神经元用于训练3000万个围棋专家的棋局。其次是13层的强化学习策略,网络通过自我对弈来提升监督学习策略网络,每天可以自己对弈一百万盘,而人类个体一辈子也下不到1万盘棋。阿尔法狗的最后一个部分是估值网络,或者说是他的棋局评估器,注重对于全局形势的判断。分布式的阿尔法狗版本利用了多台计算机,40个搜索线程,1202CPU176GPU

人工智能重要的贡献来自于英国数学家图灵。1950年,图灵发表了一篇《计算机器与智能》的论文,设计了著名的图灵试验。通过回答一些问题来判定是机器还是真正的人,比如我们今天登陆网站经常要辨别的验证码就属于图灵测试。人工智能发展一波三折,让人沮丧的是发生在机器翻译等领域。比如,计算机将英语心有余而力不足,翻译成俄语后再翻译回英语,便得到了酒是好的肉变质了这样让人惊愕的结果。事实上,人脑中的神经系统是一个非常复杂的组织,成人的大脑中有成百上千亿个神经元,智慧并不是来源于精准的逻辑计算,而是掺杂了许多不确定性的随机因素。于是科学家们开始研究小孩子是如何学习这一人类认知面对的最基本问题,并开发出人工神经网络模型等各种算法。人类基本教育模式有两大类,一是从上到下的灌输,二是自下而上的启发,两者各有优劣,利用现代启发式的教育方法,让孩子自己学习远远胜过教育传统中仅仅将知识进行灌输的学习。人工神经网络就是试图模拟人类精神系统而发展起来的,它的基本单元是感知器,相当于人类神经中的神经元,作用是感知环境变化及传递信息,人工神经元连接在一起,变成了如今的人工神经网络。比如,妈妈在教孩子认识猫和狗,对人工神经元而言,就是输入大量猫狗的照片,这些照片都标记了正确的结果,神经元调节权重参数就可以使输出符合已知的答案。但实际上,大多数情形更为复杂,需要考察更多更细致的特征,特征多了,调节的参数也必须增多,这就是说神经元的个数、层数需要增加。更多层的好处在哪呢?通过研究发现,在参数数量一样的情况下,更深的网络往往具有比浅网络更好的识别效率。有趣的是,神经网络似乎具有某种对结构进行自动挖掘的能力,他只需要我们给出被分类物件的某些底层特征,机器便能进行一定的自发抽象。

除了多层挖掘之外,每一层卷积运算对目标特征的抽象都具有重大的意义,我们可以与声音信号的傅里叶分析相比较,声音信号在时间区域中是颇为复杂的曲线,需要大量数据来表示,如果经过傅立叶变换到频率域后,便只要少量几个频谱及基频和几个泛音的数据就可以表示。也就是说,傅立叶分析能力能够有效地提取储存声音信号中的主要成分,降低描述数据的维度。卷积运算在神经网络中也有类似的作用,一是抽象重要的成分,二是抛弃冗余的信息,三是降低数据矩阵的维数,以节约计算时间和存储空间

作者:我就是个傻B

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多