【原】央观科技金融群学习笔记D6 大数据《信号与噪声》（下）

昵称72020678 2020-10-20

展开全文

各位朋友大家好，

大连理工大学管理与经济学部本科生—朱俊帆

文章综述

本文是美国最具影响力的预测专家纳特西尔弗的作品《信号与噪声》一书的序言。信号是真相，噪声却使我们离真相越来越远。

印刷机的广泛使用降低了信息传播的壁垒，使人们更自由鲜明地表达思想、传播思想，促进经济和生产力发展，进而产生了路德的宗教改革，萌芽了民主，萌芽了科学、自由和文艺复兴精神。在莎士比亚的戏剧《朱丽叶斯·恺撒》中，卡修斯说：“有时，人们可以掌控自己的命运。”他希望能劝服勃鲁托斯参与谋害恺撒的阴谋中，这种“预测”反映的是新教世俗思想（而非神圣罗马帝国的理想世界），它旨在不确定条件下进行谨慎地、智慧地谋划。工业革命的重大意义不仅在于资本主义的诞生，更在于科学思想、宗教思想的自由传播。

美国经济学家、诺贝尔奖得主保罗·克鲁格认为，20世纪70年代是典型的“大量理论堆积如山，验证数据少得可怜”，人们发现模型精准度太过粗劣，与实际不符，且运算精度达不到。反而使计算机热非但未能推动经济和科学的发展，反而造成两个领域生产力水平的短暂下降，经济学奖将这种现象称为“生产力悖论”。因为我们在噪声中寻找信号，这无疑是在错误的方向上浪费时间。

接下来，文章讲述了大量案例佐证了大数据广泛用于预测的观点。正如麻省理工神经系统学家托马索·波吉奥所说，人们一直努力从随机噪声（无规律状况）中发现模式。我们的生物本能有时会对信息丰富的世界难以适从，信息超负荷催生了更深层的宗教主义，那些不同的宗教思想可以通过跟过的信息、信念和“证据”得到证明，并且更难以容忍反对意见，正如当今美国的党派政见分歧加剧，这种分歧也许会随着互联网的出现愈演愈烈。这种现象颠覆了“信息越多越靠近真相”的信条。互联网这样的复杂系统本身可能是一个“放大器”，当这种体系处于高度负债经营状态时，那些信誉评级机构的预测模式一旦做出错误的假设，就会在这张巨网中以乘数般振荡（“巨浪，巨浪，不断地增长”0.0），使人们排山倒海般的改变他们的理性预期，从而可能摧毁全球的金融系统。

读后感

大数据可以通过机器学习实现预测。比如我们构建一个神经网络，用千万级的数据样本对神经网络进行训练，网络内部十万级的参数通过自我反馈、不断调试，实现对结果的准确输出，这种智能优化学习的算法可以完成聚类的分类判别，预测，模式和语音识别等。立足于统计学来看“大数定理”，意思就是：样本越多越接近事实真相。但在金融领域，尤其是证券分析，以及涉及策略分析、行业配置、个股选择等实际问题时，投资者往往在大数定律的潜意识支配下游走于小数定律中。也就是本书中强调的“信号与噪声的甄别”。因此我们要清洗数据，进行去噪。

我们常常采用一些智能优化算法、动力学机制的复杂系统演化方法来进行模拟或大数据分析，如蒙特卡洛方法、元胞自动机、隐马尔科夫链、神经网络、PSO粒子群算法、仿生智能算法（如蚁群算法）等，包括小世界和多标度网络等理论。但有时，理论分析往往陷入困境，“噪声”在金融领域普遍存在。比如，我们常常针对一些受众群体进行问卷调查，并不是调查问卷的样本越多，我们就越了解了受众群体的真实想法，因为心理是很微妙的，难以用尺度去具体量化。

事实上，在投资领域的决策过程中，充斥着“小数定律”。我们常常以历史上出现的数据作为案例，但由于历史上的案例有其发生的特定环境和前提条件，抽象程度不够，样本的可比性很差，就容易陷入小数定律的偏差。同样，对于擅长机器学习的神经网络算法，看起来相当智能，容错能力很好，但是使用神经网络必须具备“惯性”，即训练网络样本的充沛性和均衡性都必须保证，含有大量噪声的数据会提振、湮没或干涉原来样本的特征，使样本本来呈现的模型发生扭曲。

当然，我们似乎还有一种高屋建瓴的视角看待这种不确定性现象：非线性混沌。简言之，即使研究对象是有限个，并且相互之间的作用力和运动定律都是明确的，也可能产生完全无法预测的运动模式（就好像物理中的三体问题）。混沌模型和一般的经济动态模型最大的区别在于：一般经济模型通常是近似线性的，在这种情况下，市场出清条件会使得经济达到稳定，而一切波动都是外生的冲击，或者“噪声”造成的。而混沌模型通常是非线性的，在这种情况下，要解释市场的波动并不需要假设“噪声”的存在，相反，波动可能是确定的经济学规律本身造成的结果。

主流宏观经济学建模通常采用的一种关于经济决策个体预期行为的假设：理性预期假说。当每个决策个体都尽力搜集信息，且他们的预期偏差之间没有相关性的时候，可以认为，最后加总起来得到的平均预期在统计意义上说距离被预测的经济变量（比如价格）的未来实际实现值是没有系统性偏差的。但似乎理性预期的缺陷也很明了：1）由于个体之间通常会交流，学习，所以他们的预期和决策难免互相影响，甚至产生“羊群效应”；2）即使个体的预期偏差可以通过加总平均被抵消一部分，但是从市场观察来看，一个平均意义上的交易决策者还是很难说有很高的理性水平的；3）类似格罗斯曼和斯蒂格利茨（Grossman and Stiglitz, 1980）对于有效市场理论的攻击中提到的，搜集足够的信息是需要成本的，这个成本（雇佣知识丰富的专家，购买高级电脑和全面的数据库，建立准确的预测模型）在现实中可能很高昂，只有大的机构交易者负担得起。但如果市场是信息有效的，使得任何额外的信息都不产生超额回报，那么任何交易者都不会有任何动力在一开始去搜集信息。

众所周知，Logistic模型是经济学中常见的用来刻画二元选择问题的模型。同时，由于Logistic函数是一个非线性函数，所以它产生的动态必然是一个非线性动态。最重要的就是它可能产生周期为3的系统稳定点，而根据Li-Yorke定理，对于单变量的非线性动态来说，存在周期为3的系统稳定点则意味着整个系统动态是混沌的。也就是说，即使整个模型是一个确定性模型，它的非线性动态方程也并不复杂，最后的市场动态依然可能有相当大的波动。虽然人们一提到混沌，就会联想起“蝴蝶效应”，产生一切都是杂乱无章。但事实上，很多混沌的动态分析起来并不那么混乱。具体到BH模型（Brock and Hommes, 1997, 1998）来说，它在通常系数范围内给出的关于市场的预测其实很类似于我们经常见到的市场动态，即周期不规则的“涨-落”循环。这种涨落不仅是价格的涨落，还有不同交易者比例的涨落。它所描述的一个核心机制就是：市场低迷的时候，由于只有投入成本搜集信息的理性交易者才更容易转到钱，所以更多的人愿意搜集信息，并加入理性交易者的队伍；而当理性交易者比例达到一定，这时候市场价格也比较理性且可预测，很多人发现，即使自己不搜集信息，按照上一期的价格或者趋势交易也可以赚钱，于是就放弃自己搜集信息，改为拍脑袋；而新来的交易者发现不搜集信息也可以生存，所以也不愿意投入成本变为理性交易者，市场上的非理性交易者就越来越多，价格也越来越偏离理性基本面；总有一天，市场偏离得实在太多了，于是要么是信心突然低了，要么是有些人开始觉得市场要进行均值发转了，这个时候市场的惯性就一下停下来，变成崩溃，使得很多拍脑袋交易者突然损失惨重，市场再次跌入低谷，并开始下一轮循环……

这一观点的核心就是说，如果搜集信息建立理性预期是需要成本的，那么即使没有外来噪声冲击，市场也总会经历“涨-跌”，“理性-非理性”的循环。其中，理性主导的局面可能孕育非理性产生的种子，而非理性的狂欢可能引发崩盘，并重新唤回理性。这既符合美国股市上常说的“当纽约出租车司机开始谈论股票的时候，股市大概就离崩盘不远了”，也体现了熊彼特说的“创新-毁灭”型市场发展的内在逻辑。

总之，这一切的奥秘都需要我们多读书，多读文献去解开。

Monica

序言明确了从多个角度分析社会的现象和问题，从而让自己对当下的每一个决定更有依据。在印刷机发明之前，信息知识是昂贵的奢侈品，是平头老百姓遥不可及、高不可攀的。而愚昧无知也更有利于当时社会统治者的管理。社会往往处于表明所呈现的祥和状态，不会有那么多的思想、行为乃至利益的冲突。但是后来由于人们对知识的渴求和欲望，并通过几百年的努力尝试终于有了印刷机这鬼东西。它对于旧社会的统治者来说是一个被打开的潘多拉的盒子，随着知识的不断传播导致对其统治势力的蚕食的速度以指数的形式增长。利益矛盾的不可调和也让后期战争的爆发成为不可避免的社会进程。虽然过程是曲折的，代价是惨痛的，但是这也指引着人们往有利于自己发展的方向高歌前进、勇往直前。二十一世纪是一个信息爆炸的时代，而人们对信息的解读和判断往往更倾向于在有利己的方向上越走越远。与此同时人们处理信息的能力最快也仅仅是一辆马车奔驰在颠仆的路上，缓缓前行。当代庞大的信息量就像是一个被打乱的魔方，在复原好一面的时候同时往往会增加其他几面复原的难度。节奏慢下来是可接受的，是正常的。不必过于纠结其中的不足而忽视了现有的进步。人们乐此不疲地从信息中总结出数据，再用现实验证数据，然后又不停地单曲循环地进行下去，误差是无法避免的，但我们依然可以不断调整不断进步。正视问题的存在，事物的论调总是相对的复杂的，不同的人看问题的角度自然是不同的。而预测对未来的不确定性进行一个初步的概括或者说是一种方向的判断，正是因为其中的不确定性才会让预测有其存在的价值，虽然它也许是错误的。真理的相对性让其不可避免地具有争议性，通过检验行为可以让我们意识到真理虽然依旧不清晰但也不再是一个虚无缥缈的概念。作者提到的贝叶斯定理让我们更加理智地看待问题看待社会的现象，更加深入去探讨事物的本质而非停留在表面浅薄的认知。《信号与噪音》这本书引导我们去思考如何从杂乱无章的信息中用目前认为靠谱的方法发现知识并挑选出来从而让个体到社会乃至世界变得越来越好。

ps:谢谢小观推荐！

金星的科技金融\读后感

小观，你好

因最近工作较忙，之前每次内容未能全部读完，刚好周末时间充裕，业已全部阅好。也可能是此缘故，读后感觉，我们一直在谈论不管是人工智能、区块链接、第三次启蒙、许罗对话、阿里云回、信号与噪音，所有这些能容，给我的感想就是在寻发现新突破，根据以往的经验结果。非常感谢央行观察提供的素材与内容。

不管是人工智能、区块链接亦或阿里云。这些都只是通过以计算机、网络为载体的分析、应用、管理工具，不能与真实的跨越性的科技并论。当然这些对于改善我们目前的生活，为经济的发展升级、转型，为社会的进步会有很大的帮助。同样也容易造成社会的倒退，因为这样人的本能很多就不能强制性的运用和进步（多数人都是有惰性的，包括我自己），只有少数人在兢兢业业，最终社会就会形成更多层次的jiquan问题，矛盾终究会爆发。

相对来说，许罗对话以及信号与噪音，这些能容更加贴近人的自身，思维，这些在告诉我们，作为金字塔里面的一小块砖头，我们应该根据自身情况去把自己经营的更好，同时适应大趋势，更要留心、发掘跨越等级的机会。

大数据-Jane

大数据热词一炒，大家都把大事小事套上大数据的帽子。诚然，大数据的确无处不在，个体即样本，样本也是总体。每个人，物，都充满了数据。啤酒与尿布，电商推荐，交通拥堵指数等，都是利用大数据发出的信号来指导商业和生活。

医疗方面，你的身体数据可以发出健康与否的信号;教育方面，家长会根据升学率来参考孩子学校的选择，老师们会分析学生的成绩数据来调整教学计划。有时候，你被数据发出的信号提醒，才知道自己的某些特点某些喜好，淘宝会根据浏览记录向你推荐相关商品。

故人们都被大数据揭开了面纱，信息公开化，数据结果化，好像拨开了尘埃，显露出了信息。大量的数据发出了信号。

但是随着数据被发现得越来越多，显露的信息越来越多，发出的信号越来越多，超出了人们的承载理解能力。信号有时候变成噪声。企业担心用户数据泄漏商业机密泄漏，明星担心个人隐私泄漏，人们的电话号码不经意泄漏导致常接到骚扰电话病毒短信……

关于数据提供的到底是信号还是噪声引发关注，人们对大数据有了新的认识。

在大数据时代，数据的挖掘，提取，存储，分析等，引发了更多思考。

海量数据中存在有用数据和无用数据。有用数据是信号，无用数据是噪声。但这是相对的。你认为是噪声的不想接收的数据，在别人那里可能就是有用的信号。

尽量开发一些数据处理工具帮助人们筛选数据，过滤掉无用数据，发出更真实可靠的信号。

对于数据进行分类细化，便于分类管理，需要信号时可以从数据库中提取。扔掉数据垃圾时可以找到回收站。

建立数据加工厂。对噪声数据进行加工提炼改造，获得有用数据。

总之，不管是信号还是噪声，都是大数据时代的一种声音。存在即合理，但愿你拥有远离噪声获取信号的能力，充分享受大数据的馈赠。

为什么信息阅读而分歧越大——信息与人【田玉铎】

人的一生的确是生活在预测和判断之中，吃穿住某种程度上都包含着预测的成分。你在选择一件衣服的时候，其实不仅仅是在考虑自己是否喜欢，也更是在预测你穿出去以后别人是否会赞赏。而作为一名金融从业者，每天更是要进行不计其数的预测，预测市场的涨跌，预测经济的数据，预测交易对手的行为。

然而，在文章中也提出了一点，“信息越多，就越靠近真相”这一信条逐渐被打破，被事实证明是不正确的。《自然》的发现（几大政党对全球变暖的问题了解得越多，他们之间达成共识的可能性就越小）正是说明了这一点。从更深程度上来理解，不同的观点和立场的持有者，将信息作为了自己的工具，将信息作为了自己的论据，将其建立在自己的假设体系上，从而得出符合自己假设的结论。

这也是文中提到的贝叶斯定理的重要性，没有了假设就没有了对信息做进一步判断和预测的基础。没有了假设所有的信息可能都是过眼的云烟，并不会给我们带来深刻的刺激。

读了这篇文章，使我想起了索罗斯的反身性理论。我最近也在阅读索罗斯的《这个时代的无知与傲慢》这本书。人类社会之所以充满了不确定性，就是因为人的参与，而人是一个具有主观能动性的存在，是会对信息做出反应的，而这种反应就会影响事务的演变，也就会影响事情最终的结果。

这种反身性，也是投资中面临的挑战。因为不仅仅要知道这个信息对市场的影响是怎样的，而且还要预测其他市场参与者对这个信息的反应，以及这种反应所带来的连锁反应。这是一个充满了不确定性的过程。

投资的经验是否会提升这种预测能力呢？还是投资者的幸运让他正好做出了符合市场的决断？这可能都是很难去判断的。在投资的市场上想要做到基业长青可能并不容易。对市场充满敬畏和感恩方能够长久。

期待有机会去阅读下这本关于预测的书。但“五色令人目盲，五音令人耳聋”，我想在这个信息爆炸的时代更应该阅读的中国历史的经典。

信号与噪音-------大数据时代如何科学预测

ToryLee

要点：

（1）信息的大量产生

印刷机发明之前，书籍是贵族阶层的奢侈品，使得知识积累困难。印刷机的出现使得书的成本降低，书籍的生产规模扩大，人类知识旋即进入快速积累期。印刷机的诞生同时标志着信息技术革命的开始，使得民众可以更方便地了解信息，信息开始具有了“洪荒之力”。

信息不等同于知识，17世纪这样一个充满战乱的时代，人们很难从干扰他们的噪声中分辨出有用的信号，人们按照自己的意思解释一切事物的原因，实际上却和这些事物本身的目的完全相反。

信息的增长速度远远超过了人们处理信息和分辨信息的速度，面对过量的信息，如何辨别信号和噪音成为了一个问题，这时便出现了信息越多、问题越多的现状。

（2）生产力悖论

20世纪七八十年代的计算机热并未推动经济和科学的发展，反而造成两个领域生产力水平的下降，这被称为生产力悖论现象。

通常情况下，许多预言从长远角度看算作进步，而从短期角度看则成了倒退；而许多从长远来看似乎可以预知的事情，同时也会妨碍我们进行完美的计划。

人类历史表明，把信息转变为有用知识可能还需要很长世间，一不小心，我们就有可能倒退回去。

（3）大数据的承诺与陷阱：

根据IBM估计的数据来看，现在每天生成的数据高达250兆亿个字节，超过过去两年里生成的数据总量的90%。为提高数据分析的质量，首先要对我们自身提出更高的要求，有效地将信号联系起来。

（4）未来为何使我们震惊：

人类并没有多少天生的防御能力，我们之所以能生存下来，是因为我们运用了智慧。思维敏捷能够敏锐地感知事物的模式，同时对机遇与威胁迅速地做出反应。

人脑的存储量不过是全球每天所产生信息量的百万分之一而已，因此我们对自己记忆的信息一定要精心挑选，大部分信息都只是噪声而已，而且噪声的增长速度要比信号快得多。

（5）预测与贝叶斯定理：

预测是人们共同的事业。我们永远都不可能做出完全客观的预测，总会带有主观色彩，要做出准确的预测，我们必须坚信客观真理的存在并且执着地追寻它，但是我们也必须清楚自身无法穷尽对客观真理的认识。

从不同的角度思考我们的想法，以不同的方式检验我们的想法，坦然面对各种可能性和不确定性，更加周详地考虑我们对一个问题的假设和看法。

心得：

在大数据时代，面对如此碎片化以及大量的信息，我们必须利用自己的智慧做出趋于正确的预测，如今信息已经多得我们无从下手，而信息并不等同于知识，我们需要的是真正的知识。

信号是真相，噪声却使我们离真相越来越远。整合、提炼、加工、梳理、融合信息的能力逐渐成为人类生存与发展的必备技能，把握信号、剔除噪音，将信号之间建立有效的联系，用智慧做出更加准确的预测。

信号与噪声（大数据时代预测的科学与技术）引言读后感

陈敏珊嘉吉会计

书中说：“印刷机问世的第一个世纪里，书籍的生产规模呈指数型增长，数量增长了近30倍。人类知识旋即进入快速积累期。当时，人们只顾追逐眼前利益，印刷机几乎都用来印制那些质量较高的地图了，异端的宗教文章和一些伪科学文章也很快就占据了畅销书单的主要位置。”这种信息过量和信息良莠不齐的情况，依然影响到现在。在以前书籍较少时，我们接触到的书籍都是经过鉴别的圣贤书籍，人们经常阅读这些好文的时候，心灵也在等到陶冶，品德也得到提升。而在大量书籍等信息面世之后，基于人的享乐特性，一些娱乐性的休闲性的书籍，尽管其没有多少实质的内涵，却能够成为畅销书籍，这有点向“劣币驱逐良币”。在信息世界中小人日进，而君子日消。那如何才能保护那些有价值，有内涵的知识和信息？我们在面对大量的信息海洋时，如有找到自己真正想要的有价值的信息，而不是被淹没在一片浅显的喧闹中？这是这个时代中每个有识之士都会面临的问题。有人将信息鉴别并分类很重要，而自己的独立思考和批判能力，筛选能力也非常重要。在面对一个陌生的领域中的信息大海时，我往往先看看权威人士推荐的是那些书籍，网站等等，在阅读之后，心中大概有一个基础的概念了，知道方向了之后，我再广发地探索各类可以获得的信息，从中选择偶有质量的网站/公开号/书籍，之后就坚持使用自己筛选后的信息来源来继续阅读。在大量信息中去伪纯真需要花费大量的时间，有时候人们会误将错误的信息认为真理，这是这是时代信息膨胀的成本。而我们不该抱怨，只能适应这个时代的优点和缺点，采用正确的方式来取长补短，坚定地走通向自己目标的道路。

春天-银行-职员，读《信号与噪声》引言的笔记

要点归纳：

信息越多，问题越多

（1）人们一下子接触到大量的新思想，这难免会产生诸多混淆。信息的增长速度远远超过了人们处理信息和分辨信息的速度。共享信息的不断增长反而加速了民族和宗教的孤立进程，其速度之快不禁让人瞠目结舌。面对“过量的信息”时，我们会本能地进行筛选，选出喜欢的，忽略其他的，与同道中人为友，与意见相左之人为敌。

（2）纵观人类社会的历史进程，经济增长的速度曾经为年均0.1%，这个增速足以匹配当时人口数量平缓增长的状况，但人均生活水平却没有得到任何显著提高。然后，经济形势突然出现了前所未有的进展，经济增速急剧超越了人口数量增长的速度，尽管偶尔也会出现全球金融危机，但这种高速增长的态势时至今日仍未改变。

（3）历史证明，印刷机引发的信息大爆炸为我们创造了一个好的世界，因为它仅用了330年的时间就为我们带来了不可尽数的好处，而与此同时有几百万人在欧洲战场上丧命。

生产力悖论

（1） 20世纪七八十年代的计算机热非但未能推动经济和科学的发展，反而造成了两个领域生产力水平的短暂下降。经济学家将这种现象称为“生产力悖论”。

（2）一旦信息增长的速度过快，而我们处理信息的能力尚且不足，情况就很危险。过去40年的人类历史表明，把信息转变为有用的知识可能还需要很长时间，一不小心，我们就有可能倒退回去。例如，20世纪70年代是典型的“大量理论堆积如山，验证数据少得可怜”的时期。当时，人们已经开始用计算机制作地球模型，但是一段时间以后，人们发现这些模型太过粗劣，而且与实际不符，计算机可达到的精确度根本无法替代预测的准确度。这一时期，人们作过很多大胆的预测，涉及范围从经济学到流行病等各个领域，但是这些预测通常都不准确。又例如，1971年，人们声称可以预测出未来10年内的地震次数，而实际上，这在40年后的今天仍实现不了。

（3）通常情况下，许多预言从长远角度看算作进步，而从短期角度看则成了倒退；而许多从长远来看似乎可以预知的事情，同时也会妨碍我们进行完美的计划。

“大数据”的承诺与陷阱

（1）我们可能会以对自己有利的方式对这些数据进行分析和解释，而这些方式很可能与这些数据（所代表）的客观现实不相吻合。数据驱动预测机制可能会成功，也可能会失败。一旦我们否认数据处理过程中存在着主观因素，失败的概率就会增加。要提高数据分析的质量，首先要对我们自身提出更高的要求。

（2）近期，对全球金融危机的预测也总是失败。我们天真地相信各种（预测）模式，却没有认识到这些模式在我们进行假设选择时根本不堪一击，因此总会带来惨痛的后果。在日常生活中，尽管人们也在努力尝试，却仍然无法提早预测出经济衰退。幸好在控制通胀方面，我们已经取得长足进步，否则那些经济决策者就只能“盲目飞行”了。

（3）错误地预测整个学科的发展常会危及整个社会。例如，2005年，医学研究者约翰·P·埃尼迪斯，发表了一篇颇具争议性的论文，题为“为什么大多数发表的研究成果都是骗人的”。该文对那些行业期刊中刊载的积极的研究成果进行了研究（这些成果认为那些在实验室实验中得到验证的医学假设堪称成功预测），认为大多数成果在实际生活中很可能是毫无用处的。德国拜耳制药公司最近证实了埃尼迪斯的这个推断，他们通过实验亲自对那些医学期刊中提到的积极研究成果进行验证，但发现其中近2/3的医学假设根本不能成立。

（4）这些大数据终将推动社会进步，至于这种进步的速度有多快，或者进步的同时是否还会倒退，这些都取决于我们自己。

为何未来使我们震惊？

（1）我们之所以能生存下来，是因为我们运用了智慧。我们的思维很敏捷，我们能够敏锐地感知事物的模式，对机遇与威胁迅速地做出反应。

（2）在1970年出版的《未来的冲击》一书中，未来学大师阿尔文·托夫勒对他所说的“信息超负荷”的一些后果进行了预测。他认为，尽管世界本身正走向分化，变得更加复杂，但人类仍会以坚持自身看法的方式使这个世界变得简单，这便是我们的防御机制。

（3）我们的生物本能有时会对这个信息丰富的世界难以适从。所以，我们需要积极努力，坚持自己所持有的看法，这样才有可能将重返信息负荷状态的可能性降到最低，甚至消除这种可能性。

（4）如果信息的数量以每天250兆亿字节的速度增长，其中有用的信息肯定接近于零。大部分信息都只是噪声而已，而且噪声的增长速度要比信号快得多。有太多假设需要验证，有太多数据需要发掘，但客观事实的数量却是个相对恒量。

预测与贝叶斯定理

（1）要做出准确的预测，首要的前提就是坚信客观真理的存在，并且执着地追寻它。而预测者的另一个承诺，就是要认识到他无法穷尽对客观真理的认知。

（2）预测之所以重要，是因为它连接着主观世界与客观现实。科学哲学大师卡尔·波普尔早就意识到了这一点。对他来说，假设并不科学，可证伪的假设才是科学的。这就意味着在真实世界里，假设可以通过预测得到检验。

（3）令我们裹足不前的是，经过验证的那些为数不多的想法的实际作用并不大，而且许多想法未经过检验，或者根本就无法检验。在经济领域中，验证失业率预测的准确性要比验证刺激消费政策的效果的论断容易得多。

Cleo－CPIC

序言

印刷机－书籍成产成本极大下降－生产量上升

信息质量参差不齐

印刷错误
以讹传讹

信息增长速度大于人们的处理速度和分辨速度

增大民族和宗教的孤立进程 because 过量Info，人筛选自身喜欢的，忽略其他
e.g. 路德宗教改革，1524－1648的多场战争

推动科学、文学进步

· 印刷机、蒸汽机、互联网实质上就是放大器、倍增器的工具作用

· 是Y点的助力工具

黄生-中国平安-互金

读完《信号与噪声》一书的序言，主要的概括有如下的几点：（1）信息的稀缺和泛滥（2）信息的获取和判断（3）信息的分析与预测。

首先是信息的稀缺和泛滥，在印刷机还没有发明和普及之前，由于信息传播的困难，基本是靠手工的抄写的途径流传，导致书本的成本价格高昂，只是属于贵族的奢侈品。这一阶段，传播的范围少，速度慢，是信息的稀缺时代，基本上是社会上层人士的资源。

因为印刷机的出现，印刷术这一科技把书本的成本下降了300倍，这样导致了信息传播呈现爆炸式的增长，一下子变成了信息泛滥的时代。人们获取信息变得十分容易，从而大幅度地改变了社会的面貌以及人们本身的日常生活。

然后，信息由以前的艰难获取变成现在的轻易获取，信号与噪声的问题由此变为重要的议题。正确而积极的信息称为信号，相对应的错误而负面的信息就是噪声，是大家所说的垃圾信息，干扰了人们正常的生活。印刷机没有普及之前，错误基本上是人为的手抄疏忽而导致的，由于传播范围少和速度慢，所以也不太觉得噪声的问题明显。但是现在印刷机的使用，信息的传播途径加快，成本降低，一旦出现问题，后果十分严重，文章举了《邪恶圣经》作为例子。

同时，也有更多的人出现了别有用心，传播错误的言论，以达到自己的目的。这个时候，信号和噪声漫天飞舞，人们面对如此之多的信息，超过了大脑原本具有的接收分辨能力，感到彷徨与无奈。

最后是信息的分析与预测的方面，由于信息的爆炸，如何获取有用的信息，避免垃圾信息的干扰，以及利用正确的信号来对事物的发展进行正确的预测是近现代人们最为关注和现实的问题。

文中说道，预测之所以重要，是因为它连接着主观世界与客观现实。我们只有将大量的信息通过科学而有效的方法进行分析，找出规律才能做出有效的预测。而文章中给出的介绍是贝叶斯定理用来解决金融市场泡沫、全球变暖和恐怖主义的问题。

读完全文，让我思考最深的一点是文末最后一句，“信号是真相，噪声却使我们离真相越来越远”。信号是相对的一个恒量，而噪声却是可以无限地扩张，这样导致了分析出有用的信息而作出正确的预测日益变得困难。文章中也有简单地提出通过“规章制度”和“科学技术”来解决。这个也是“道”与“术”的问题，至于道，我觉得信息的本身其实是一种关系，也是“人与人”、“人与自然”、“人与自己”的三重关系，为了避免噪声的干扰，人们只能把这几种关系和谐处理，不断陶冶自己的性情，爱护自然环境，妥善处理人与人的各种关系，这样全世界才会积极向上，朝气蓬勃，社会才会和谐稳定。而至于“术”的方面，我觉得说道大数据，就必须要带上云计算和互联网，因为三种是密不可分的关系，利用云计算和互联网来出来大数据的信息已经是当今人们的共识，也建议小观在后面继续有云计算和互联网方面的信息分享。

灰灰太郎-南开大学

一、印刷机引起的信息技术革命

人类最初的信息技术革命并非始于微型芯片的发明，而是以印刷机的诞生为开端的。信息的传播效率与质量是不一样的。在印刷机诞生之前，信息传播的主要途径是书籍，但是书籍易损耗、价格高，还有有很多书采取的是手抄的形式。由于这些原因，书籍这种信息传播中介并没有深入普通民众，知识仍然掌握在贵族或者有钱人手里，传播的效率很低。书籍的不易保存性还导致腐烂的速度远远大于其生成速度，导致知识的累极其困难，传播的质量很差。由于记载此事的书籍会腐烂消失还会导致“所有的事情都会被遗忘”。

印刷机的诞生永久而深刻的改变了这一状况。第一，降低了书籍成本；第二，增加了知识的传播效率。使贵族垄断的知识快速的在普通民众中进行传播，人类的知识开始进入快速积累期。但是，它仍然没有很好地解决信息质量问题，外加信息量的突然增大，超出了人们处理信息和分辨信息的速度。导致不同的人根据自己的理解选出与自己的同道中人。人们的思想开始出现冲突。

人们很难从干扰他们的噪声中分辨出有用的信号。信息量的增加超出了人们的处理能力，导致我们通常想要的是我们想要的数据（这些数据能得出我想要的结果），而并不是有用的数据。人们可以掌控自己的命运，我们可以利用这些信息，进行对自己有利的解释。最后的结果是人类在知识的理解上差异越来越大，矛盾冲突不可避免。

二、生产力悖论

如果一项发明的成本降低了，这就表明我们善于利用信息，并将其转变为知识。而如果发明的成本增加了，那就说明我们正在噪声中寻找信号，这无疑是在错误的方向上浪费时间。

计算机热非但未能推动经济和科学的发展，反而造成了两个领域生产力水平的短暂下降。意味着刚开始的计算机对于需要处理的数据显得能力不足，得出了错误的结论，导致科学科学或者经济在错误的方向上浪费了很多时间，进而导致生产力下降，即所谓的“生产力悖论”。

三、大数据的承若与陷阱

信息的指数式增长被当做万能灵药，主编安德森在一篇文章中所说的这句话-数量庞大的数据会使人们不再需要理论，甚至不再需要科学的方法-可以代表人们当时的一种乐观心态。我们开始利用数据对各种事件进行预测，自信的以为我们的命运由我们自己主宰。我们天真地相信各种（预测）模式，却没有认识到这些模式在我们进行假设选择时根本不堪一击，因此总会带来惨痛的后果。但实际情况是，我们的很多预测是失败的，而错误的预测常常会危及整个社会。

但最终作者相信，这些大数据终将推动社会进步，至于这种进步的速度有多快，或者进步的同时是否还会倒退，这些都取决于我们自己。

四、为何未来使我们震惊

人类在身体素质上与其他动物相比，没有天生的优势。我们之所以生存了下来，是因为我们运用了智慧。因此，人类需要比其他动物更好的发现模式，这种模式可以让我们无规律的信息中找到规律。

复杂系统的出现使我们不像那些相对简单的系统那么容易出错，但一旦出错，必定是要命的大错。比如印刷机使我们抄写错误也来越少，但一旦出现，传播的速度也会更快。互联网技术的发展更进一步强化了这种错误的扩大效应。而且美国的政党政治表明，不是信息越多越接近真理，实际情况是人们更加强化了自己对原有观念的信心。

制定规章制度是解决这些问题的途径之一，但是我怀疑这种制度会成为我们逃避自身问题的借口。我们要停止对事物进行预测的做法，并且承认我们的预言有问题。我们喜欢对事物做出预测，而我们的预言却总是出错。

五、预测与贝叶斯定理

我们永远都不可能做出完全客观的预测，因为这些预测总会带有主观色彩。但是，本书对“根本不存在客观真理”这一虚无缥缈的说法完全不赞同。相反的，首要的前提就是坚信客观真理的存在，并且执着地追寻它。其次，就是要认识到他无法穷尽对客观真理的认知。

贝叶斯定理名义上是一个数学公式，但其内涵却远远超出公式的范畴。这一定理表明，我们必须从不同角度去思考我们的想法，以不同的方式检验我们的想法。我们要坦然面对各种可能性和不确定性，更加周详地考虑我们对一个问题的假设和看法。

信号与噪声笔记～天长地久

信息越多，问题越多。当人类开始相信他们可以预知和选择自己的命运时，人类历史上最血腥的时代也就开始了。

正如万维网建立初期那样，印刷机使用之初的信息质量也是参差不齐的。人们一下子接触到大量的新思想，这难免会产生诸多混淆。信息的增长速度远远超过了人们处理信息和分辨信息的速度。共享信息的不断增长反而加速了民族和宗教的孤立进程，其速度之快不禁让人瞠目结舌。面对“过量的信息”时，我们会本能地进行筛选，选出喜欢的，忽略其他的，与同道中人为友，与意见相左之人为敌。

信息不再那么稀有，我们拥有的信息太多，甚至多到无从下手，但有用的信息却寥寥无几。

我们主观地、有选择地看待信息，但对信息的曲解却关注不够。我们以为自己需要信息，但其实我们真正需要的是知识。

信号是真相，噪声却使我们离真相越来越远。

莎士比亚借西塞罗的话警示我们，“(可是)人们照着自己的意思解释一切事物的原因，实际上却和这些事物本身的目的完全相反”。人们很难从干扰他们的噪声中分辨出有用的信号。

“预言”是指占卜者告诉你的话，“预测”是指在不确定的条件下进行计划，这一行为需要谨慎、智慧和勤奋，更像我们今天所说的“预见”一词。

工业革命主要始于那些言论自由的国家，因为在这些国家，宗教思想和科学思想可以自由传播，人们也不必对审查制度心存顾虑。

工业革命的重大意义难以尽数。纵观人类社会的历史进程，经济增长的速度曾经为年均0.1%，这个增速足以匹配当时人口数量平缓增长的状况，但人均生活水平却没有得到任何显著提高。然后，经济形势突然出现了前所未有的进展，经济增速急剧超越了人口数量增长的速度，尽管偶尔也会出现全球金融危机，但这种高速增长的态势时至今日仍未改变。

历史证明，印刷机引发的信息大爆炸为我们创造了一个好的世界，因为它仅用了330年的时间就为我们带来了不可尽数的好处，而与此同时有几百万人在欧洲战场上丧命。

生产力悖论

一旦信息增长的速度过快，而我们处理信息的能力尚且不足，情况就很危险。过去40年的人类历史表明，把信息转变为有用的知识可能还需要很长时间，一不小心，我们就有可能倒退回去。

“大数据”的承诺与陷阱

一旦我们否认数据处理过程中存在着主观因素，失败的概率就会增加。要提高数据分析的质量，首先要对我们自身提出更高的要求。

为何未来使我们震惊？

人脑能力非凡，我们的思维很敏捷，我们能够敏锐地感知事物的模式，对机遇与威胁迅速地做出反应。但我们的生物本能有时会对这个信息丰富的世界难以适从。所以，我们需要积极努力，坚持自己所持有的看法，这样才有可能将重返信息负荷状态的可能性降到最低，甚至消除这种可能性。

预测与贝叶斯定理

我们永远都不可能做出完全客观的预测，因为这些预测总会带有主观色彩。

但是，本书对“根本不存在客观真理”这一虚无缥缈的说法完全不赞同。相反的，本书认为要做出准确的预测，首要的前提就是坚信客观真理的存在，并且执着地追寻它。而预测者的另一个承诺，就是要认识到他无法穷尽对客观真理的认知。

预测之所以重要，是因为它连接着主观世界与客观现实。

贝叶斯定理名义上是一个数学公式，但其内涵却远远超出公式的范畴。这一定理表明，我们必须从不同角度去思考我们的想法，以不同的方式检验我们的想法。我们要坦然面对各种可能性和不确定性，更加周详地考虑我们对一个问题的假设和看法。