我们每天面对那么多数据，如何才能做出比较明智的决策？

昵称535749 2018-07-26

展开全文

数据的真相

作者：[美] 约翰·H.约翰逊＆[美] 迈克·格鲁克
出版社：中信出版集团
出版时间：2018 年 7 月
我们每天都在刷头条、浏览弹窗，每天都会接触海量的数据信息，这些信息背后隐藏着什么真相？如何识别那些一本正经的胡说八道？普通人一天大约要接收30G的数据，但大部分人不知道如何正确地解读这些数据。MIT数据...

商业

曾梦龙2 小时前

《数据的真相》巧妙地将一本应用统计学教科书去粗取精，提炼为“精华本”。重点突出了其中有意义、有价值的部分，而这些知识是我们在当今大数据世界里浏览信息所必须掌握的。对于这本书，我觉得再怎么推荐都不为过。——约书亚·D. 赖特（乔治梅森大学教授）

作者简介：

约翰·H. 约翰逊：麻省理工学院（MIT）计量经济学博士。约翰作为专家证人在诸多涉及运用、解释数据的案件审理过程中担任证人、顾问工作。作为埃奇沃思经济咨询公司创始人，约翰领导下的数据驱动型公司被美国国家公共电台、《华盛顿邮报》、《今日美国》、《赫芬顿邮报》等媒体争相报道。

迈克·格鲁克：毕业于约翰·霍普金斯大学。作为一名获奖作家和营销专家为全美国范围内多家龙头企业和报纸撰写文章。迈克担任格鲁克公司（Bluckworks）总裁，格鲁克公司位于纽约州布法罗市，专注于广告文案、市场营销等业务。迈克善于将复杂的话题以平实易懂的方式进行解读。

译者简介：

王喆：中国翻译协会会员，澳大利亚麦考瑞大学翻译和口译硕士。澳大利亚口笔译协会（NAATI）职业翻译，现于南京高校任教。曾翻译《战略的本质》《超级用户》等。

书籍摘录：

第八章为什么福岛事故是可以预防的：预测未来的技术（节选）

2011 年 3 月 11 日，日本发生了该国有记录以来最严重的地震。据美国国家航空航天局的科学家称，此次东日本大地震震级达 9.0 级，震中位于太平洋海域，距离日本沿海不远，其威力之大，使得地球的形状轴（形状轴周围的地球质量是平衡的）位移距离超过 0.5 英尺（ 15 厘米）。

地震发生不到半个小时，引起的巨大海啸就席卷了日本福岛第一核电站。原本核反应堆一感知到地震就会自动关闭，但是海啸摧毁了应急发电机和冷却泵，还损坏了多级反应器。结果，“数量巨大”的放射性物质随之泄漏，数百万吨被污染的水也涌入海水之中。

在国际核事件分级表中，该事故被评为7级事故—这已经是最高级别了，只有重大事故才可以被评定为这个级别。当时，只有切尔诺贝利事故能与之相提并论。当然，不容忽视的还有地震和海啸在日本全国造成的伤亡，据报道 15391 人因之丧生， 8000 多人失踪。

地震—往往会引发巨大的海啸—在日本是人尽皆知的自然灾害。如今，日本的一个国家机构准备了若干幅日本全国地震灾害图，并用颜色代码做了标记，突出全国范围内陆震事故发生的概率。甚至在当初策划建设福岛核电站时，工程师也知道面临地震及海啸的风险，所以设计出来的核电站可以经受 3.1 米高海浪的冲击。这一高度是基于当时的一般惯例，即根据历史上的海啸记录判断未来海啸的浪高。 3.1 米的浪高是根据 1960 年侵袭智利沿海的大地震而来的。

实际上，据估计席卷福岛第一核电站的海啸浪高 14 ~ 15 米。由于测量仪在海啸中遭到毁坏，因此我们无从得知海啸的确切浪高。

核电站的确是遭受了自然灾害的袭击，而之后的一系列事故，是由于无法准确地预测灾害的强度，导致无法应对才引发的。正如独立委员会官方报告上写的：“福岛事故是一场本就能够且应当预见，从而避免发生的人为灾难。”

当然还有一些其他因素。据官方报道称，东京电力公司、监管机构及政府被指“相互勾结”。有些计算机模型没有准确计算海啸冲上建筑周围土地情形，在那种情况下，海浪的高度会增加。但根本来讲，设计期间所做的预测在若干年后带来了严重的后果。

最开始对福岛核电站能够承受 3.1 米海浪袭击的评估来源于核电站设计前几年间的数据记录。不过据国际原子能机构称，在地壳运动高度活跃的地区，可能需要研究“数万年间”的数据。在一篇卡内基国际和平基金会的报告—《为什么说福岛事故是可以预防的》（Why Fukushima Was Preventable）一文中，研究者们引用了一篇报告（发表于福岛事故几年前）。引用的报告称，根据沉积物推断，该地区“每隔千年就会被一场大规模海啸席卷”。卡内基报告的另一项研究（发表于 2011 年海啸后不久）列入了发生在日本及附近的 6 次海啸， 500 年来最大的海啸浪高达 20 多米。《纽约时报》甚至报道，存在“所谓的海啸石，有的已经存在了 600 多年”，还刻着诸如“勿在此地建设家园”的警告。

在本章，我们会探讨一下预测在日常生活中所扮演的角色，讨论内容涵盖地震、抛硬币、选举、天气等。还会讨论为什么对未来的预测很难做到精准，但也不是说绝无可能。

明天太阳会照常升起吗？

预测建立在一个看似简单的问题之上：立足过去，我们能预知未来吗？

只是这个问题一点都不简单。实际上，这是本书最复杂的问题之一，正因为这样，我们才把这个问题留到最后讨论。

我们就以前半个问题展开吧：“立足过去……”

如果你拥有所有以往数据，也就是我们所谓的数据总体，那么你就有了一个良好的开端。例如，不管以什么方式，若我们能够观测到曾经发生在日本的每一次地震及海啸，我们就掌握了所有这些事件的数据。即使那时我们常常禁不住思考未来还会发生什么别的事情。

但如果我们没有搜集到全部数据，就不得不依赖某一个样本。而在抽样的过程中，我们也不是总能知道样本是否代表了数据总体的真实情况。所以你得出的结论也不确定，也就是抽样误差—我们在第五章讨论过。这是福岛大灾难背后的因素之一，鉴于大地震及海啸发生的频率相对较低，其样本容量（几十年）太小，不具备代表性。

样本的不确定性越大，预测的不确定性就越大。掌握的信息越详尽，预测结果越准确，在统计学中，我们将预测的基础称为“模型”。模型展示了所有掌握的信息—你用来预测未来的因素，你所依赖的基础样本数据，以及你通过数学方法确定的各因素之间的关系。换句话说，该模型体现了你所认为的各因素之间的关系。毕竟，如果你解释不了已经看到的东西，就很难（几乎不可能）解释在未来将要看到的东西。

以往的数据也会受到目前我们讨论过的许多因素的影响—筛选数据、遗漏变量、离群值、显著性差异等。以上任何因素在你的以往数据中出现都会导致影响预测的问题，因为未来通常立足于以往的数据。

现在，你一旦开始着眼未来，而不是回首过去，问题就会变得愈加复杂，因为你将存在于过去和未来的不确定性叠加在一起了。过去发生过的事情未必会在未来发生。

比如，你想预测来年小麦的价格。你搜集了人类有史以来所有关于小麦价格的数据，还有决定小麦价格的诸多因素（气温、肥料价格、运输费用等）。首先，你需要建立一个统计模型以确定过去影响小麦价格的因素是什么，以及不同因素之间存在怎样的数学关系。然后，凭借此模型预测来年的小麦价格。

问题是，不管样本数量有多大，你的统计模型有多精确，依然存在导致预测出现偏差的未知因素：

·要是铁路运输费用翻了一番，会怎样？

·要是国会通过了新的法案，限制小麦价格，会怎样？

·要是小麦出现基因突变，成长速度比原来翻了一番，导致全球小麦供应量翻倍，会怎样？

我们不知道以上情况是否会发生，但是我们也不知道它们会不会不发生。但是这类的干扰事项（有时被称为结构性变化）会扰乱我们立足过去精准预测未来的能力。

预测并非易事，因为我们对世界运行方式的认知上还存在盲区。存在不可预知的事情，未知的进程、随机发生的事情。人说变就变，事物也不会一成不变。你在研究的数据可能会改变—你对基础过程的理解同样也会变化。例如，福岛灾难之后，根据日本民事服务协会提出的新研究方法，海啸的预期浪高由 3.1 米提高到了 5.7 米。当你想要预测未来时，这些变化就是你需要铭记在脑海中的注意事项。

预知和预测的区分

地震是无法预知的。至少美国地质调查局（USGS）认为不可能做到，而且他们还为“预知”和“预测”做了明确的区分。他们指出，“不存在可以预知某次地震发生的科学易行的方式”，还补充说“根据人们的概念，所谓预知，需要能够预言出未来地震的震级、发生的时间及地点，这在现在看来，是不可能做到的。”目前我们缺乏准确预知地震的数据和技术。

这就是说，美国地质调查局说，这些地方“从长远来看最有可能发生地震”。只有在评估在某一段时期内陆震发生的可能性时，他们才将其称为预测。

那么我们就会面临这样一个问题：预知与预测到底存不存在区别。内特·希尔在《信号与噪声》（The Signal and the Noise）一书中指出，有的人（多数是研究地震的知名地震学家）会区别使用这两个词，而有的人则会将两个词互换使用。有的人认为“预知”一词具有双重含义—发生或者不发生—而预测的更多是概率事件，事情发生的概率有百分之多少。（说得复杂点，当谈论到过去、现在或者未来的数据时，可能需要进行估算。）

我们发现在某些情况下，这类区分确实存在。然而，我们从撰写本书的目的出发，一般情况下将“预知”与“预测”看作同义词，如果不是，会另行注明。

为什么呢？

首先，因为这本书的读者群是普通的数据接收者，而不是地震学家或者高级统计学家。

其次，我们不想让字词语义上的区别喧宾夺主，盖过本章主旨—阐释运用数据预测未来时应该或者不应该采用的方式。

出国旅游之前，请告知金融机构

你遇到过信用卡公司误认为你的卡被盗刷而给你打电话的情况吗？这时有发生。你在欧洲度假或者在品牌折扣店血拼，突然接到了来自信用卡公司的电话，原因是该公司担心你的卡出现了欺诈行为。

为什么呢？可能是因为公司参照了以往的数据，并以此创建了你未来购买行为的模型。那么当数据和模型不相符的时候，你就会接到电话。［Visa（维萨）在其网站上建议，如果你要出游，请告知金融机构，这样“有助于确保你的卡不会因为异常活动而被标记”。］这就是假阳性（false positive）的一个完美例子—信用卡公司预测，你卡上的消费行为有可能是欺诈行为，然而实际并非如此。

统计模型无法解释说明的事件就是预测误差的潜在之源。正如抽样误差为我们指出了抽样存在的不确定性，预测误差则是衡量未来不确定性的一种途径，基本上的方式是，在误差出现时比较预测结果与现实结果。

往往用预测区间（prediction interval）来衡量预测误差，预测区间就是我们希望从中看到下一个数据点的区间。当信用卡公司因为“被盗刷”的信用卡而致电你的时候，可能是因为你最新的消费记录超出了它的预测区间。因此，致电Visa并告知他们你打算去夏威夷度假，实际上你扩大了Visa的预测区间，连夏威夷海滩上的迈泰鸡尾酒都能囊括在内了。

你可能知道—至少本能地知道，距离要发生的事情时间越近，预测结果越精准。从统计学上讲，就是说你的预测误差和预测区间变小了。假设现在是 5 月 1 日，对比次月销售额与本年其余时间销售额的预测结果，对次月销售额的预测结果的误差（预测区间）可能更小，有以下两个原因：

1.你掌握了更多、更新的历史样本数据。如果你试图在 5 月 1 日判断年终销售额情况，你只有当年 4 个月的数据。如果你等到 10 月 1 日，此时你有 9 个月的数据。在所有条件相同的情况下，历史数据越多，你做出的预测往往就越精准。

2.类似地，从理论上讲，对比从 5 月 1 日至 6 月 1 日与 5 月 1 日至 12 月 31 日两个时间段，发生在前一时间段的预见不到的事情要少。时间越长，影响你预测的因素出现的概率越大（新竞争者、不同的管理环境、供应商价格变动，不一而足）。

只是要记住：预测误差跟抽样误差是两回事。在政治民调中，我们会遇到这种困惑，政治民调常常论及误差范围，似乎这仅仅是抽样问题。但是抽取更多的人—甚至全部人口，也不能完全消除预测误差。政治候选人所获的支持会随着时间推移而变化。有的候选人会在其竞选对手退出时获得支持，而有的候选人则因为辩论中的不佳表现或者政治集会上不合时宜的呐喊（“迪安尖叫”）而失去潜在的选民。

最后，我们来谈谈预测偏差（forecast bias），该词被用来描述一贯偏高（正偏差）或者偏低（负偏差）的预测误差。为什么会发生预测偏差呢？也许是你所使用的模型存在误差。比如，你在本地经营一家自来水公司，你想用一种模型来预测年度供水需求，而该模型没有将城镇人口每年增长 5000 人的事实考虑在内，那么你得到的可能就是负预测偏差—需求总是偏低。当然，预测偏差也可能是蓄意发生的。假设你有一家分公司，次年的预算分配是根据你的预测而做。你预测得越高，分公司得到的钱就越多。如果存在这类动机，弄清预测偏差是如何发生的就轻而易举—如果你的工作需要问人们的预测，你就需要将这点铭记于心了。