【原】胡扯中的科学和数字、应对胡扯——读卡尔·伯格斯特龙著《拆穿数据胡扯》（下）

云蔚志读书 2022-09-01 发布于上海

展开全文

二、胡扯中的科学和数字

（一）科学并不完美

人们相信，科学能准确地反映自然的运行规律，这是因为科学能不断进化，并进行自我纠正。所以，我们不必迷信科学，科学中也有很多胡扯。以下是一些典型的科学胡扯。

1. p值

在处理数据时，大多数科学研究都会用p值来表示其结果具有统计的显著性。p值的临界值一般用0.05，选择这个数值纯粹只是因为惯例如此。如果p 小于 0.05，就说明偶然性的发生概率小于5%，结果具有统计显著性。

当研究人员对p值开始孜孜以求时，古德哈特定律（指标变成目标后，就不再是一个好的指标）就开始显现威力了。人们只会对那些统计意义上的“阳性”结果更有兴趣，而忽略那些“阴性”结果的文章。这样就很容易促使研究人员尝试不同的统计假设或测试，选择所需要的数据，直到使p值跨过临界值0.05。这就是所谓的p值操纵，它破坏了科学实验的诚实性。

没有产生显著性结果的实验数据最终被科学家扔进文件柜里，形成所谓的抽屉问题（file drawer effect）。如此发表的论文显然是有偏差的，研究成果也是不全面的，成为胡扯的一种来源。

2. 人工智能

人工智能（书中以“大数据”来表示）现在炙手可热，相关的文章连篇累牍，其应用的前景无限美好。而人工智能的工作机制不过是旧瓶装新酒，仍旧符合计算机编程的通常逻辑：输入数据，经过一个类似黑箱的算法处理后，再输出数据。数据在这个过程中起到了关键的作用，因此计算机科学有一个专用的缩写：GIGO，即“garbage in, garbage out”（废料进，废品出）。作者希望减少对人工智能的炒作，更专注于数据而不是黑箱算法的细节。

机器看似非常理性，但并非没有人类的偏见。人们给它输入了带有倾向性的数据，再训练机器据此进行决策。机器就会学习这些数据，并延续这些偏见。在这种情况下，“机器学习”或许更应该被称为“机器教化”。

人工智能中的算法对人类生活足以产生重大的影响，研究人员和政策制定者都呼吁建立算法问责制和算法透明性制度。但是，许多公司都以商业机密为由，拒绝公开他们的算法。其实这也算情有可原，一旦公布了算法，就有了操纵算法的可能性，那么所获得的处理结果就难保质量了。

人工智能的算法还有一些天生的缺陷。它无法应付数十个、数百个甚至数千个变量，更难以区分事件之间的相关性和因果关系，指望它能预测复杂多变的社会现象，无异于一场灾难。之前，就有根据人们在谷歌上的搜索关键字来预测流感暴发的研究。但这仅仅是一个时间上的巧合事件罢了，并没有理论的支持。另外一个让机器学习识别罪犯的算法更加可笑。在研究者给机器的合成图像中，罪犯都是皱着眉头，而正常人是面带微笑。所以，这种检测犯罪的方法就是胡扯，他们发明的只是微笑探测器。

（二）数据的问题

人们都说数据从不说谎，但我们必须牢记数据经常误导人。

1. 数据的获取

在很多情况下，我们无法对全部样本进行精确的计量，只好选取其中的一小部分样本，进行整体的估计。那么，样本数量的大小，取样的范围是否合理，填写问卷者的心理等都将影响对整体情况的评估。

（同样的，国家统计局年度报告中的人口数据也是抽样推算得出的，存在着以上提及的偏差。所以，国家需要通过定期的全国人口普查，才可以了解真实全面的相关人口情况。）

另外，不要忘记泛滥的胡扯现象，人们在网上看到的那些熟悉的数据很可能只是些僵尸统计数据罢了。那些数据不过是断章取义、已经过时或者完全就是编造的，但不妨碍它们频繁地被引用，总是存在于网络之中。

2. 诚实表达

即使一个数字或测量值是正确的，它也仍然可能被用来制造胡扯，这就涉及到如何准确地表达数字了。

仅仅数字正确是不够的，还需要将它们放在合适的上下文中，以便读者能够正确地理解。比如，某速溶咖啡标榜“99.9%不含咖啡因”，其实考虑加入了大量的水，咖啡因肯定是不超过1%的。这样的表述毫无意义，即使是真话，也仍然是胡扯。不如换成“咖啡因含量仅相当于一杯咖啡的1%”，这才是有意义的比较。

有些数学表达式在等式两边的数值看似相等了，却忘记了保持两边单位的一致。这就使得量纲分析失去意义了。

百分比是常见的比较工具，但也常常出现表达的错误。首先，百分比可以使较大的值看起来很小。以百分比的形式报告数字，可能会掩盖净值的重大变化。其次，改变分母会掩盖分子的变化。再次，在存在负增长的变化时，用百分比计算就有可能得出奇怪的答案。2011年6月，斯科特·沃克州长宣称全美50%的就业增长发生在威斯康星州。实际情况是，美国各州的工作岗位增减不一，总体上的净增长很小，只有大约1.8万个。威斯康星州净增了9,500个工作岗位，超过了美国净增长的1/2，而全美新增的工作岗位中只有很小一部分在威斯康星州。显然，为了吹嘘自己的政绩，这州长是故意混淆了增长和净增长的概念。

在另外一个医疗检测中，百分比就更容易误导人了。莱姆病的抗体测试有5%的概率出现假阳性，如果一个人的检测结果为阳性，那么其患莱姆病的概率有多大呢？许多人，包括许多医生，都认为答案是大约95%，但这并不正确。由于莱姆病非常罕见，在莱姆病流行的地区，每1,000人中只有1人被感染。假设我们检测1万人，那么可以预计有大约10个真阳性和大约0.05×10,000 = 500个假阳性。在那些检测呈阳性的人中，只有不到1/50的人真的被感染了。因此，即使检测呈阳性，患病概率也不会超过2%。以上忽略了群体中患这种疾病的基础比率，这是一个常见的错误。

3. 数据可视化

面对一堆数字，总是令人感到枯燥无比。数据可视化更加简单直观，让人们摆脱了这种困境，其中元素周期表和地铁线路图就是典型的可视化形式。

但有些希望误导读者的设计者就在图表上做起了手脚，最常见的手法是：坐标轴不从0开始，夸大了各项之间的差异；或者故意选择某个范围的数据，掩盖了部分信息。

三、应对胡扯

（一）辨别胡扯

作者在书中介绍了六大简单技巧，以便于读者分辨胡扯。

1. 质疑信息来源

一定要确定消息来自何方，对方如何获知此消息，以及他们的目的是什么。

2. 小心不公平的比较

不要将两个事物进行不平等的比较，比如“机场安检托盘里的细菌比厕所还多！”

托盘上的微生物总量并不比马桶座圈多，只不过有可能飘落到托盘上的那些微生物会更多一些。

3. 忽略语境

一些新闻仅仅报道片面的信息，不给出完整的背景，语境的缺失必然会误导读者。

比如，美国国家广播公司（NBC）称：“调查显示，留学生入学申请人数下降了近40%。”其实，留学申请的整体变化不大。确实有39%的学校遇到了申请人数的下降，但该报道忽略了还有35%的学校的申请人数增加了。

4. 从数量级考虑

有些胡扯的数字过于夸张，以至于我们凭简单的数量级估算，无须太多的调查研究就能反驳它。

比如，有人声称，英国有超过12.1万名男性名叫约翰·史密斯。把所求数字分解成几个部分进行估算，结果精度达到最接近的10的幂（有时称为“数量级”），就可以验证该说法的真伪。此时，我们只需知道：“英国有多少人？其中名叫约翰的占多大比例？在名叫约翰的英国人中，姓史密斯的占多少比例？”如果取英国人为1亿人，叫约翰的占1/100，其中姓史密斯的占1/100。最终估算英国有一万人叫约翰·史密斯。这个估计结果相当不错，与实际值4 ,700人很接近。但12.1万与实际值相差超过了10倍，在数量级上明显不符合。

这个粗略估算过程叫作费米估算，是以物理学家恩利克·费米的名字命名的。当初，费米曾用这些简单的方法来估算原子弹爆炸的威力。

5. 避免证真偏差

证真偏差是指人们往往会注意、相信和分享与自我信念一致的信息。人是很难否定自我的，这也是极端言论在社交媒体上大受欢迎的原因。

6. 考虑多个假设

在理解任何趋势、模式或事件时，我们不要被那些看似合理但不正确的解释蒙蔽，应该尽可能考虑更多的原因。

（二）辨别网上的胡扯

在网上，需要掌握下面这些分辨技巧。

1.从多个网站确认那些新奇的言论和新闻。

2. 所有的信息一定要有出处。

3. 追溯消息的最初来源。

4. 使用反向图像搜索，查证那些可疑照片是否来自图库网站。

5. 注意深度换脸等技术所生成的假照片。