分享

胡扯中的科学和数字、应对胡扯——读卡尔·伯格斯特龙著《拆穿数据胡扯》(下)

 云蔚志读书 2022-09-01 发布于上海

二、胡扯中的科学和数字

(一)科学并不完美

人们相信,科学能准确地反映自然的运行规律,这是因为科学能不断进化,并进行自我纠正。所以,我们不必迷信科学,科学中也有很多胡扯。以下是一些典型的科学胡扯。

1. p值

在处理数据时,大多数科学研究都会用p值来表示其结果具有统计的显著性。p值的临界值一般用0.05,选择这个数值纯粹只是因为惯例如此。如果p 小于 0.05,就说明偶然性的发生概率小于5%,结果具有统计显著性。

当研究人员对p值开始孜孜以求时,古德哈特定律(指标变成目标后,就不再是一个好的指标)就开始显现威力了。人们只会对那些统计意义上的“阳性”结果更有兴趣,而忽略那些“阴性”结果的文章。这样就很容易促使研究人员尝试不同的统计假设或测试,选择所需要的数据,直到使p值跨过临界值0.05。这就是所谓的p值操纵,它破坏了科学实验的诚实性。

没有产生显著性结果的实验数据最终被科学家扔进文件柜里,形成所谓的抽屉问题(file drawer effect)。如此发表的论文显然是有偏差的,研究成果也是不全面的,成为胡扯的一种来源。

2. 人工智能

人工智能(书中以“大数据”来表示)现在炙手可热,相关的文章连篇累牍,其应用的前景无限美好。而人工智能的工作机制不过是旧瓶装新酒,仍旧符合计算机编程的通常逻辑:输入数据,经过一个类似黑箱的算法处理后,再输出数据。数据在这个过程中起到了关键的作用,因此计算机科学有一个专用的缩写:GIGO,即“garbage in, garbage out”(废料进,废品出)。作者希望减少对人工智能的炒作,更专注于数据而不是黑箱算法的细节。

机器看似非常理性,但并非没有人类的偏见。人们给它输入了带有倾向性的数据,再训练机器据此进行决策。机器就会学习这些数据,并延续这些偏见。在这种情况下,“机器学习”或许更应该被称为“机器教化”。

人工智能中的算法对人类生活足以产生重大的影响,研究人员和政策制定者都呼吁建立算法问责制和算法透明性制度。但是,许多公司都以商业机密为由,拒绝公开他们的算法。其实这也算情有可原,一旦公布了算法,就有了操纵算法的可能性,那么所获得的处理结果就难保质量了。

人工智能的算法还有一些天生的缺陷。它无法应付数十个、数百个甚至数千个变量,更难以区分事件之间的相关性和因果关系,指望它能预测复杂多变的社会现象,无异于一场灾难。之前,就有根据人们在谷歌上的搜索关键字来预测流感暴发的研究。但这仅仅是一个时间上的巧合事件罢了,并没有理论的支持。另外一个让机器学习识别罪犯的算法更加可笑。在研究者给机器的合成图像中,罪犯都是皱着眉头,而正常人是面带微笑。所以,这种检测犯罪的方法就是胡扯,他们发明的只是微笑探测器。

(二)数据的问题

人们都说数据从不说谎,但我们必须牢记数据经常误导人。

1. 数据的获取

在很多情况下,我们无法对全部样本进行精确的计量,只好选取其中的一小部分样本,进行整体的估计。那么,样本数量的大小,取样的范围是否合理,填写问卷者的心理等都将影响对整体情况的评估。

(同样的,国家统计局年度报告中的人口数据也是抽样推算得出的,存在着以上提及的偏差。所以,国家需要通过定期的全国人口普查,才可以了解真实全面的相关人口情况。)

另外,不要忘记泛滥的胡扯现象,人们在网上看到的那些熟悉的数据很可能只是些僵尸统计数据罢了。那些数据不过是断章取义、已经过时或者完全就是编造的,但不妨碍它们频繁地被引用,总是存在于网络之中。

2. 诚实表达

即使一个数字或测量值是正确的,它也仍然可能被用来制造胡扯,这就涉及到如何准确地表达数字了。

仅仅数字正确是不够的,还需要将它们放在合适的上下文中,以便读者能够正确地理解。比如,某速溶咖啡标榜“99.9%不含咖啡因”,其实考虑加入了大量的水,咖啡因肯定是不超过1%的。这样的表述毫无意义,即使是真话,也仍然是胡扯。不如换成“咖啡因含量仅相当于一杯咖啡的1%”,这才是有意义的比较。

有些数学表达式在等式两边的数值看似相等了,却忘记了保持两边单位的一致。这就使得量纲分析失去意义了。

百分比是常见的比较工具,但也常常出现表达的错误。首先,百分比可以使较大的值看起来很小。以百分比的形式报告数字,可能会掩盖净值的重大变化。其次,改变分母会掩盖分子的变化。再次,在存在负增长的变化时,用百分比计算就有可能得出奇怪的答案。2011年6月,斯科特·沃克州长宣称全美50%的就业增长发生在威斯康星州。实际情况是,美国各州的工作岗位增减不一,总体上的净增长很小,只有大约1.8万个。威斯康星州净增了9,500个工作岗位,超过了美国净增长的1/2,而全美新增的工作岗位中只有很小一部分在威斯康星州。显然,为了吹嘘自己的政绩,这州长是故意混淆了增长和净增长的概念。

在另外一个医疗检测中,百分比就更容易误导人了。莱姆病的抗体测试有5%的概率出现假阳性,如果一个人的检测结果为阳性,那么其患莱姆病的概率有多大呢?许多人,包括许多医生,都认为答案是大约95%,但这并不正确。由于莱姆病非常罕见,在莱姆病流行的地区,每1,000人中只有1人被感染。假设我们检测1万人,那么可以预计有大约10个真阳性和大约0.05×10,000 = 500个假阳性。在那些检测呈阳性的人中,只有不到1/50的人真的被感染了。因此,即使检测呈阳性,患病概率也不会超过2%。以上忽略了群体中患这种疾病的基础比率,这是一个常见的错误。

3. 数据可视化

面对一堆数字,总是令人感到枯燥无比。数据可视化更加简单直观,让人们摆脱了这种困境,其中元素周期表和地铁线路图就是典型的可视化形式。

但有些希望误导读者的设计者就在图表上做起了手脚,最常见的手法是:坐标轴不从0开始,夸大了各项之间的差异;或者故意选择某个范围的数据,掩盖了部分信息。

三、应对胡扯

(一)辨别胡扯

作者在书中介绍了六大简单技巧,以便于读者分辨胡扯。

1. 质疑信息来源

一定要确定消息来自何方,对方如何获知此消息,以及他们的目的是什么。

2. 小心不公平的比较

不要将两个事物进行不平等的比较,比如“机场安检托盘里的细菌比厕所还多!”

托盘上的微生物总量并不比马桶座圈多,只不过有可能飘落到托盘上的那些微生物会更多一些。

3. 忽略语境

一些新闻仅仅报道片面的信息,不给出完整的背景,语境的缺失必然会误导读者。

比如,美国国家广播公司(NBC)称:“调查显示,留学生入学申请人数下降了近40%。”其实,留学申请的整体变化不大。确实有39%的学校遇到了申请人数的下降,但该报道忽略了还有35%的学校的申请人数增加了。

4. 从数量级考虑

有些胡扯的数字过于夸张,以至于我们凭简单的数量级估算,无须太多的调查研究就能反驳它。

比如,有人声称,英国有超过12.1万名男性名叫约翰·史密斯。把所求数字分解成几个部分进行估算,结果精度达到最接近的10的幂(有时称为“数量级”),就可以验证该说法的真伪。此时,我们只需知道:“英国有多少人?其中名叫约翰的占多大比例?在名叫约翰的英国人中,姓史密斯的占多少比例?”如果取英国人为1亿人,叫约翰的占1/100,其中姓史密斯的占1/100。最终估算英国有一万人叫约翰·史密斯。这个估计结果相当不错,与实际值4 ,700人很接近。但12.1万与实际值相差超过了10倍,在数量级上明显不符合。

这个粗略估算过程叫作费米估算,是以物理学家恩利克·费米的名字命名的。当初,费米曾用这些简单的方法来估算原子弹爆炸的威力。

5. 避免证真偏差

证真偏差是指人们往往会注意、相信和分享与自我信念一致的信息。人是很难否定自我的,这也是极端言论在社交媒体上大受欢迎的原因。

6. 考虑多个假设

在理解任何趋势、模式或事件时,我们不要被那些看似合理但不正确的解释蒙蔽,应该尽可能考虑更多的原因。

(二)辨别网上的胡扯

在网上,需要掌握下面这些分辨技巧。

1.从多个网站确认那些新奇的言论和新闻。

2. 所有的信息一定要有出处。

3. 追溯消息的最初来源。

4. 使用反向图像搜索,查证那些可疑照片是否来自图库网站。

5. 注意深度换脸等技术所生成的假照片。

6. 通过专门的核查网站来确认那些不合常理的消息。

7. 确认访问网站的地址是真实的。

8. 检查访问网站的历史信用记录。

9. 注意不要因为经常看到某个东西就相信它。

10. 减少信息的摄入。

最重要的是,使用社交媒体时,一定要记住“多思考,少分享”这句箴言。

书中还介绍了一些驳斥胡扯的参考原则。作者所作的一切都是在力图追求真相,保持科学的诚实性和决策的民主性,让世界更加美好。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多