分享

绕过这七个陷阱,才能get到统计结果的正确打开方式

 解螺旋 2020-08-27

作者:麦子(转载请注:解螺旋·医生科研助手)

做科研为什么要讲究统计?无非是因为人对周遭世界的理解会有主观偏倚。用数据说话,则显得更客观。

然鹅,不管是自己辛辛苦苦做了一堆运算得到的结果,还是别人甩给你一纸统计报告,当你解读统计结果时,那个叫“主观”的小恶魔仍会在你的脑海中阴魂不散,让你得出与事实相悖的结论。

下面七点都是恶魔经常出没之处,可得绕道慎行~

小小的差异你却以为有意义

正如同股市每天都有上下波动,票选过程中有时你也会领先我一两个百分点,这些都是小小噪音,代表一些机率而已,过一会可能就会翻转过来,不必大惊小怪。

为了避免一看到波动造成的差异就一惊一乍,你可以看看误差界限(margin of error)。如果差异小于误差界限,就很可能只是随机波动。

差异有统计学意义不代表有现实意义

常常会听到文献报道说,某疾病的发病率有男女差异。但且不说差异有多大,这是从大量观察样本来说的,不应该形成刻板印象,更不要忽略组内的个体差异。

当一男一女两位真实的患者坐到你面前,你会简单地根据一个流调结果为他们制定不同的防治计划吗?流调说女性患病率低,但万一你面前的这位女性还有其他危险因素呢?另外,对随机抽取的两位同性患者,你会直接给出相同的防治计划吗?

当遇到差异时,一方面要考虑效应量,效应量太小,则现实意义可能不大;另一方面要留意组内的个体差异,具体问题具体解决。

忘了考虑极端值

众所周知,当数据呈正态分布时,大部分数据点会落在平均值附近,而极端值只有两边很少的部分。如果两组差异不太大时,那可能大多数数据点是重合的(差异不大),只有极端值是真正有差异的。

这时就看你的讨论目的了。如果你意在讨论大多数人,那么这个差异可能没什么卵用。如果着眼于极端值,那么很小的差异也可能有很大的价值。

误信了巧合

你造吗,每年尼古拉斯・凯奇出镜的电影数量,跟美国每年掉到游泳池里淹死的人数的趋势线,有着惊人的一致性,比咱们的雨神萧敬腾还衰。

这真的真的真的是巧合,即使画出了相似的曲线都未必能称得上“相关”。你应该还不至于误读这两个现象,但到了自己探索未知世界时,那可就说不准了。挖的数据多了,你总能找到一两个长得像的模式。

在科研中,只好对一切相关性都保持警惕了。多问几个问题,比如某种相似模式能否在不同样本中都观察到(排除抽样误差)?能否预测未来事件?不能重复、不能预测的,还是放过它吧。

误判因果关系

找到了两组相关变量,自然而然你就想找到它们谁是因谁是果。不少时候,因果角色都有迷惑性。比如,观察到了失业和精神疾病的相关性,那么到底是先精神健康有异常了才失业,还是失业了才精神不正常?

电影《半斤八两》

遇到这种情况,也只能反复考虑,不仅要想想它们是否真的有因果关系,还要想想它们颠倒过来会是怎样的情形?会不会其实是互相反馈的循环?甚至可能另外建立假说,做更多的补充调查才能有恰当的结论。

忘了考虑外部原因

有时候,两者的相关性可能是第三个外部因素在从中作梗,它才是那两个相关变量背后的大Boss。

一直传说喝红酒对心血管有益,到底是真是假,在学界仍然争论不休。若仅仅是在人群中观察到喝红酒的人患心血管疾病概率低,证据显然是不足的。还有可能是消费得起红酒的人经济条件也好,能享受更好的医疗保健服务呢。

所以当你观察到了某种相关性,高度怀疑两个变量有因果关系时,不妨再追问一下,引起那个“因”的变化的,又是什么东西?那个外来者会直接引起你观察对象中那个“果”的变化吗?你有可能要多追问好几层,多调查好几遍。

当心“图骗”陷阱

不仅网红照片能做到P妈不认,调研报告中的统计图也是有手段和伎俩的。主要靠坐标刻度的缩放。

正常的坐标刻度应该覆盖数据的全部范围。但有时候,别有用心的人会截取一小段来放大。如下图,在0-100之间,两组的差异看起来不大;但截取52.5-56.5这一小段,视觉效果却足以哗众。

所以读图的时候,每一个细节都不要放过。

参考资料:

Meet the 7 Deadly Sins of Statistical Misinterpretation - and How to Avoid Them

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多