分享

熊大胡说| 数据表明:数据相当不靠谱!

 有梦徽州 2016-06-27


大家好,我是媛子。初次见面请多多关照。

写这篇文章的动力呢,其实是经常在看到大众媒体报道出来的一些所谓的“数据表明”、“实验数据显示”、“大数据告诉我们”blablabla……这些貌似严谨的言论时啊,我作为一个整天跟数据打交道的统计人,所产生的一种强烈的吐槽欲望。

当今“大数据”如日中天,公司推出什么产品、政府出台什么政策、媒体报道什么现象,很多时候呢已经不再是靠领导一拍脑袋,而是拿数据来说话。这当然是件好事儿啦,用靠谱的数据加上合理的统计分析得出的结论总比个人色彩浓厚的主观判断招人喜欢吧。

这话一点儿错都没有,但是千万不要漏看两个关键词:“靠谱的数据”和“合理的统计分析”。

我们姑且不论什么样的统计分析是合理的,先来谈谈什么样的数据是靠谱的。收集的数据都不靠谱,什么分析都是耍流氓。而要收集到靠谱的数据呀,首先要找对收集数据的对象,或者说样本(sample)。

那我们就一起来看看到底什么样的样本靠谱,什么样的不靠谱。

大家先来看以下几个真实的例子。


1化学防晒完胜物理防晒!(呃?)



第一个例子呢,是关于化学防晒霜和物理防晒霜的PK。

这其实是我前几天偶然在优酷上面看到的一个号称护肤小侦探的网红发布的视频,点击率很高。他做了一个实验,得出结论说在防晒霜的选择上,化学防晒霜完胜物理防晒霜。

那么他怎么做的那个实验呢?两管防晒霜:一管物理的,一管化学的;两个从大街上拉来的志愿者:一个男的,一个女的;男的涂上了物理防晒霜,女的涂上了化学防晒霜;两人分别户外暴走俩小时;然后用“专业的仪器”检测皮肤状态,包括什么色素沉着情况啦、皮肤发红程度啦、毛孔粗细啦、皮肤水分含量等等等等。这便是他收集到的数据,听起来够专业吧。

结果呢,女生完胜,结论成立,还顺带种草了几款化学防晒霜。完美!看到这儿,本宝宝的内心啊几乎是崩溃的。不知道会有多少无辜少女看完会这个,盲目地跟风拔草啊!

我们久暂且相信这个“专业的仪器”检测的结果能够真的刻画防晒效果,单就实验本身来说,这也是一个漏洞简直不能更加百出的案例。

相信很多朋友都能发现其中的猫腻——这俩人防晒效果不同真的是由于化学防晒和物理防晒造成的吗?还是这个男生和这个女生皮肤状况本来就不同呢?或是男生和女生对于防晒霜的反应不同?还是因为两人接受的紫外线强度不同(因为两人并未在同一处暴走)?还是因为两款防晒霜其他方面造成的不同?而非物理性和化学性的差异呢?诸如此类的麻烦我们称之为“混淆因素”(confounding effect)。那如果一个实验会造成这么多的混淆因素,那搞它有啥用啊?

所以,这是一个典型的不靠谱样本。造成这么多混淆因素的罪魁祸首,大家可能已经猜到了,就是样本不够多啊,或者说样本容量(sample size)不够大。如果他能每组找出几十个人,有男有女,大家初始的皮肤状态都差不多,而且大家都在同一处户外暴走,是不是就靠谱多了啊?(其实呢,这里还有另外一个跟样本无关的麻烦事儿,就是那两管防晒霜能否作为物理防晒和化学防晒的代表,这就涉及到我们统计里面说的随机效应(random effect)和确定效应(fixed effect)的问题啊,这里媛子就先不啰嗦了。)

那如果说这个防晒霜的例子问题主要出在样本容量不够大上面,那是不是只要找到足够多的样本就万事大吉了呢?(中国人民不差人儿对吧!)我们再来看下面这个例子。


2罗斯福将败给兰登!(哈?)


这个例子是关于罗斯福在美国总统竞选时候的例子。

1936年美国总统改选。改选之前呢,一家民意测验机构《文学文摘》杂志,为了预测民主党候选人罗斯福与共和党候选人兰登两个谁能当选,以订阅杂志的顾客电话簿和俱乐部成员名单上的地址发出1000万封投票信,1000万封,收回回信200万封,花费了大量的人力物力。

怎么样?样本够大吧?200万封,没问题了吧?杂志社的调查结果是,兰登将以57 %对43%的比例获胜,并进行了大量的宣传。而最后选举的结果呢,作为后来人的大家都知道了,罗斯福胜了,还是以62%对38%大获全胜。

《文学文摘》的问题显然不出在样本容量上了:200万啊,再不够连张艺谋都没辙了吧。那么问题到底出在哪儿呢?大家再回过头来想想,这200万的样本都是怎么来的呢?是从杂志电话簿和俱乐部成员名单中来的。

1936年啊,什么样的人会去订杂志读,去俱乐部high啊?富人呗!也就是说,这200万是从富人中来的,不能代表全民。换句话说,《文学文摘》所采集的样本忽略了占人口大多数的平民这部分投票者,所以它不具有代表全民总体(population)的能力。再换句话说,这个样本是有偏的(sampling bias)。

那这种有偏性会造成什么后果呢?我们就来看看富人支持罗斯福的比例跟全民支持罗斯福的比例有什么不同。只要你有一丢丢的国际政治历史背景(当然理科生媛子也就剩一丢丢了……),就可以察觉问题的所在:罗斯福竞选和当政后实行新政都主要在为广大的平民发声,强调平等,这势必会动到富人们的蛋糕,对吧?所以呢,富人们不开心了。那现在看来,以上的现象就完全没啥奇怪的了吧?

其实在1936年啊,已经有人意识到这一点了。在《文学文摘》劳民伤财地调查同时,美国盖洛普等三家民意测验机构事先根据人口分布特点抽样调查,设计了一个抽样方案(sampling strategy),他们派调查员只调查3000选民,只有3000位,预测的结果呢,就是罗斯福当选。当然,至于如何合理地抽取样本,这是一门统计专业课——抽样技术要干的事儿了。

讲到这儿,我们可以总结一下了:“靠谱的数据”应该收集于具有总体代表性(representative)的较大样本。用统计的语言,我们把能够代表总体的这种样本称为随机样本(random sample),意思就是说要从总体中足够随机地抽取样本得到的数据才是有代表性的。 

听媛子啰嗦了这么多啊,想告诉大家的就是,当你读统计报告、看有关数据的报道时,千万别盲从,擦亮你的眼睛,先看看数据的来源是不是靠得住。当你自己做统计分析时,也别不管三七二十一直接甩出各种高大上的统计模型,先看看数据有没有什么问题,如果有,应当怎样弥补。

数据啊,就像是我们烹饪的食材。媛子生活在厦门,家乡在青岛,喜欢吃海鲜。大家都知道,对海鲜来说,好的食材不需要复杂的烹饪,清蒸一下就很美味了。那如果给你一堆死鱼烂虾(鱼和虾怎么得罪你了……),哪怕你是米其林七星厨师,把它们折腾成向日葵的样子,它也终究是一堆死鱼烂虾。

那通过以上两个例子呢,大家就应该知道怎样的数据能做出好的海鲜了。(呃……)最好要够随机!最好要大样本!

那有朋友可能会说了,明白!那我们以后做什么决策之前,只要做个靠谱的实验,收集靠谱的数据,然后再来个靠谱的分析不就万事大吉啦!呃,等一下啊,这么说是没错,但是呢,有时候条件有限,不是你想随机就随机,你想大样本就大样本的。臣妾做不到啊!

比如下面的两个例子。

3消失的弹孔


这个例子呢是,它的名字叫做“消失的弹孔”是在抽样技术里面一个比较著名的例子。在二战期间,美军不希望自己的飞机被敌人的战斗机击落,因此呢要为飞机披上装甲。但是装甲又会增加飞机的重量,飞机的机动性就会减弱,而且会更耗油。防御过度和防御不足都会带来问题!

所以他们想找到一个最优方案,在飞机的某些部位使用装甲。那么到底是哪些部位呢?军方发现,美军的飞机在欧洲上空与敌机交火后返回基地时啊,飞机上留有的弹孔分布得并不均匀,机身上的弹孔比引擎上的多。所以军方的结论是,应该把装甲放在弹孔多的机身部位。元芳,你怎么看?是不是有一种“英雄所见略同”的亲切感?

但事实呢是,在这一点上,军官们最幸运的是他们居然拥有一个统计小组。小组组长叫做Abraham Wald,如果你学过统计的话,没错,就是那个著名的Wald 检验的那个Wald。这个倔强的组长啊完全不同意军官们的方案,他认为需要加装甲的部位不应该是弹孔多的地方,而应该是弹孔少的地方,也就是引擎。后面的故事应该大家都猜到了,美军将Wald的建议迅速付诸实施,挽救了众多的美军战机。

在这里先让我跑个题。这也体现了熊大老师一直在强调的让数据产生价值的理念。打赢战争呢不能靠,就是不能仅靠天时地利人和,如果你被击落的飞机比对方少5%,消耗的油料低5%,补兵给养多5%,付出成本仅为对方的95%,拿你就很可能成为胜利方。这个就是数据所产生的价值。

好了跑题结束。那Wald他的高明的地方在什么地方呢?其实啊他的结论就基于一个理论:返航的飞机并不是能够代表所有飞机的随机样本。那么问题来了,我们能去战争现场去调查被击落的飞机吗?这不太可能,这上刀山下火海的,成本实在是太高了。所以像刚才那个美国总统竞选的例子一样,这个样本是有偏的,而且我们没有办法把它做到无偏。那怎么办呢?难道只能两手一摊:“事已至此,恕在下无能为力啦”?

那让我们再仔细想想啊,既然这是一个有偏的样本,那么它偏在哪儿呢?为什么会偏呢?理论上来讲,一架飞机飞在空中,它各部分中弹的概率应该大体是均等的,但是呢能够返航的飞机引擎罩上的弹孔却比其余部位少,那么那些失踪的弹孔去哪儿了?——没错,在那些未能返航的飞机上。这说明什么?说明引擎如果中弹将是致命的,很可能被击中就坠落了,回不来了,而机身被打得千疮百孔的情况下仍能返回基地。这充分说明啊机身可以经受得住打击破坏,而引擎不行。

所以呢,即使我们的样本是不合理的,我们还是通过,就是可以利用收集到的不完美的数据通过分析得出正确的决策。其实这种“消失的弹孔”的现象啊,在我们现实生活中无处不在,在统计上我们称其为“幸存者偏差”(survivorship bias)。但并不是所有的人都会像Wald一样熟悉它,所以呢人们经常会凭直觉得到相反的结论。

上面的例子是一个观察性研究(叫做observational study),也就是说我们没有办法控制数据采集的方式,只能去观测结果。换句话说,有些数据啊,不是你想随机就能随机得了的。遇到这种情况,我们在分析的时候就需要想办法去处理这些不完美的数据。

而又有些时候呢,问题不出在没法随机,而出在预算有限,没条件得到很大的样本量。这在工科领域比较常见,尤其是那种做一次实验需要大型设备消耗巨大的人力物力财力的那种。那这种情况我们应该怎么办呢?我们来看下面这个非常浅显的例子啊。


4Boys’ Shoes


假设我们现在想研发一种做运动鞋的高大上的新材料,看看是不是比旧的材料更耐磨损。又假设我们现在的研发成本非常高,只能提供4双样品鞋,所以呀我们找来了8个孩子来试穿,4双新材料4双旧材料。听到这儿,结合之前听媛子唠叨的,第一反应是不是“完了完了完了,这个样本量太小了没法整了”?

但领导要让你整你是不还得硬着头皮去整。那怎么整呢?大家能想到的是不是把孩子分成两组,4个穿新材料的鞋,4个穿旧材料的鞋吧?让他们天天穿,穿俩月,然后回来测量磨损程度。乍一看是不是很OK押,对吧?但仔细想想,毕竟一组只有4个孩子呀。如果磨损程度不一样,你怎么知道真的是新的材料给力,还是分到新材料的那组孩子恰好比较宅比较不爱运动,所以没有那么经常地用鞋呢?也就是说啊“材料”这个因素很可能跟这个“孩子的活跃程度”或者说“活动程度”这个因素分不开了。这就是样本太小所导致的潜在混淆因素,如果样本够大,就基本上不可能这么恰好了。

那么在样本容量无法扩大的前提下,有没有什么办法来消除掉这个混淆因素呢?——仔细想想还是有的——别忘了啊,每个孩子都有两只脚呢!可以分别穿两种材料的鞋!我们可以给每一个孩子选一只脚穿新材料,另一只脚穿旧材料啊,这样呢,每一组新旧材料的对比都是基于同一个孩子的,就不存在他喜不喜欢运动的问题啦。这在统计上叫做“完全随机区组设计”(randomized complete-block design),可以用配对的两样本t检验(paired two-sample t test)的方法进行分析。

到这儿呢,大家看出这个例子和上一个“消失的弹孔”案例之间的区别了没?在这个例子中,我们其实是有办法去设计整个实验,去控制收集数据的方式的,所以它不再是观察性研究,而是实验性研究(experimental study)。

我们遇到这种问题的时候,可以从设计实验的阶段就忙活起来了,在给定的预算条件下,看看怎么样得到的数据不会存在或者尽可能少地存在混淆因素是我们首要考虑的问题。 


总结

聊到这儿呢,到了真正该总结的时候了。我们知道样本越随机、样本量越大,收集到的数据就越靠谱。但是呢,有的时候真的是天不遂人愿啊。

如果我们没法随机,也就是观察性研究,我们只能通过统计分析方法或者逻辑思维来弥补不完美的数据;如果我们还是有办法控制这个数据收集的方式,也就是所谓的实验性研究,我们就可以根据预算制定一套收集数据的方法,来避免混淆因素的干扰,使我们的统计结果更精确、更稳定、更可信。

再借用海鲜用一下:如果食材(也就是我们的数据来源)不咋地,咱又没得选,就得靠厨师的功力(也就是统计或者逻辑分析)来救场啦。如果咱可以自己准备食材,那我们就赶紧奔赴生鲜市场吧~


作者简介

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多