分享

统计学的套路有多深,从“HPV疫苗降低生育率” 的研究错误说起

 医学院的石头 2018-09-22

6月13日,《Journal ofToxicology and Environmental Health》杂志上发表了一篇名为《A lowered probability of pregnancy infemales in the USA aged 25-29 who received a human papillomavirus vaccineinjection》的文章,宣称注射HPV疫苗会降低女性的生育率,刚发表出来就开始在网上传播,很多抱着西瓜吹空调的女同胞们以及女同胞的男同胞们纷纷丢下手中的瓜,焦躁地脑补出患宫颈癌与怀宝宝这种生死抉择的情感大戏。

下图就是民间流传的翻译文本,来感受下这种描红划重点的紧张。

摘要:美国的出生率下降了,每千名25-29岁女性的出生率从2007年的118下降到到2015年的105。一个因素可能涉及针对HPV疫苗接种。疫苗获得许可后不久,出现了几次遭受原发性卵巢癌衰竭的接种者报告。本研究分析了2007年至2014年期间居住在美国的800万25至29岁女性的全国健康和营养检查调查中收集的信息。未接受HPV疫苗女性中约60%至少怀孕过一次,而接种过HPV疫苗的妇女中只有35%怀孕了。使用逻辑回归分析数据,接受HPV疫苗女性与未接受疫苗的女性相比怀孕的概率进行了估计。结果表明,接受HPV注射女性比没有接受注射的同年龄段女性更少有可能怀孕。这项研究中如果100%的女性接受过HPV疫苗,数据显示曾经怀孕的女性人数会下降200万。因此需要进一步研究HPV对生育能力的影响。


但很快就有人从生物医学的专业角度指出了该研究的种种缺陷,告诉大家不要惊慌,这个研究是本着给平淡生活增加刺激的心态来给大家卖萌的…嗯,卖,卖萌的…



这篇论文的bug在哪呢?分析如下。


这些都证明了该研究结果为谬论,暂不提作者本人背景以及与疫苗问题的八卦花边,针对这篇文献本身而言,在研究思路上错误的本质是统计学中的因果谬论,即惯性思维导致的错误的因果关联。


作者分析的数据来自“国家健康与营养检查调查”,分析过程与分析结果也很可靠,但只能说明注射HPV疫苗和生殖率的降低有相关性,而不能直接归于因果关联。美国的生育率从2006年左右就开始缓慢下降,与之相关联的事情太多了,按照该研究的脑回路,我们可以发散开来:比如气候变暖降低女性生育率;苹果教父乔布斯的逝世降低女性生育率;玩手机降低女性生育率啊等等。


惯性思维导致错误的因果关联,是任何研究中都极易犯的错误——如果A与B同时出现,则A导致B。然而事实是:A与B可能并不互为因果关系,而同为第三个因素C的产物;或者A和C共同作用导致B,或者B和C共同作用导致A。


举一波例子:


1.    统计资料表明:汽车事故大多数发生在中等速度的行驶中,很少有事故发生在150公里/小时以上的驾驶速度。这是不是说高速行驶比较安全?



答案:否,因为大部分人是以中等速度开车,所以事故多发生在中等速度的行驶中。


2.统计数字表明亚利桑那州死于肺结核的人比其他地区的人多。能不能说该州的气候容易诱发肺病?



答案:否,事实与此相反,由于亚利桑那的气候有利于肺病康复,所以患者都来这里居住生活,自然这就使死于肺结核的人增多了。


3.调查研究说脚大的孩子智商比脚小的孩子高。这是否可以说一个人脚的大小是他智力水平的衡量?



答案:否,研究对象是一群年龄不等的孩子。实际上是因为年龄大的孩子脚更大些,所以他们的平均智商当然比年龄小的高一些。


4.研究表明在离家不远的地方容易发生汽车事故,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?


答案:否,因为人们往往是在离家不远的公路上开车,而很少开车去太远的地方。


5.某城市的统计结果表明,平均每个家庭有1.5个小孩。请问能否找到有1.5个小孩的家庭?


答案:

答案:否,这里的平均数是小孩总数除以家庭数量计算得到的理论值。现实中不可能存在满足这种平均数的家庭。人们很容易认为平均数的实际例子必然存在,其实不然!



任何领域的统计学研究,一定要抓住该“因”“果”是怎么联系、怎么推断的,否则就是在用精湛的统计学知识做“假研究”。


这个统计学陷阱很多人就算知道也还是会不可避免地犯,甚至觉得没毛病。统计学中类似的陷阱还有很多,下面我们就开始怼一个看起来非常没毛病的研究。


大家都听过“当年的高考状元现在过得怎么样了?”、“高考状元跟踪调查,现状如何?”之类的新闻报导。



这类调查的结果一般都是高考状元没有一位成为行业领袖,或者成为顶尖人士的人很少…



因此得出结论,高考状元只是一时赢得考试,成材率并不高……我问你,你觉得这个调查研究没毛病吗?


高考状元人数一共就是3000多,可是中国人口数量有13亿多。按照这个比例来算,130万之中,才有不到3个状元。而成为一个像马云这样的行业精英人士的概率又有多高呢?这两件事情同时发生的概率更是小概率事件中的小概率事件,因为这两件事不同时发生的可能性极大,而将其不同时发生的强关联性作为论证用来支撑“状元成材率低”这个命题,本身就是在用统计学耍流氓。看到这里,是不是有种毁三观的感觉。



所以我们可以得出一个结论:看书有毒!上学有毒!统计学有毒!做研究有毒!博大精深的统计学套路满满,稍有不慎就掉坑里了。不说了,老板喊我回去搬砖呢。



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多