最近一篇关于男人做家务的鸡汤刷了作者的朋友圈,题目是'男人做家务,死亡率降一半'。说实话,我是哭着点开了这篇文章,最后笑着看完的……为啥? 因为这又是一篇标题党。 这个说法是基于一篇发表于2013年的论文来的。 这篇论文的题目是《家务劳动降低中国男人的全因死亡率和癌症死亡率》[1]。它是一篇关于流行病学调查研究论文,研究持续了九年。 但当我们仔细分析这篇论文,会发现'男人做家务,死亡率降一半'这个结论有些站不住脚。
流行病学调查涵盖的范围和关注的问题非常广泛。基本的议题是,它通过各种调查手段找出人群中和我们“感兴趣”的事情高度关联的“因素”,为进一步研究和制定卫生政策提供依据。 比如这篇论文感兴趣的事情就是全因死亡率和癌症死亡率。如果我们要证明做家务和身体健康状况之间的关系,其实更好的办法是进行临床对照试验。不过这种试验一般要持续很长时间,实际上也不一定可行。比如开篇提到的论文中观察的时间就持续了九年…… 想象一下,如果我们依照临床对照的法子,招募年龄都在六十岁以上志愿者,然后随机将他们分成两组。一组不允许进行重体力劳动,而另外一组每周都要进行重体力劳动,包括修房子、通下水,然后观察他们健康状况的变化,而且这个实验要持续进行九年不能间断……谁家的老人会来呢? 就算老人愿意,子女也不一定愿意啊……图片来源:hangzhou.com.cn 很多情况下我们对致病或者影响健康的因素进行研究时,都会涉及到这种伦理困境。所以在流行病学调查中一般不会采用这种方法,而是退而求其次,通过其它非临床试验的方法——比如从疾病入手的方法和从因素入手的方法——得到结论。 从疾病入手,我们会使用“病例对照研究”,病例对照研究就是先找到一堆得病的人,然后再找到一些没得病的对照,然后比一比他们有哪些因素有差别;而从因素入手则是“队列研究”。就像本次研究一样,先找到一大堆人,然后根据某种因素把他们分组,然后观察这些组的人在某些疾病指标上是不是有差别。队列研究更可靠一些。
这篇论文采用的就是队列研究的方法。 下面讲讲这篇论文的两个问题。首先是混淆了相关和因果这两个不同的概念。 流行病学调查一般只能找到相关因素和我们感兴趣的事情之间的“相关性”。但是问题来了:有相关性的事物,不能断定其中有因果性。 “相关性”不等于“因果性”的例子很多。比如尽管公鸡打鸣和太阳升起这两件事情确实是相互关联的,但如果我说是公鸡打鸣把太阳叫起来的,你一定认为我该吃药了……. 而在现实生活中,面对更复杂的问题时,很多人很容易就会误把相关性当作因果性。比如把转基因农业种植面积的增长和癌症发病率的增长两件事情看成是有因果的等等。
A和B两件事情看起来有“相关性”的原因很多,也许它们是一个共同原因所导致的结果;也许是A协同其它因素导致了B;也许A确实是B的原因,但还可能B是A的原因;也许这种相关性完全是虚假相关,当数据更换了或者数据多了,这种相关性的强度就改变甚至消失了。 流行病学调查一般都只能是观察到相关性。其实原文在结论部分也明确讲到了这一点:“我们发现重家务劳动和降低死亡率在老年男性人群中是相关的,在女性人群中没有观察到这种相关性。这种相关性的内在机制需要进一步研究。” 所以说,男人做家务和死亡率之间是否有因果性目前还不清楚,还需要继续进行机制方面的研究。 进一步来说,由于流行病学调查中另一个问题的存在,它的结果连它所观察到的都要谨慎对待。这个问题是什么呢?抽样。 抽样是抽取总体中的部分单元进行研究,从而对总体进行推断的方法。为什么要这么麻烦地进行抽样呢? 因为我们没钱没精力没能力对那么大的总体进行研究啊…… 抽样的方法因为问题需求的不同而有所不同,包括随机抽样、分层抽样、方便抽样等等。比如我要研究艾滋病人的生活和医疗状况,简单的随机抽样就不合适,因为很可能抽不到艾滋病人样本。解决的方法是先调查一名艾滋病人,然后请他提供更多的艾滋病人样本,这叫滚雪球抽样。 而在这篇论文中则是通过研究香港4000名老年人的情况,希望推断全体中国老年人的情况。这里“全体中国老年人”就是总体,而“4000名香港居民”就是抽取的样本。 这里就存在了问题:所抽取的香港老年人是否足够推断全体中国老年的情况?显然不一定。 如果只用某一个地区的样本来推测总体,那么根据这个抽样推测出的结果可能有一些偏差。图片来源:pushnpull.me |
|