匹配还是不匹配？这真是个值得考虑的问题！

Izzie_Qiu 2016-04-22

展开全文

很多朋友做数据分析，通常是post hoc那种：数据资料（横断面资料、历史病例资料，等等）已经在眼前了，选择什么样的统计方法呢？

特别是，有病例，也可以选出对照。你会选择何种统计方法呢？

——小编是不是在诱导大家选择case-control呀？哈哈哈！

——当然，小编更倾向于将case-control当成一种研究方法，而不是一种统计方法，看不懂这句话的暂时请忽略，日后再详谈。

很多朋友会想到或问到：

我们做回归不可以吗？多重回归不是一样可以校正混杂，校正协变量的影响码？还有分组分析，or分层分析，不也可以控制混杂吗？混杂偏倚的三种常见校正方法
做case-control，做1:1，1:2匹配，那些找不到匹配对象的，还有多出来的，岂不是浪费数据资源了？岂不是造成选择偏倚了？
另外，倾向值评分匹配不是也叫匹配吗？那是个什么鬼？这种匹配比case-control的匹配优胜在哪里？

今天，我们就来谈一下，到底——匹配还是不匹配？！

先放一炮答案吧：

RCT中，不做匹配也就算了。因为，随机下，无混杂！（也同时满足一个叫做“可忽略性”的条件，后面解释。）[国庆特辑]随机化意义的流行病学阐释
非随机资料，能匹则匹，能配则配！因为，这是一个哲学问题！

下面详解，为何要匹配！

小编刚好知道某个课题在running，给大家paraphrase一下（改头换面了已经，捂脸）：

研究目的：我们要比较青霉素和万古霉素的抗菌效果！

研究方法：但是我们没有作RCT，我们用病例资料！

结果发现：用青霉素的最后都痊愈啦！

结果还发现：用万古霉素的，最后全都挂掉啦！死因很一致：耐药菌感染，我擦！

研究结论：青霉素抗菌效果杠杠滴！万古霉素没用嗒！

就酱~！再次捂脸~！不要问我捂脸原因，懒得搭理你~！

正经一点：问题出在哪里了？

组间没有可比性！用青霉素的，自然都是小病小灾，感冒发烧之类。而上万古的，基本上全是耐药菌感染患者，而这些患者，（感染菌）早已对青霉素耐药了。

那么，我们试想一下，

如果给用青霉素的患者上万古霉素，会如何呢？

答案，。。。当然是吊销医师执照！

那么给用万古霉素的患者上青霉素，会如何呢？

答案，。。。患者家属签字了吗？没签字一样丢执照哦！

这就是我们业内人所说的，potential outcome（潜在结果）问题。或者叫做counterfactual framework（反事实框架）问题。

强调一下定义：潜在结果，即干预分配互换时可能发生的结果。例，干预组（本身体现干预组的效果），如果被分配到了对照组，那么它在对照组可能的结果，即“潜在结果”。这是在前提假设下的一种探讨，“潜在”的嘛。反事实框架也是这样，干预组已经分派给干预组了，那么如果它分配给了实验组，又会如何？这种假设与实施相悖了，所以叫做反事实。

以案例来说，我们所期望比较的，是用了青霉素的患者，如果用了万古霉素会如何？（这批患者的，青霉素VS万古，效果比较。）

以及，用了万古霉素的患者，如果用了青霉素会如何？（这批患者的，青霉素VS万古，效果比较。）。

但很明显，这个例子中，我们不可能重现这种“如果”了。推而广之，实际上，我们在任何研究中，都没有办法呈现“如果”。因为要么选了其中一种，就不可能同时有另一种。真实世界中不存在那个平行世界！

那无法呈现“如果”之下的这种潜在的结果，这个问题就无解咯？

也不是的。我们选择对照组，实际上就是模拟这种潜在的结果。

用对照组的结果，模拟实验组的潜在结果。
用实验组的结果，模拟对照组的潜在结果。

真的就可以模拟“潜在结果”吗？

我们说，要满足特定的条件！其中一个，非常重要的，叫做“可忽略性”！大概也就是我们所说的可比性？可比性是个什么鬼，不懂耶。

什么是可忽略性呢？

（可忽略的干预分配假定，ignorable treatment assignment assumption）

鉴于小号很多读者不喜欢公式，我还是paraphrase一下吧。

就是，干预分配，与潜在结果无关。一个患者，被分配到实验组还是对照组，应该与潜在结果没关系。——这样大概还是比较难理解。

举个栗子：上例中，分配青霉素还是万古霉素，与潜在结果有明显的关系。分配方式互换——丢执照！我们换不了！所以，上例是不满足可忽略性的，因此，这个研究基本上得不出任何有意义的结论。

那如何满足可忽略性呢？

RCT咯，加一个随机化过程，自然而然，就保证了分组与潜在结果无关（跟随机化切断混杂一个道理，随机化，天生就是一把利剑！）。所以，这也是我们前面结论中，为何RCT通常不需要做匹配的原因。

RCT中，可以通过加随机化，实现可忽略性。那观察性研究中呢？类试验中呢？我们可以想办法保证可忽略性吗？

——当然可以！就是我们的匹配大法！

跟小编一起念：匹~配~大~法~好~！

匹配（matching），就是找出非常相似的个体，各方面都要非常相似的个体，进行配对。为何呢？我们前面提过，我们的实验组和对照组，是要相互之间模拟潜在结果的。如果实验组是一个胖子，对照组是一个瘦子，瘦子又如何能模拟胖子的潜在结果呢？

所以，必须匹配！严格将胖子与胖子的结果比较，瘦子与瘦子的结果比较，才能真正体现出我们干预效果的差异（当然，有时候不是干预，仅仅是某些类型的分组了）。如此，也可以满足我们所说的，可忽略性——分组与潜在结果无关：两个胖子匹配，无论怎么分组，都是“胖子的实验组结果 VS 胖子的对照组结果”。如果胖子和瘦子相匹配，那~是不是乱了呀？

这种匹配，也是程序上的公正~！

虽然，我们多重回归也可以（在某些程度上）校正混杂，但却失去了程序上的公正~！

——你没有人为地搭建一个“potential outcome”（潜在结果）框架出来，没有人为地搭建一个“counterfactual framework”（反事实框架）出来。而在框架缺失的前提下，直接使用了框架的产出——比较了实验组与对照组的差异。

这显然是不合理的！

另外，从实用角度，增加论文结论在因果推断方面的分量；让统计方法更花哨；堵住审稿人的嘴……

以上，希望可以解答“为什么不用回归”和“为什么要做匹配”的问题。

下面我们谈一下我们用case-control方法做匹配时遇到的一些问题如何解决。

1:1，1:2匹配，浪费样本量的问题。
匹配变量太多造成的过匹配和sparsity问题。

解决方案，就是——不用case-control！哈哈哈哈！

我们有PSM啊，可以用propensity score做matching呀~！

PSM是个什么鬼？

匹配党~的先驱们（Donald Rubin：反事实框架的奠基人；Paul Rosenbaum：倾向性评分的奠基人），当然也就是匹配的铁杆粉丝们啦！他们发现个问题，旧的匹配方式呀，需要匹配的因素太多（年龄性别体重，等等等，you name it），匹配着~匹配着~，每个配对组就很少人哦，甚至找不到配对的人。。。最后统计量的计算好难实现！

于是乎，他们想了一个大招！降维~！将众多的匹配因素，合并成一个变量！根据这个变量~倾向性评分~来对研究对象进行匹配！

推导证明，这个倾向性评分（一个变量指标）可以完美替代众多的需要匹配的因素（多个变量指标）。~实际上并没有那么完美，but，who cares，大家认可就行了呗。

根据倾向性评分，将研究对象分成几组，十几组，几十组，互相具有类似评分的组别。即，每一组都很相似。