风险比HR或生存曲线（time-to-event）数据提取行meta分析资源汇总

嘿实验室 2018-03-09

展开全文

周五和胡兄深入讨论一晚，许诺整理思路发帖回应。这两天加班，没有及时回复。请兄见谅！

今晚从新看了一遍兄的观点、文章和我们讨论的内容。我觉得：

首先，clinical test和我们最常看到的治疗型文章还是有显著差异的。

表现在：①clinical test中指所指的危险因素是受试者固有的特点，比如例文 “低25-Hydroxyvitamin D与2型糖尿病的关系”、“纤维蛋白原、C反应蛋白、白蛋白、白细胞计数和冠心病的关系” 两文中，25-Hydroxyvitamin D、纤维蛋白原、C反应蛋白、白蛋白、白细胞计数就是受试者固有的一个特点；②治疗型文章，受试因素则是外界强加的。例如不同手术方式、不同化疗方式、不同药物等等，该分组大部分很简单，就是一个分类变量获等级变量的问题。

为什么强调这一点呢？因为，clinical test文章中，存在不同文章cut-off不一致的问题，这是困扰们得一大难题。毕竟经典的meta分析是pair—wise comparation，也就是成对比较的。如果文章按不同的cut-off标准将受试者分成两组或者多组，问题就比较复杂了。
具体来说：①对于不同cut-off分成多组的研究，handbook中16.5 Studies with more than two intervention groups曾明确提出解决办法【我在前面一个帖子提过了，只是介绍的很简单，有兴趣的战友可以详细参考一下手册】。按照handbook的做法，应该是将特点相似的多组数据合并一组数据。可是对于生存资料的meta分析，显然是不可行的。因为生存资料提取的数据和治疗性文章提取的数据，明显不同。所以没法用手册中的方法合并。②对于不同cut-off分成两组的研究，忽视异质性，盲目将其合并是非常不科学的。

胡兄提到的问题，显然是clinical test中，按cut-off不同，分成多组的情况，也就是最复杂的一种情况。

假如一个研究分了四组，从低到高依次为A,B,C,D，其中A为参照，**的观点是：

1、分组标准很难把握，因为分组没有统一的国际标准。
这是一个研究在实施过程中，实实在在的一个困难。不同作者的不同做法，就导致了，我们在进行二次数据加工中的问题——不同分组依据分成两组或者多组。
2、 针对这个问题，胡兄提供的两篇文章使用了一个很特别的做法——只提取top组和对照组的比较结果。

我认为这样做优缺点各半。

优点是：
① 我们研究的目的是为了说明，低25-Hydroxyvitamin D等危险因素是否真的与目的时间有关。如果说25-Hydroxyvitamin D最低组确实有阳性表现。这至少说明，25-Hydroxyvitamin D在显著降低的时候，是容易引起2型糖尿病的。所以，他的临床意义还是很大的。所以，这种方法有他的道理，应该说也是可行的。
② 没有把一个研究分成多个研究进行合并，这样做避免了对照组数据重复使用，使得其在结果中比重增加的一个恶果。

但是，我们必须认识到这样做的缺点：
① 排除了一部分中间患者，可能引起偏倚；
② 对不同的cut-off没有回应，胡兄提供的文章就存在这个问题【至少Clinical Chemistry这篇文章没有回应】。
③ 就是胡兄提到的两篇文章的通病了，统计相比来说做的比较简单，只有一个总的合并结果，没有敏感性分析，也没有亚组分析，文章看起来比较单薄。

所以，仔细考虑之后，我觉得，如果必须使用这种方法的话，必须在讨论本次研究的缺陷的时候，说明前两个问题。这样做会更严谨一点。对于第三个问题，最好再加一部分按不同cut-off做的亚组分析【其实这一点，还是可以做的】，或按其他临床异质性进行的亚组分析。来说明这些因素会不起引起不稳定，这样做能使得文章显得更严谨一点、丰满一点。【或者用回归分析，都可以，看习惯了】

我的这个回帖重点回应的是，胡兄碰到的情况。至于胡兄提到的，干预性研究中，干预措施不尽相同的问题，我下个帖子再回吧，今天太晚了！

@黑暗传说
@sunpingbenedict@ahzzr3711
非常赞同你“优缺各半”的说法！
昨晚夜班，仔细阅读了你发给我的资料，顺便再谈谈自己的看法。
对于time-to-event的meta分析，方法学上目前确实还不成熟，你给我的那个资料上也是这样说的，作者只是谈了一些自己的看法，并不是强烈推荐。
我们讨论的核心问题还是“怎么提取HR的问题”，我的理解是：
time-to-event的研究主要分为两类：其中一类研究的本质是RCT（有的可能也是非RCT），总之属于干预性研究。以RCT为例，这类研究的合并可能相对简单些，因为通常而言，实验组就是比对照组多了一个intervention，其它的混杂因素都通过随机和盲法的方式消除了。因此，两条生存曲线之间的差异完全可以用intervention来解释！不存在校正HR一说。在提取数据的时候，直接用原文的HR就是了。因为我对RCT了解不多，不知道我的理解是否正确。
还有一类time-to-event的研究，也就是我关注的这类研究，本质是队列研究，属于观察性研究。其最大的特点是：出了研究的基线特征（为了方面说明，我这里统一用“指标”）外，实验组和对照组之间还存在其它混杂因素，这些混杂因素多与我们要研究的“指标”之间存在一种共线性！因此，在得出之前需要进行统计学处理，去校正潜在的混杂因素，最常用的处理方法就是Cox模型！举例说明：在研究基线胆固醇是否是冠心病的危险因子的过程中，考虑到甘油三酯、CRP、纤维蛋白原，HDL等与胆固醇浓度本身有一定关系，因此如果以胆固醇浓度作为分组依据，势必会造成各组受试对象（队列人群）在甘油三酯、CRP、纤维蛋白原，HDL等指标方面存在差异（相比之下，RCT就不存在这个问题了）。对于这项研究，在汇至完生存曲线以后，作者就会考虑：造成不同浓度的胆固醇患者冠心病发病风险上的差异到底是胆固醇造成的呢？还是其它因素，比如甘油三酯、CRP、纤维蛋白原，HDL造成的呢？因此，就需要进行统计学处理。然而，值得注意的是：不管是多么高明的试验设计，肯定不可能将所有的混杂因素都考虑进来，因此队列研究的结论有时也可能不是很可靠！在证据分级中，RCT的证据等级高于队列研究，我认为主要原因就在这里！还有一个问题，通过统计学的方式对混杂因素进行校正的时候，需要对一些属性为连续变量的混杂因素（比如CRP）进行分组。问题就出来了，将连续变量转变为分类变量或者等级变量进行统计学处理，本身就会极大地降低统计学效率，因此：不管怎么进行统计学处理，这类研究的结果都是不太可靠的。从这个角度上讲，我认为：在队列研究中，受混杂因素的干扰以及其在统计学上存在缺陷，HR值的大小并不能反映指标与event之间的关联强度！而在RCT中，HR是可以反映intervention与event关联强度的大小的，因为混杂因素多被排除了！
现在我们再返回另外一个问题：HR的临床意义是什么？HR表示实验组发生event的风险是对照组的多少倍。在RCT中，这个HR是有临床价值的，因为它很直观地告诉了临床医生，这个intervention的价值到底有多大，这一结论直接关系到这个intervention能否直接被推荐使用！但是在队列研究中，临床医生可能就不关心这个HR值了，因为这个HR值没有任何治疗上的暗示，证据等级很低，仅仅是一个统计学游戏而已。队列研究的价值在于发现与疾病发生或者发展相关的因素，为下一步开展针对该因素的RCT提供理论依据！从这个角度上讲，临床医生只关心二者是否有关联，而不会关心一个具体的HR值。同样在做此类研究meta分析的时候，我认为：合并的HR的具体值并没有多大的意思，之所以进行合并，是为了明确：以目前的认知水平，是否可以确定指标与event之间存在关联！是否值得进一步去开展相应的RCT。我阅读了一些队列研究的文献，在讨论部分，作者几乎不拿具体的HR值说事，也不会比较不同指标之间的HR。换句话说：对于HR=3的指标，作者在讨论部分几乎不说：实验组发生event的概率是对照组的3倍这样的话，这从一个侧面说明其实队列研究中的HR的具体值没有多大价值。
再谈另外一个问题：队列研究为什么要分那么多组？我认为这是一个统计学效率问题。比如：在基础研究中，为什么高水平的杂志往往要求作者做时间依赖性和剂量依赖性的研究？主要是强化实验结论！举个例子：据我所知，血糖与ICU病人的全因死亡率存在关联，但是他们的关联关系比较特殊，是一个U字型的关系。血糖水平太高或者太低都是ICU病人死亡的危险因子(Crit Care. 2011; 15(4): R173.)。对于这类研究如果我们仅仅分两组的话，很有可能得出HR无统计学意义的结论。所以作者把病人分为多组进行分析。这些分组没有统一的规定，但是有具体的原则，我所知道的原则是：一定要充分考虑每组的人数，分组太细，每组人数太少，统计效率不高；分组太少，有些效应无法观察到。其实还要考虑指标的变异，分组太细，很多时候无法解释结论，比如总不能说血糖每增加0.1mmol/L，患者的死亡风险增加多少吧－－－－－血糖的检测误差和生物变异远大于0.01mmol/L。
讨论最后一个问题，关于HR的合并：我认为这种top vs bottom的策略虽然不够严谨，但是绝对是可取的！对于一个具体的研究，如果指标与event之间的关系不是U字型或者波浪形（这种例子极少）的话，只要top vs bottom，我认为就可以得出结论，指标与event之间有独立的关联关系！也只有这个HR才没有从性质上改变论文的最终结论（阳性还是阴性）！这种方法的优点你都说了，我很赞同，关于三个缺陷，我的看法如下：
① 排除了一部分中间患者，可能引起偏倚；
我觉得这个问题不是很严重，我还是坚持认为队列研究中HR的具体值没有多大价值！－－－这一点我保留意见。
② 对不同的cut-off没有回应，胡兄提供的文章就存在这个问题【至少Clinical Chemistry这篇文章没有回应】。
这个问题确实无法解决，诊断性试验的meta分析中也存在这个问题。我认为一点就是meta分析不可能尽善尽美。但是我个人认为，这个cut-off的临床意义也不是很大。如果要寻求合适的干预界点（cut-off），队列研究的结果可能不太可信，RCT是比较靠谱的。就算队列研究有一个统一的界点，也并不代表RCT必须以该界点为治疗目标。还需要充分考虑cost-effective和adverse event的问题。关于cut-off的临床价值，我保留意见。
③ 就是胡兄提到的两篇文章的通病了，统计相比来说做的比较简单，只有一个总的合并结果，没有敏感性分析，也没有亚组分析，文章看起来比较单薄。
敏感性分析和亚组分析可以加进去，增强说服力。估计是因为CC上的这篇论文不是专门的meta，就懒得做这个了。
总之，我还是认为：队列研究的目的旨在发现event的危险因子，为下一步开展干预该危险因子的RCT提供理论依据。因此，不论是单个研究，还是meta分析，具体的HR值以及cut-off意义不是很大，开展此类meta分析最主要的问题是回答：到底有没有关联！毕竟，任何源自于观察性研究的结论只有在干预性的研究中得到印证和升华（提升了证据等级），才能最终使患者受益。