EFGR-TKI靶向药改变了肺癌治疗史,从第一代TKI出现到第三代TKI问世,多项RCT都只观察到PFS获益。今年ESMO大会上,备受瞩目的FLAURA研究公布了最终OS结果,打破了既往TKI单药无法延长OS的魔咒,奥希替尼因此成为迄今为止首个与第一代EGFR-TKI相比具有OS阳性结果的TKI单药,研究结果很快发表在NEJM上。 带着这些问题,医统江湖莫淼统计师于2019-12-10从统计学视角对FLAURA研究进行了深入解读,特此分享。 (内容较长,熟悉本研究的读者可直接跳至“讨论与思考”部分) 复旦大学附属肿瘤医院 肿瘤预防部 副主任 临床统计中心 统计师 研究背景 众所周知,在晚期NSCLC一线治疗领域,IPASS是一项具有里程碑意义的研究。在这项研究之前,几项研究均表明吉非替尼不能在非选择人群中改善晚期NSCLC患者的疗效,而IPASS研究通过事后亚组分析第一次发现,EGFR突变状态是吉非替尼疗效的一个重要预测指标,具有典型的异质性亚组效应,EGFR突变阳性的肺腺癌患者才是TKI治疗的优势人群。 由此,IPASS研究开启了肺癌TKI靶向治疗时代。针对EGFR突变阳性患者,近10年来多项研究先后推出一二三代TKI药物,与传统化疗相比,一代TKI中位PFS提升到9-13m,二代TKI进一步提升到11-15m,FLAURA研究中三代TKI奥希替尼获得史上最长的单药PFS时长,达到18.9m。 研究设计 FLAURA研究是一项多中心、随机、双盲的三期试验,纳入患者允许基线伴有症状稳定的CNS转移患者。所有患者按照1:1随机接受奥希替尼治疗或标准的一代TKI吉非替尼或厄洛替尼治疗,每6周进行评估直至进展。预设2个分层因素,分别是种族(亚裔vs非亚裔)和突变类型(Ex19del vs L858R),主要研究终点是研究者评估的PFS,次要研究终点包括OS、ORR、DoR、DCR、the depth of response以及安全性。一般认为,研究者评估的PFS与第三方独立评估的PFS相比可能更容易出现偏倚,不过在双盲的前提下可有效避免这类偏倚。 本研究统计检验采用序贯多重检验,相当于我们常说的Hierarchical Test,是为了控制研究总体I类错误在0.05以内。但不同的是,本研究预设检验是在主要研究终点与2个关键次要终点之间进行的。第1步进行PFS最终分析;若结果阳性,则进一步对关键次要终点OS进行检验,包括一次期中分析(PFS分析同时进行)和OS成熟度达60%时的最终分析,OS两次分析α基于O’Brien & Fleming消耗规则分别分配0.0015和0.0496;OS若为结果阳性,第3步再看关键亚组的PFS分析,最初设定是治疗前T790M突变亚组,研究过程中更改为更受临床关注的基线伴CNS转移的亚组(如下图所示)。序贯多重检验策略的优点是在同一个研究中解答多个临床问题均保证有足够的统计学效能(Power),且无需拆分α,不影响总样本量。值得注意的是,这类策略中的预设检验次序对于研究结论就显得极为重要和关键。 回顾本研究Protocol,经历了几次重要调整:1. 预设总样本量650例,在达到该数量后,为了满足将来CFDA评审的最低样本量要求,拟继续入组中国大陆患者至120例;2. 随着AURA系列研究结果发布,奥希替尼成为T790M突变患者的标准二线方案,禁止Crossover将有违伦理,因此研究允许对照组在满足以下三个条件时Crossover接受奥希替尼治疗:发生中心评估的PD、非停药后间期治疗、PD后确认存在T790M突变;3. 根据FDA的建议,删去原来针对PFS的interim analysis计划,相应的针对OS的分析减少为2次;4. 根据前期I期研究结果调整treatment effect,预估HR从0.74调至0.71,预期试验组疗效从13.6m提升到14.1m,相应的总样本量要求降至530例,所需事件数降至359例。 一般而言,样本量都是基于主要研究终点来估计的,FDA没有严格规定次要终点的power。本研究基于ITT人群PFS差异估计总样本量530例,考虑到OS作为疗效金标准,研究者希望将来有足够的power同时宣布OS阳性结果,故将次要终点OS与主要终点PFS一起采用固定次序检验来控制整体α,在既定样本量基础上推测当OS成熟度达60%时预期HR=0.75,此时基于α=0.05检验水准将有72%的power检验出OS统计学差异;相应的,假设伴CNS亚组占ITT人群20%,预期HR=0.55,那么对于伴CNS亚组的PFS也将有72%的power检验出统计学差异。 本研究统计分析计划首先是对于PFS的最终分析,将在基于ITT原则的FAS人群中进行,除了研究者评估的PFS,还预设了独立盲评委员会评估的PFS作为敏感性分析,以及10个关键亚组的探索性分析(事件数≥20予以分析)等。 结果解读 奥希替尼组和对照组分别入组了279和277例患者,基线特征分布均衡,其中62%为亚裔,63%属于Ex19del突变,21%的患者伴有CNS转移。至OS最终分析时(2019.6),奥替尼组和对照组分别有22%和5%的患者仍在一线治疗中。 按照预设检验策略,同时进行OS期中分析,此时事件成熟度仅25%。结果显示两组KM曲线存在分开趋势,但OS组间比较P=0.007,按照O’Brien & Fleming法则,尚未达到统计学显著性要求的P<0.0015。 今年ESMO大会公布了OS最终分析结果,两组中位随访时长分别为35.8m和27m,事件成熟度接近60%,组间差异P=0.0462,达到了统计学显著性要求的P<0.0496。基于该结果,奥希替尼成为迄今为止首个与第一代EGFR-TKI相比具有OS阳性结果的TKI单药。 按照预设检验次序,对于OS两次分析,至少有1次阳性结果才能看第3步检验PFS在CNS亚组的结果。实际上,该部分结果在2017年6月时就已报道,不论是否伴有CNS转移,奥希替尼都展示出了非常好的获益,都降低了进展或死亡风险达53%。至此,本研究基于序贯多重检验策略得到主要终点ITT人群PFS与关键次要终点ITT人群OS、CNS亚组人群PFS均达到阳性结果。 从KM曲线图来看,亚裔患者生存曲线在研究组中位随访时长36m以前的阶段里,存在组间差异趋势,且同总体PFS一样从第6周第1次评估开始就明显分开;但在36m后由于交叉导致两条曲线整体差异不明显。而非亚裔患者生存曲线从9m以后明显分开,趋势一直保持。Ex19del突变人群中,KM曲线走势与ITT人群相当;而L858R突变人群中,在随访31m前的阶段里似乎存在组间差异趋势,之后曲线严重交叉导致两条曲线整体差异不明显。 值得注意的是,这些亚组结果均不属于确证性设计,事先并未根据亚组估计足够的样本量,因此在本研究中没有足够的power针对亚组作确证性结论,仅为探索性结果,仍有待进一步研究验证。 PFS差异转化为OS差异的过程中,差异程度会缩小(FLAURA研究HR_PFS=0.46,HR_OS=0.80),其中一个不可忽视的原因,在于二线允许对照组Crossover对一线治疗带来的OS获益造成稀释。本研究对照组31%的患者二线接受了奥希替尼治疗,因而最终达到了第一代TKI治疗历史上最好的中位OS(31.8m)。 本研究试验组比对照组≥3级不良反应更少,体现出奥希替尼具有非常好的安全性。 总结上述结果,FLAURA研究证实了奥希替尼对于EGFR突变阳性晚期NSCLC患者一线治疗可以显著改善OS,延长了6.8m,奥希替尼是与第一代TKI对比首个显示出存在OS获益的单药TKI治疗方式,且同时具有统计学意义和临床意义。奥希替尼组与标准治疗组在3年时分别有28%和9%的患者仍在一线治疗;奥希替尼具有非常好且与其他研究一致的安全性表现,即使暴露时间显著长于对照组,仍具有比对照组更好的安全性。综上,FLAURA研究OS最终分析结果进一步强化了奥希替尼作为EGFR突变阳性晚期NSCLC患者一线治疗中的重要地位。 从设计和结果来看,这是一项非常成功的研究,但同时也给读者带来了更多思考,因此产生了文章开头提到的几个疑问,下面一一进行探讨。 1. FLAURA研究与同样是一线治疗与第一代TKI对比的ARCHER 1050、NEJ009研究检验策略有何异同?对OS结果性质是否影响? 在RCT中涉及多个主要研究目的(或关键次要目的)都需要进行统计检验时,一般应采取策略保证总一类错误α控制在0.05以内,常见的策略包括固定次序检验、α拆分与回收以及Hochberg策略。FLAURA研究所采用的Sequential Multiple testing、ARCHER 1050研究采用的Gate-keeping strategy以及NEJ009研究采用的Hierarchical test策略,原理上是相似的,都属于固定次序检验。 固定次序检验是临床试验中常见的一种策略,通过事先将多个研究假设按照获得阳性结果的可能性进行排序,并逐一按统一的α标准(一般为0.05)进行统计检验,只有当前一次检验存在统计学差异时,才进行后一次假设检验的分析;当前一次检验无统计学差异时,则终止对后续检验的分析。该方法的优点是相比于α拆分,每一次检验的α标准不变,不影响总样本量。但值得注意的是,采用这种方法有赖于对可能阳性结果的假设检验排序有非常好的预判,否则可能无法很好的呈现更多结果。 ARCHER 1050研究比较第二代TKI达克替尼对比第一代TKI吉非替尼的疗效,研究方案统计分析计划中提到采用Gate-keeping strategy:检验次序为主要终点PFS、次要终点ORR(by IRC)、次要终点OS。结果显示,试验组PFS获得显著改善,但ORR无明显差异。由于ORR未达到阳性结果,不应再对OS进行统计检验;但KM曲线显示OS存在获益趋势。 2. 次要终点的亚组结果(不同种族和突变类型)能否作为定论? 关于FLAURA研究OS亚裔结果可信度几何的话题,日前医统江湖大飞哥曾专门撰文讨论过。根据四川大学孙鑫教授团队提出的判断亚组分析可信度的9条标准,无论是亚裔vs非亚裔的亚组结果,还是Ex19del vs 21L858R突变的亚组结果,均只符合其中5条标准。 而其中非常关键的一点在于,同类研究亚组结果没能被重复,反而出现相反的趋势(见下图,一线FLAURA和二线AURA3研究中的PFS、OS),因此不能排除是偶然因素造成的结果。 3. 如何看待延长随访对OS结果的影响? RCT研究通常有多次OS结果报道,比如ARCHER 1050研究在预设的OS最终分析2年后,再次更新报道了延长随访的结果,此时中位随访时长约48m,事件成熟度达63%。两次生存曲线对比可见,事件数和成熟度增加后,中位OS数值变化很小,但HR值与P值明显更小,且KM曲线末尾不再交叉,各时间点Number at risk也增加了。结合两次KM曲线末尾看,主要是由于延长随访后对照组下降更多,研究组下降少但曲线变平滑,使得交叉消失,这应该是HR和P值变小的主要原因。但延长随访的结果依然不能改变的是,依据该研究预设的固定检验次序,OS并未达到统计学阳性结果。类似的,ARCHER 1050研究中亚裔亚组的OS延长随访后也呈现出了与总人群相似的规律。 随着中位随访时间延长,研究拥有更多数据来估计OS将会更准确。根据ARCHER 1050研究延长随访结果的变化规律,FLAURA研究亚组结果在将来更长随访后,组间差异也很可能会比现在更趋于明显。 综合来看3项一线治疗研究,在随访时长不利于研究组且后线第3代TKI治疗比例更高的前提下,FLAURA研究更不利于得到阳性结果;加上基线纳入21%伴CNS转移的患者,理论上预后相对更差。最终FLAURA研究获得了单药TKI治疗史上最长的PFS(18.9m)和OS(38.6m),且具有非常好的安全性,对照组OS由于Crossover也达到了史上最长的31.8m,预示着EGFR突变阳性晚期NSCLC靶向治疗已进入第3代TKI奥希替尼傲视群雄的时代。 4. Crossover对OS结果有何影响,如何控制? 后线Crossover由于会使组间差距拉近,因此必然会对一线治疗的OS获益评估产生影响,那么我们如何去评估或是控制它的影响呢?JAMA Oncology上一项研究汇总了4项肺癌TKI治疗的RCT研究与15项传统化疗的RCT研究,通过比较发现,虽然TKI研究中OS在试验组与对照组间的差异和传统化疗研究中一样没有统计学意义,但TKI研究中试验组和对照组中位生存时间都达到了近30个月,远超传统化疗研究中都不足10个月的中位生存期,间接说明EGFR TKI治疗能够显著延长患者OS。 足够好的药物则不需要统计学方法的矫正,即使后线存在Crossover,依然显示出一线治疗显著的OS获益,FLAURA研究第3代TKI奥希替尼即是这样的例子。 1. RCT研究中若采用了固定次序检验策略,其结果的解读需要遵循相应的原则,才能够控制好总一类错误,减少假阳性,使临床意义与统计学意义达到一致,根据该原则,仅FLAURA研究OS达到了兼具统计学意义和临床意义的显著改善结果; |
|