分享

再读FLAURA研究:从统计学视角解读OS更新结果

 三毛99 2019-12-19
导读

        EFGR-TKI靶向药改变了肺癌治疗史,从第一代TKI出现到第三代TKI问世,多项RCT都只观察到PFS获益。今年ESMO大会上,备受瞩目的FLAURA研究公布了最终OS结果,打破了既往TKI单药无法延长OS的魔咒,奥希替尼因此成为迄今为止首个与第一代EGFR-TKI相比具有OS阳性结果的TKI单药,研究结果很快发表在NEJM上。

针对该研究,最近医统收到一些读者提问:
FLAURA研究与同样是一线治疗对比第一代TKI的ARCHER 1050、NEJ009研究检验策略有何异同?对OS结果性质是否影响?次要终点的亚组结果(不同种族和突变类型)能否作为定论?如何看待延长随访对OS结果的影响?Crossover对OS结果有何影响,如何控制?

带着这些问题,医统江湖莫淼统计师于2019-12-10从统计学视角对FLAURA研究进行了深入解读,特此分享。

(内容较长,熟悉本研究的读者可直接跳至“讨论与思考”部分)

莫  淼

复旦大学附属肿瘤医院

肿瘤预防部 副主任

临床统计中心 统计师

FLAURA研究——奥希替尼对比标准TKI用于一线治疗EGFR突变阳性晚期NSCLC患者

研究背景

众所周知,在晚期NSCLC一线治疗领域,IPASS是一项具有里程碑意义的研究。在这项研究之前,几项研究均表明吉非替尼不能在非选择人群中改善晚期NSCLC患者的疗效,而IPASS研究通过事后亚组分析第一次发现,EGFR突变状态是吉非替尼疗效的一个重要预测指标,具有典型的异质性亚组效应,EGFR突变阳性的肺腺癌患者才是TKI治疗的优势人群。

由此,IPASS研究开启了肺癌TKI靶向治疗时代。针对EGFR突变阳性患者,近10年来多项研究先后推出一二三代TKI药物,与传统化疗相比,一代TKI中位PFS提升到9-13m,二代TKI进一步提升到11-15m,FLAURA研究中三代TKI奥希替尼获得史上最长的单药PFS时长,达到18.9m。

研究设计

FLAURA研究是一项多中心、随机、双盲的三期试验,纳入患者允许基线伴有症状稳定的CNS转移患者。所有患者按照1:1随机接受奥希替尼治疗或标准的一代TKI吉非替尼或厄洛替尼治疗,每6周进行评估直至进展。预设2个分层因素,分别是种族(亚裔vs非亚裔)和突变类型(Ex19del vs L858R),主要研究终点是研究者评估的PFS,次要研究终点包括OS、ORR、DoR、DCR、the depth of response以及安全性。一般认为,研究者评估的PFS与第三方独立评估的PFS相比可能更容易出现偏倚,不过在双盲的前提下可有效避免这类偏倚。

本研究统计检验采用序贯多重检验,相当于我们常说的Hierarchical Test,是为了控制研究总体I类错误在0.05以内。但不同的是,本研究预设检验是在主要研究终点与2个关键次要终点之间进行的。第1步进行PFS最终分析;若结果阳性,则进一步对关键次要终点OS进行检验,包括一次期中分析(PFS分析同时进行)和OS成熟度达60%时的最终分析,OS两次分析α基于O’Brien & Fleming消耗规则分别分配0.0015和0.0496;OS若为结果阳性,第3步再看关键亚组的PFS分析,最初设定是治疗前T790M突变亚组,研究过程中更改为更受临床关注的基线伴CNS转移的亚组(如下图所示)。序贯多重检验策略的优点是在同一个研究中解答多个临床问题均保证有足够的统计学效能(Power),且无需拆分α,不影响总样本量。值得注意的是,这类策略中的预设检验次序对于研究结论就显得极为重要和关键。

回顾本研究Protocol,经历了几次重要调整:1. 预设总样本量650例,在达到该数量后,为了满足将来CFDA评审的最低样本量要求,拟继续入组中国大陆患者至120例;2. 随着AURA系列研究结果发布,奥希替尼成为T790M突变患者的标准二线方案,禁止Crossover将有违伦理,因此研究允许对照组在满足以下三个条件时Crossover接受奥希替尼治疗:发生中心评估的PD、非停药后间期治疗、PD后确认存在T790M突变;3. 根据FDA的建议,删去原来针对PFS的interim analysis计划,相应的针对OS的分析减少为2次;4. 根据前期I期研究结果调整treatment effect,预估HR从0.74调至0.71,预期试验组疗效从13.6m提升到14.1m,相应的总样本量要求降至530例,所需事件数降至359例。

一般而言,样本量都是基于主要研究终点来估计的,FDA没有严格规定次要终点的power。本研究基于ITT人群PFS差异估计总样本量530例,考虑到OS作为疗效金标准,研究者希望将来有足够的power同时宣布OS阳性结果,故将次要终点OS与主要终点PFS一起采用固定次序检验来控制整体α在既定样本量基础上推测当OS成熟度达60%时预期HR=0.75,此时基于α=0.05检验水准将有72%的power检验出OS统计学差异;相应的,假设伴CNS亚组占ITT人群20%,预期HR=0.55,那么对于伴CNS亚组的PFS也将有72%的power检验出统计学差异。

本研究统计分析计划首先是对于PFS的最终分析,将在基于ITT原则的FAS人群中进行,除了研究者评估的PFS,还预设了独立盲评委员会评估的PFS作为敏感性分析,以及10个关键亚组的探索性分析(事件数≥20予以分析)等。

结果解读

奥希替尼组和对照组分别入组了279和277例患者,基线特征分布均衡,其中62%为亚裔,63%属于Ex19del突变,21%的患者伴有CNS转移。至OS最终分析时(2019.6),奥替尼组和对照组分别有22%和5%的患者仍在一线治疗中。

截止2017年6月初次分析(DFS成熟度62%),结果显示奥希替尼显著降低了患者进展或死亡风险54%,中位PFS从10.2m延长至18.9m,且KM曲线从第6周第1次评估开始就明显分开。亚组分析结果显示所有亚组中奥希替尼均显著优于对照组。

按照预设检验策略,同时进行OS期中分析,此时事件成熟度仅25%。结果显示两组KM曲线存在分开趋势,但OS组间比较P=0.007,按照O’Brien & Fleming法则,尚未达到统计学显著性要求的P<0.0015。

今年ESMO大会公布了OS最终分析结果,两组中位随访时长分别为35.8m和27m,事件成熟度接近60%,组间差异P=0.0462,达到了统计学显著性要求的P<0.0496。基于该结果,奥希替尼成为迄今为止首个与第一代EGFR-TKI相比具有OS阳性结果的TKI单药。


按照预设检验次序,对于OS两次分析,至少有1次阳性结果才能看第3步检验PFS在CNS亚组的结果。实际上,该部分结果在2017年6月时就已报道,不论是否伴有CNS转移,奥希替尼都展示出了非常好的获益,都降低了进展或死亡风险达53%。至此,本研究基于序贯多重检验策略得到主要终点ITT人群PFS与关键次要终点ITT人群OS、CNS亚组人群PFS均达到阳性结果。

ITT人群OS达到阳性结果后,人们进一步关注其在不同亚组中的探索性结果,尤其是在预设的种族和突变类型不同亚组中的表现。从森林图来看,亚裔亚组与L858R亚组似乎没能看到奥希替尼的显著获益。

从KM曲线图来看,亚裔患者生存曲线在研究组中位随访时长36m以前的阶段里,存在组间差异趋势,且同总体PFS一样从第6周第1次评估开始就明显分开;但在36m后由于交叉导致两条曲线整体差异不明显。而非亚裔患者生存曲线从9m以后明显分开,趋势一直保持。Ex19del突变人群中,KM曲线走势与ITT人群相当;而L858R突变人群中,在随访31m前的阶段里似乎存在组间差异趋势,之后曲线严重交叉导致两条曲线整体差异不明显。

值得注意的是,这些亚组结果均不属于确证性设计,事先并未根据亚组估计足够的样本量,因此在本研究中没有足够的power针对亚组作确证性结论,仅为探索性结果,仍有待进一步研究验证。

PFS差异转化为OS差异的过程中,差异程度会缩小(FLAURA研究HR_PFS=0.46,HR_OS=0.80),其中一个不可忽视的原因,在于二线允许对照组Crossover对一线治疗带来的OS获益造成稀释。本研究对照组31%的患者二线接受了奥希替尼治疗,因而最终达到了第一代TKI治疗历史上最好的中位OS(31.8m)。

本研究试验组比对照组≥3级不良反应更少,体现出奥希替尼具有非常好的安全性。

总结上述结果,FLAURA研究证实了奥希替尼对于EGFR突变阳性晚期NSCLC患者一线治疗可以显著改善OS,延长了6.8m,奥希替尼是与第一代TKI对比首个显示出存在OS获益的单药TKI治疗方式,且同时具有统计学意义和临床意义。奥希替尼组与标准治疗组在3年时分别有28%和9%的患者仍在一线治疗;奥希替尼具有非常好且与其他研究一致的安全性表现,即使暴露时间显著长于对照组,仍具有比对照组更好的安全性。综上,FLAURA研究OS最终分析结果进一步强化了奥希替尼作为EGFR突变阳性晚期NSCLC患者一线治疗中的重要地位。

讨论与思考

从设计和结果来看,这是一项非常成功的研究,但同时也给读者带来了更多思考,因此产生了文章开头提到的几个疑问,下面一一进行探讨。

1. FLAURA研究与同样是一线治疗与第一代TKI对比的ARCHER 1050、NEJ009研究检验策略有何异同?对OS结果性质是否影响?

在RCT中涉及多个主要研究目的(或关键次要目的)都需要进行统计检验时,一般应采取策略保证总一类错误α控制在0.05以内,常见的策略包括固定次序检验、α拆分与回收以及Hochberg策略。FLAURA研究所采用的Sequential Multiple testing、ARCHER 1050研究采用的Gate-keeping strategy以及NEJ009研究采用的Hierarchical test策略,原理上是相似的,都属于固定次序检验。

固定次序检验是临床试验中常见的一种策略,通过事先将多个研究假设按照获得阳性结果的可能性进行排序,并逐一按统一的α标准(一般为0.05)进行统计检验,只有当前一次检验存在统计学差异时,才进行后一次假设检验的分析;当前一次检验无统计学差异时,则终止对后续检验的分析。该方法的优点是相比于α拆分,每一次检验的α标准不变,不影响总样本量。但值得注意的是,采用这种方法有赖于对可能阳性结果的假设检验排序有非常好的预判,否则可能无法很好的呈现更多结果。

ARCHER 1050研究比较第二代TKI达克替尼对比第一代TKI吉非替尼的疗效,研究方案统计分析计划中提到采用Gate-keeping strategy:检验次序为主要终点PFS、次要终点ORR(by IRC)、次要终点OS结果显示,试验组PFS获得显著改善,但ORR无明显差异。由于ORR未达到阳性结果,不应再对OS进行统计检验;但KM曲线显示OS存在获益趋势。

另一项晚期NSCLC一线治疗NEJ009研究比较吉非替尼联合化疗(GCP)对比吉非替尼的疗效,预设3个主要研究终点,采用Hierarchical test策略,检验次序依次是PFSPFS2OS其中PFS2定义为从随机开始至吉非替尼联合化疗不再生效的时间,对GCP组而言等同于PFS,对吉非替尼组而言相当于至二线进展或死亡的时间并排除一线进展至二线治疗开始之间的等待间隔。结果显示,试验组PFS获得显著改善,但PFS2无明显差异。由于PFS2未达到阳性结果,不应再对OS进行统计检验;KM曲线显示OS存在获益趋势。

综合这3项研究,只有FLAURA按照预设检验次序全部达到了阳性结果,ARCHER 1050NEJ009都在第2步未达到阳性结果,而第3步却显示出了获益趋势,但按照研究预设并不能得到阳性结论。相关文献中,ARCHER 1050依然宣称可以显著改善PFSOSNEJ009则严格报道只能显著改善PFSOS获益仍需进一步研究验证。因此,在与第一代EGFR TKI头对头比较的III期临床研究中,奥希替尼是目前唯一一个既获得统计学意义又获得临床意义可以显著改善OS的治疗方案。

2. 次要终点的亚组结果(不同种族和突变类型)能否作为定论?

关于FLAURA研究OS亚裔结果可信度几何的话题,日前医统江湖大飞哥曾专门撰文讨论过。根据四川大学孙鑫教授团队提出的判断亚组分析可信度的9条标准,无论是亚裔vs非亚裔的亚组结果,还是Ex19del vs 21L858R突变的亚组结果,均只符合其中5条标准。 

而其中非常关键的一点在于,同类研究亚组结果没能被重复,反而出现相反的趋势(见下图,一线FLAURA和二线AURA3研究中的PFS、OS),因此不能排除是偶然因素造成的结果。


亚组人群的确证性结果仍需要通过前瞻性RCT来验证,针对亚组人群单独开展RCT或是在ITT人群的研究中预设亚组分层随机并同时针对ITT和特定亚组计算样本量,以保证该亚组具有足够的统计学检验效能,且需采取合适的策略控制总一类错误α,包括α拆分与回收(Basic BonferroniFallback testHolm Bonferroni等)、固定次序检验或Hochberg策略等。FLAURA研究仅根据ITT考虑了OS分析所需样本量和相应的检验效能,而未考虑亚组OS的样本量要求,也没有将亚组OS考虑在序贯多重检验的预设次序中。因此,FLAURA研究目前展示的亚组OS结果仅为探索性结果,仍有待进一步研究。
对比FLAURA研究(第3TKI)与ARCHER 1050研究(第2TKI)的亚组结果,数值上,两类TKIPFSOS结果在各亚组中是相当的。但仍需考虑:1FLAURA研究包含21%患者基线伴CNS转移ARCHER 1050排除了CNS转移患者,前者基线相对更差;2两项研究OS的HR差异来源主要在于对照组中位生存时间的差距,后线Crossover至奥希替尼比例不同(前者31% vs 后者11%),导致FLAURA研究中对照组更好3结合安全性考虑,奥希替尼可能仍是亚裔或21L858R突变患者的一线优选治疗 

3. 如何看待延长随访对OS结果的影响?

RCT研究通常有多次OS结果报道,比如ARCHER 1050研究在预设的OS最终分析2年后,再次更新报道了延长随访的结果,此时中位随访时长约48m,事件成熟度达63%。两次生存曲线对比可见,事件数和成熟度增加后,中位OS数值变化很小,但HR值与P值明显更小,且KM曲线末尾不再交叉,各时间点Number at risk也增加了。结合两次KM曲线末尾看,主要是由于延长随访后对照组下降更多,研究组下降少但曲线变平滑,使得交叉消失,这应该是HRP值变小的主要原因。但延长随访的结果依然不能改变的是,依据该研究预设的固定检验次序,OS并未达到统计学阳性结果。类似的,ARCHER 1050研究中亚裔亚组的OS延长随访后也呈现出了与总人群相似的规律。

综合FLAURA研究的两次OS分析来看,对照组中位随访时间远低于奥希替尼组,这可能使得目前看到的对照组OS被高估,且对照组二线存在31%的患者Crossover至奥希替尼治疗,必然导致二线治疗开始后OS差异拉近,这些可能就是导致亚裔亚组在36mKM曲线交叉的重要原因。

随着中位随访时间延长,研究拥有更多数据来估计OS将会更准确。根据ARCHER 1050研究延长随访结果的变化规律,FLAURA研究亚组结果在将来更长随访后,组间差异也很可能会比现在更趋于明显。

综合来看3项一线治疗研究,在随访时长不利于研究组且后线第3TKI治疗比例更高的前提下,FLAURA研究更不利于得到阳性结果;加上基线纳入21%CNS转移的患者,理论上预后相对更差。最终FLAURA研究获得了单药TKI治疗史上最长的PFS18.9m)和OS38.6m),且具有非常好的安全性,对照组OS由于Crossover也达到了史上最长的31.8m,预示着EGFR突变阳性晚期NSCLC靶向治疗已进入第3TKI奥希替尼傲视群雄的时代。

4. Crossover对OS结果有何影响,如何控制

后线Crossover由于会使组间差距拉近,因此必然会对一线治疗的OS获益评估产生影响,那么我们如何去评估或是控制它的影响呢?JAMA Oncology上一项研究汇总了4项肺癌TKI治疗的RCT研究与15项传统化疗的RCT研究,通过比较发现,虽然TKI研究中OS在试验组与对照组间的差异和传统化疗研究中一样没有统计学意义,但TKI研究中试验组和对照组中位生存时间都达到了近30个月,远超传统化疗研究中都不足10个月的中位生存期,间接说明EGFR TKI治疗能够显著延长患者OS 


此外,一些统计学处理方法可以在一定程度上模拟消除Crossover影响后的药物真实疗效,比如删失法(将转组后的随访时间当作删失处理,偏不保守)、秩保持结构失效模型(RPSFT,对转组后生存时间进行校正)、逆概率删失加权方法(IPCW,对未转组概率倒数进行加权)等,FLAURA研究中考虑到允许Crossover,所以在方案中也进行了预设,如果OS最终分析没有达到统计学显著差异,将采取这些统计学方法进行处理矫正。

足够好的药物则不需要统计学方法的矫正,即使后线存在Crossover,依然显示出一线治疗显著的OS获益,FLAURA研究第3TKI奥希替尼即是这样的例子。

以上4个问题的探讨,小结如下

1. RCT研究中若采用了固定次序检验策略,其结果的解读需要遵循相应的原则,才能够控制好总一类错误,减少假阳性,使临床意义与统计学意义达到一致,根据该原则,仅FLAURA研究OS达到了兼具统计学意义和临床意义的显著改善结果;

2. 不能过分解读亚组结果,尤其是探索性的次要终点亚组结果,任何基于探索性亚组结果希望指导和改变临床实践之前都应经过亚组的前瞻性研究验证;
3. 看生存结果需要结合中位随访时长来看KM曲线,在中位时点后的曲线延长随访可能带来改变,且很可能是更真实的差异;
4. 后线Crossover会导致一线OS疗效差异的缩小,而足够好的药物则无惧Crossover
FLAURA研究之后,临床医生十分关注奥希替尼到底能给中国患者带来获益吗?需要注意的是,亚裔亚组仅纳入19例中国患者,其结果不能代表中国患者。
值得期待的是,研究预设的扩展中国队列已入组136例患者(含ITT人群中的19例),预计明年可以看到相关结果的报道。虽然这样小的样本量很难验证出统计学差异,目的主要是应CFDA注册要求验证和global人群趋势是否一致。因此,只要HR点估计与ITT人群相似或更好,即可认为中国人群的获益与ITT人群是一致的。
不久前,FLAURA研究就日本亚组OS结果进行了报道,作为亚裔1/3以上的组成部分,日本患者OS似乎无法从奥希替尼获益,对照组中位生存时间尚未达到,数值上可能比奥希替尼组更好,HR点估计为1.39,这可能说明ITT人群中亚裔亚组结果主要由于日本患者的因素所致,间接说明非日本亚裔人群(包括中国患者)也许更能从奥希替尼获益。扩展中国队列OS结果,让我们拭目以待!




    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多