无病生存时间与总生存时间区别——星问答——上海研发公共服务平台

vvyoung 2014-02-09

展开全文

在肿瘤学中，生存期是临床获益的金标准，但实际上FDA也认可采用别的肿瘤终点指标来批准药物上市。在上个世纪70年代，FDA通常是基于客观应答率（objective response rate，ORR）来决定是否批准一个抗肿瘤药物。到了80年代早期，经肿瘤药物咨询委员会（Oncologic Drugs Advisory Committee ，ODAC）讨论后，FDA认为应基于更直接的临床获益证据，如改善生存期或患者的生存质量（Quality Of Life，QOL）、改善身体功能或改善肿瘤相关症状，其临床获益并非一直通过客观应答率（ORR）来反映。此后的10多年，无病生存期（Dsease-Free Srvival，DFS）和持续的完全应答作为终点指标被认可。本指导原则（草案）所涉及的主要终点指标讨论包括整体生存期（Overall Survival）、基于肿瘤评价的终点指标（如无病生存期、客观应答率、进展时间、无进展生存期、治疗失败时间）以及基于症状评价的终点指标。具体见下表：

表1.重要的肿瘤公认终点指标比较

终点指标证据的适用性评价优点缺点
整体生存期（OS）临床受益 ·需要随机研究
·盲法并非必须 ·普遍接受的直接反映临床受益的指标
·容易观察
·最佳指标 ·要求更大样本的研究
·要求更长时期的观察
·受到交叉治疗的潜在影响
·不能捕获到症状受益
·包括了非肿瘤死亡
无病生存期
(DFS) 加速通过或常规通过的替代指标 ·随机研究需要
·首选盲法研究 ·一定程度上考虑到临床受益
·相对于生存期而言需要更少的样本和较短的研究周期 ·多数情况下不是证实生存期的替代指标
·不能保持观察的中立，易产生评价偏倚
·存在不同定义
客观应答率（ORR）加速通过或常规通过的替代指标 ·常选用单臂或随机研究
·在比较研究中需首选盲法 ·在单臂研究中可以作出评价 ·不是一个临床获益的直接指标
·通常在少量人群中即可反映药物活性
·与生存期相比数据稍显复杂
完全应答率(CR) 加速通过或常规通过的替代指标 ·常用单臂或随机研究
·在比较研究中需首选盲法 ·在一定条件下，持久的CR代表明显的获益
·在单臂研究中可被评价 ·几乎没有一个药可产生高完全应答率
·与生存期相比数据稍显复杂
无进展生存期
(PFS）加速通过或常规通过的替代指标 ·需要进行随机研究
·首选盲法
·推荐盲法复审 ·通过观察肿瘤的应答和稳定来反映药物活性
·在治疗中通常评价先于变化
·与症状终点指标相比缺失值较少
·与生存期比较可用于评价更早和小样本的研究 ·存在不同的定义
·不是临床获益的直接指标
·不是一个经证实的生存期替代指标
·与生存期相比不能被精确观测
·易产生评价偏倚
·需要进行频繁的放射研究
·与生存期相比数据庞大且复杂
症状终点指标
(Symptom Endpoints) 临床获益 ·通常需要随机盲法研究（除非终点指标有一个客观成份，且效应明显－见正文） ·临床受益的直接观察指标 ·在肿瘤临床试验中盲法实施困难
·缺失值常见
·没有一个专门用于观测肿瘤具体症状的设备
·与生存期相比数据庞大且复杂

1、整体生存期（Overall Survival）整体生存期定义为随机选择的时间直到死于各种原因为止，适用于对意向性治疗人群（Intent To Treat ，ITT）进行观察。生存期是最可靠的肿瘤终点指标，当研究能充分评价生存期时，它就是最佳的终点指标。生存期的改善毫无疑问反映临床受益。一旦记录有死亡时间，这个终点指标是精确的且容易观察。作为主要终点指标的生存期关键不是置疑一个经证实了的生存期获益价值，而是难在采用大样本和足够长时间来研究生存期的改善，并由于后续的抗肿瘤治疗效应掺杂其中而难于肯定受试药对生存期的影响，或者担心药物可能对接受过治疗的人群仅有小部分有效，而难于观察出对整个受试人群的生存期疗效。
2、基于肿瘤评价的终点指标基于肿瘤评价的终点指标精确性和临床意义可因肿瘤不同而不同。例如，在恶性间皮瘤和胰腺癌中的应答率结果是不可信的，因为目前可用的影像学检查从形态特征上说很难测量这些肿瘤大小。当批准药物的主要研究终点指标是基于肿瘤大小时（如无进展生存期或ORR），特别是当研究本身不能做到盲法时，建议肿瘤终点指标的评价通常由不知道研究治疗如何分配的主要复审者予以核实。

2.1、无病生存期（Disease-Free Survival，DFS）无病生存期（DFS）通常定义为随机选择某个时间直到肿瘤复发或因各种原因出现死亡。一个重要的考虑是DFS延长是否意味着本质上的获益或仅仅是生存期延长的一个潜在替代指标。2003年12月，ODAC一致认为DFS延长代表着临床获益，但是这个利益的大小应当与辅助治疗的毒性仔细权衡比较，特别应注意对患者功能的影响。2004年5月， ODAC建议如果某些条件能被满足的话，DFS应被认为是手术辅助条件下抗结肠癌药物的一个可接受的终点指标。我们建议方案应就DFS定义和研究、访视的时间作出具体的规定。因为许多原因（包括肿瘤相关症状、药物毒性、焦虑）可不按时间表评价，由于不按时间表评价在其频率或原因方面的组间差异可能产生偏倚。如果可行，这个潜在的偏倚可以采用受试者和研究者对治疗分配的双盲来将其最小化。由于未按时间表评价所导致的偏倚潜在效应可以采用比较两治疗组间的访视频率并通过对从不按时间访视到下一个预定访视的分配事件进行统计分析来给予评价。 DFS定义的另一个问题是之前没有肿瘤进展发生死亡能否记为DFS事件（疾病复发）或应在统计分析中进行审查。所有关于死亡的统计分析方法均有一定局限性。看似较小产生偏倚的方法是将所有死亡均认为由疾病复发所致。这个方法的局限性在于潜在地削减了研究中的统计作用（冲淡了非肿瘤死亡的癌症相关事件）和潜在地、不真实地延长了长期无人观察死亡患者的DFS评价。如果各研究组长期访视的频率不同或者如果因药物毒性的非随机脱落，后者可能产生偏倚。一些分析将肿瘤相关死亡认为是DFS事件和审查非肿瘤死亡。这个方法在死亡原因明确之后可能存在偏倚。而且，任何一个审查患者的方法，无论是死亡还是最后一次访视，均假定经审查的患者与未经审查的患者有同样的复发风险。这个关键的假设需在任何可能的死因上进行仔细检查。由于除了癌症之外的死因普遍存在（如研究早期转移的前列腺癌患者），故审查死因是适当的。

2.2、客观应答率（Objective Response Rate，ORR） ORR是指瘤体缩小达到预计值并能持续到预计的最低时限要求的患者比例。应答期通常是指从最初应答开始直至证实出现肿瘤进展这段时间。FDA一般定义ORR为完全应答加上部分应答之和。一些申请人已经提议将疾病稳定作为ORR的一个组成部分。而疾病稳定作为一个独立的观察指标被提出来，实际表现为进展时间或无进展生存期的一个组成部分。决定ORR临床和调整意义的重要观点包括应答期、完全应答百分比、治疗毒性以及有关肿瘤相关症状的改善。

2.3、进展时间（Time to Progression，TTP）和无进展生存期（Progression-Free Survival，PFS）过去，进展时间和无进展生存期很少用作药物批准的主要终点指标。可以清晰地反映出临床获益的症状进展时间很少被评价，但是在良好设计（通常是盲法）的试验中是一个可信的终点指标。2003年12月，ODAC讨论了TTP和PFS在抗癌药批准中潜在角色，相对于TTP而言委员会更倾向于PFS。ODAC建议依靠这些终点指标来选择临床定位，例如完全应答率很低的疾病或当在临床试验中证明生存期获益很困难时。多数患者有明显的症状时，ODAC倾向于观察肿瘤应答和症状获益。肿瘤进展的定义变化相差较大，所以重要的是应在方案中加以详细地具体说明。

2.3.1、PFS作为支持药物上市的终点指标 PFS作为支持抗肿瘤药上市的一个终点指标，其优缺点在表1中已列出。PFS的优点在于它能反映肿瘤的生长（这个现象可能反映了肿瘤相关疾病或死亡的因果联系），可以于生存获益证实前被评价，不会受到后续治疗的潜在的易混淆的影响（除非血液标记物的恶化导致先于进展改变治疗）。而且，PFS的结果比生存期结果出现得更早，因此一个特定的优势，说3个月的平均改善代表一个比稍后发生的3个月平均生存获益更大的（因而更易被发现）风险比改善。但是，PFS作为许多不同恶性肿瘤的生存期替代指标很难正式确认。数据通常对生存期和PFS结果的关联性不能充分进行有力评价。肿瘤试验规模常常偏小，证实现有药物的生存获益通常有限。PFS作为支持药品上市许可的终点指标角色随不同肿瘤而变化。在一些情况下，PFS延长可能是一个支持药品常规批准的可接受的临床获益替代终点指标，在其它情况下，它可能作为加快通过的反映临床获益的替代指标。需重点考虑的是治疗效应大小、治疗中的毒性方面、临床获益以及可利用治疗的毒性。这些观点将结合具体瘤种在以后的指导原则中加以讨论。

2.3.2、 PFS试验设计问题关于在方案和统计分析计划中加以细化PFS的评价、观察和分析等方法学是重要的。在方案中仔细定义肿瘤进展标准也非常重要。这里没有定义进展的权威的常规标准。申请人用过许多不同的标准，包括RECIST标准。在绝大多数已公开出版的PFS标准中提及的主要纲要应在方案和统计分析计划中用其它细节加以补充。为防止出现偏倚，访视和放射性评价应注意组间均衡性非常重要。研究应尽可能采用盲法。当患者或研究者的评价作为进展终点的组成部分时，盲法研究尤为重要。FDA和申请人就方案、CRF表上数据记录、统计分析计划（包括缺失值分析和方法审查）以及如可适用的一个独立的终点指标复审委员会操作流程（附录4有相关讨论）等预先达成一致是很重要的。反复访视频率的结果已争论过。频繁定期的评价取决于肿瘤分期分型，以保证多数进展事件能通过放射扫描检查出来，而不是症状事件。这种方法增加了研究的费用和难度，也包括增加了研究者数据收集负担和患者的扫描数量，而且不能反映临床操作标准。

2.3.3、PFS的分析 PFS分析因缺失值变得复杂。方案应详细说明制定每个患者恰当评价的具体内容非常重要（例如一次访视按计划完成对肿瘤的全部评价）。分析计划应大致描述各治疗组随访充分的比较，并应详细说明关于审查到随访不完整或有缺失时应如何处理。例如，如果先于进展事件前缺失一次或更多的随访评价，进展事件应如何确定日期？分析计划详细说明主要分析和一个或更多的敏感分析非常重要。例如，在前述例子中，主要分析可能将观察到进展的实际日期作为进展日期。敏感分析可能将最后一次充分评价的访视作为进展日期。虽然两种方法都存在问题（最好的解决办法是缺失值一个也没有），如果结论得到主要分析和敏感分析结果的支持，该结论仍可能是有效的。如果申请人能足以支持其它方法，也可考虑。分析计划应评估超过预期固定的随访时间的死亡患者例数。诸如这种死亡的不均衡可能使得PFS观察出现偏倚，使得未能充分随访的PFS人为延长。因为进展数据从不同来源（包括未按时间计划访视时的体检和不同型号的放射性扫描）和不同时间被收集，每次评价访视的数据收集努力应被限制在先于访视的一个确定的短期间隔里很重要。当超过较长时间收集数据时，问题就会产生：什么日期能作为进展日期或审查日期？一个普遍的方法是将最早观察到进展的时间作为进展，当最后一次放射性评价表明仍未进展时作为审查时间。因为这个方法可能导致评价偏倚，特别是在非盲法试验中，我们建议进展和审查时间（censoring times）应为按计划评价访视的时间。如果采用盲法或很少按时间评价进行研究，相反，症状进展的时间研究应用观察到症状进展的实际时间。但是，PFS基于死亡的日期应是死亡日期，而不是既定的访视日期，因为发现死亡与访视时间无关，且不能用其进行解释。

2.3.4、将来评价进展的方法将来，其它进展评价方法应作为常规批准或加快批准的替代终点指标。其中一个提议的方法是（不用日期）单独的时间点评价，有助于降低进展评价的复杂性和消除时间依赖性评价偏倚。在单独的时间点分析中，进展将在基线和随机确定的预先时间进行评价。如果患者先于这个具体时间出现进展，且经放射性扫描证实，患者应从研究中被剔除。所有其他患者应在预定的随访时间中进行详细的放射性评估。统计分析应比较每个研究组随机化后预期或提前出现进展的患者比例。这个方法的潜在问题是削弱了统计作用，与之前确定时间的不同在于同时丢失了小部分获益，缺乏有关单个时间点分析和为人熟知的如无进展生存期以及整体生存期等终点指标的相关信息。虽然这种方法有一些优点并减少了评价偏倚，先于进展的脱落研究与代替所有的进展终点指标一样困难。这个方法的未来评价看似合理的地方在于预测一个重要且持续的无进展生存期结果，和完整的无进展生存期数据收集不可能或不切实际。

2.4、治疗失败时间（Time to Treatment Failure ，TTF）治疗失败时间（TTF）是一个复合的终点指标，即随机选择某个时间直到无论何种原因终止治疗为止（包括因疾病进展，治疗毒性和死亡）。根据其定义，TTF不推荐为药物批准的终点指标，因其包括有有效性和毒性指标。例如，假设一个标准的对照药（A药），其生存获益是已知的，但是是以相当大的毒性为代价，许多患者因其毒性过大而无法继续治疗。一个非毒性的受试药（B药）可能较A药明显延长TTF，因其毒性较小很少引起脱落。这些单独的数据不能支持药物批准，因为它们不能证明B药的有效性。药物批准应要求证实B药的有效性，如生存期改善或其他临床获益。

3、包括症状评价的终点指标症状改善一直被认为是临床获益，许多FDA批准的抗肿瘤药采用患者症状进行评价和/或认为能反映症状改善的体征（如体征增加、减少渗出）作为有效性的主要证据。目前，用得更广的健康相关生活质量（Health-Related Quality of Life ，HRQL量表）已不再扮演这个角色。HRQL在一个关于患者报告结果（patient-reported outcomes，PRO）的独立的FDA指导原则草案中会被讨论。FDA依靠症状得分、体征以及反映明显获益的症状进行评价（如减轻食道阻塞症状、更少的骨折发生、减小皮损的面积和数量、医疗行为[为适应骨转移疼痛需要放射治疗]、医生对体力状况的评价以及患者报告的对症状程度的评价）。如果所要求的生存期获益已被证明，FDA可以基于临床获益证据更早批准抗肿瘤药上市。不言而喻，多数案例中的肿瘤患者是决定影响患者症状的最佳来源，因此PRO量表看来非常合适。正式的PRO量表被设计为集中在一些特别的症状（如疼痛程度）或一个广泛的身体、情绪和活动观察。将体征和症状改善或QOL评价用作批准抗肿瘤药的主要终点指标时要求区别肿瘤症状和药物毒性，特别是当基于与有毒的阳性药对照比较的证据。这会引起普通HRQL量表的一些特别问题，根据定义除了身体问题外，这个量表包括别的内容，是个多维量表。一个药物优于另一个经全球HRQL方法所观察的药物具有明显的有效性优势，可能仅仅提示该制剂或其用法相对于另一药物表现出更低的毒性，这才是问题的关键，但它不是一个有效性观察指标。为批准抗肿瘤药目前所用的反映疾病状态的终点指标（Morbidity Endpoints）表面上虽具有有效性（例如，基于功能评价的终点指标如吞咽固体、液体能力或无法吞咽对于患者和医生而言具有明显的价值），但未观察相同程度下的获益和毒性。

3.1、特殊症状终点 FDA给申请人建议的一个终点指标是肿瘤症状进展时间，一个类似与进展时间的终点指标。这个终点指标将直接观察临床获益而不是作为一个潜在的替代指标。申请人用这个方法时曾经遇到过几个问题。第一、由于很少的肿瘤试验采用盲法，因而评价带有偏倚且不可靠。第二、肿瘤进展和出现肿瘤症状通常是延迟的。通常在达到症状终点前，治疗出现调整，混淆了结果。许多肿瘤试验中采用的是未使用化疗的患者，此类患者几乎没有明显的肿瘤症状。第三、区分肿瘤症状和药物毒性有时非常困难，这在讨论治疗失败时间和HRQL提及过。在采用盲法治疗、多数进展的患者有明显的症状、目前缺乏有效的治疗以及很少放疗随访的条件下，采用症状进展时间和症状出现时间作为合理的终点指标是合适的。根据方案中规定的时间采用有效手段来仔细收集症状数据。当一个药物的益处是多方面时，复合的症状终点指标是合适的。重要的是构成终点指标的成份具有关联性且一般具有相同的临床重要性。已获批准治疗肿瘤骨转移的药物是基于一个或更多骨相关事件（skeletal-related event，SRE）所组成的获益终点指标，而骨相关事件（SRE）被认为与疼痛或身体其它不适相联系。SRE被定义为病理性骨折、骨的放射性治疗及手术治疗、以及椎骨压缩。临床获益的应答，复合的终点指标包括有由患者报告的疼痛和镇痛剂的用量、由医生报告的体力状况，可部分支持抗胰腺癌药物的批准。研究中选择恰当的研究人群是证明症状获益的关键。基线时的患者症状可以和一个绝对的症状应答分析一起被评价。这个方法对于像肺癌这类疾病是恰当的，多数患者在诊断时即有症状。无症状的患者应用最初症状发生时间进行分析。即使患者终止服用受试药或开始服用一个新的药物，如果随访到证实最初症状出现为止，症状进展仍可被评价。这个方法值得考虑，但很少被采用。

3.2、症状数据所面临的问题递交FDA的症状数据分析中遇到许多问题。肿瘤学方面的最重要的问题是很少有试验采用盲法，以至于观察者可能的偏倚很难被排除。缺失值很普遍，以至于质疑研究结论。至关重要的是频繁的评价使得长期未被观察到的差距最小化。另外，症状的严重度应被关注，而不是只有“有”和“无”两种选择。因为毒性或肿瘤进展而终止治疗是症状数据缺失的一个原因。就理想而言，当患者终止治疗时，数据收集应继续收集信息并通知分析者。症状数据可能导致大量不同的终点指标，如果每个症状当作一个独立的终点指标治疗时，预期制定的统计计划需要修正这种多样性。

4、生物标记物目前，测定血液或体液中的生物标记物并不作为批准抗肿瘤药物的主要终点指标，虽然血液和尿液中异常蛋白水平测定可作为骨髓瘤的终点应答指标。需要做进一步的研究来证实可用测试方法的有效性并决定是否如生物标记物的改善就很有可能预测临床获益（加速批准）或作为临床获益的替代指标（常规批准）。虽然目前肿瘤标记物仍未单独作为上市许可的依据，FDA有时会承认它们作为复合终点指标一个方面。例如，卵巢癌妇女通常在无法测量的肿瘤进展期间表现出临床恶化。在难控制的卵巢癌随机盲法对照试验中，FDA已经接受包括CA-125在内的复合终点指标。当伴随CA-125上升的某个特定临床事件（如体力状况明显下降，或出现肠梗阻）的出现应考虑到患者病情进展。最近有工作组讨论了将前列腺特异性抗原（Prostate Specific Antigen ，PSA）作为前列腺癌的终点指标，并讨论了将PSA作为终点指标的不同评估方法，包括PSA应答、PSA斜率和速度。尽管目前FDA并未承认PSA作为药物上市依据的终点指标，但在以后的专题讨论和ODAC会议中计划将作为补充数据进行评价并作为PSA终点指标进一步讨论。