分享

ICH E9:临床试验的统计学指导原则(下篇)

 qpalzmxmcbv 2019-07-11

题记:本文是【人用药品注册技术要求国际协调会 ICH】三方协调指导原则中有关临床试验的统计学指导原则的中文版,因原文较长,我们将分三部分推送,以飨读者,以下为第三部分。

声明:本文版权归ICH 指导委员会。侵删!

ICH E9:临床试验的统计学指导原则(上篇)

ICH E9:临床试验的统计学指导原则(中篇)

5. 数据分析

5.1 预定的分析计划

在进行临床试验设计时,最终数据分析的统计方法的主要特征需在试验方案中的统计分析部分加以说明。这一部分需包括主要变量的验证性分析方法的所有主要特征,以及预期分析问题的处理方法。对于探索性试验,这一部分还可包含一些更一般的原则及思路。

统计分析计划(见词汇)可以在完成试验方案后单独成文,可包含设计方案中主要特征的更加技术性的详细细节(见 7.1)。这一计划可包括主要变量或次要变量及其他数据统计分析的详细执行步骤。在对试验资料进行盲态评阅(见7.1 的定义)分析后,应对统计分析方案进行再检查和必要的修订,并应在揭盲之前完成。正式记录应当在统计分析计划完成和其后的揭盲前保持不接触。

如果盲态评阅建议更改试验方案中所述的主要特征,需以文件的形式写入修订方案中,否则,根据盲态评阅结果建议对统计分析计划作出修改即可。只有在试验方案(包括修订方案) 中设想的,分析结果才可被认为是证实性的。

在临床研究报告的统计分析一节,必须详细写明统计方法,包括是什么时候作出关于临床试验过程方法学决策的(见ICH E3)。

5.2 分析集

数据用于主要分析的病例集(Analysis Sets)需在分析方案的统计一节明确定义。另外,所有将要开始试验过程(例如,进入阶段)的病例的文件都是有用的,该文件的内容取决于特定试验的详细特点,但是,只要可能,应当收集人口学的及病情的基线资料。

如果所有随机化进入临床试验的病例均符合入组标准,参与了试验的全过程且无失访,并提供了完整的数据记录,则该例应包括在分析中是显然的。试验的设计与执行均应尽可能到达这一目标。但实际上,是否能完全做到这一点是有疑问的。因此,试验方案中统计部分应有预见性地写明预期的问题,说明这些对用于分析的病例和数据有何影响。试验方案中还必须说明一些方法,以使研究执行过程中可能出现的不正确做法减到最少。这些会有损分析的满意性,包括各种类型的偏离试验方案、退出治疗及缺失值。试验方案应考虑到如何减少这类问题的出现频度,又要考虑到在分析资料时出现了这类问题的处理方法。在盲法核查时,应在可能有的补充文件中写明分析时对违反方案的处理方法。最好确认任何对试验方案的偏离发生的时间、原因及对结果的影响。偏离试验方案的频率、类型、缺失值,以及其他问题均需写入试验报告中,它们对试验结果可能产生的影响亦需在试验方案中加以论述(见ICH-E3)。

关于分析集的决定,需遵循以下两个原则:1)使偏倚到达最小;2)控制I 类错误的增加。

5.2.1 全分析集

意向性分析(intention-to-treat,见词汇)的基本原则是:主要分析应包括所有随机化的病例。依从这一原则需要完整地随访所有随机化对象的研究结果。但实际上这一想法难以达到,理由将在下面叙述。因此,在此文件中以“全分析集”用于描述分析集,是指尽可能完全并且尽可能接近包括所有随机化病例的意向性分析的思想。在分析中保留初始随机化在防止偏倚并提供统计检验的安全基础方面是重要的。在很多临床试验中,“全分析集”方法是保守的,在许多情况下它也会对治疗效果作出估计,这种估计更能反映以后实践中的情况。有少数情况可能导致从“全分析集”中排除已随机化的病例,包括不满足主要入组标准(违反合格性),没有用过一次药以及在随机化后没有任何数据。这类排除都需证明其合理性。不符合入组标准的病例可以从分析中排除而不会引入偏倚的只有以下一些情况:

(1)入组标准判定在随机化之前。

(2)可以完全客观地作出有关违反合格性的检测。

(3)所有病例接受相同的违反合格性的检查(这在开放的研究中或即使在双盲研究中如果数据在强调盲态审核的重要性而在检查之前揭盲的情况下,可能是很困难的)。

(4)所有按特定的入组标准检出的违反行为都被排除掉了。

在某些情况下,从所有随机化病例集中除掉任何从未用过试验药的病人是合理的。尽管排除这些病例,例如,是否开始治疗的决定不会受到因了解病人的处理安排的影响时,仍然保持了意向性治疗的原则。在另外一些情况,有必要从所有随机化病人集中去除任何在随机化后没有数据的病人。除非由于这些排除,或任何其他原因引起的可能偏倚都被述及,否则没有一个分析是完整的。当用病人的“全分析集”时,在随机化之后违反方案可能对数据和结论有影响,尤其是当它发生与处理的指定有关时。从多方面考虑,将这些病人的数据包括在分析中,与意向性治疗一致,是恰当的。特殊问题在于,有关病人在接受一次或多次剂量后退出,而在此后不再有数据,以及由于其他原因而失访的病人,因为在“全分析集”中不包括这些病人,可能严重地削弱这种方法的基础。因而,当主要变量是在病人由于任何理由失访的情况下测定的,或是随后根据方案中的预期评定日程收集的则是有价值的;如主要变量是死亡率或严重的发病率时继续收集的资料,则特别重要。以这种方法意向性收集数据应在设计方案中写明。归因技术,从最后一次观察的结转(carrying forward)到应用复杂的数学模型的方法也可用于补偿缺失值。其他用于保证可对“全分析集”的每一个病例进行测量的方法可能需要关于病例的结果的某些假设或者结果的较简单的选择(如成功/失败)。任何这些策略的应用应当在设计方案的统计部分描述并证明其正确性,且所用任何数学模型所基于的假定应当清晰地说明。同样重要的是显示相应分析结果的强壮性,尤其是当讨论的策略能导致有偏倚的处理效应的估计时。

由于某些问题的不可预见性,有时将对试验中所出现的无规律性情况作出的详细考虑推迟到试验结束对试验数据盲态检查后则更好。如果循此做法,需在试验方案中加以说明。

5.2.2 符合方案集

病例的“符合方案”集,有时称为“有效病例”、“效验”样本或“可评价病例”样本。它定义了全分析集的一个子集。这些病人对方案更具依从性,并有符合如下准则的特征:

(1)完成某一个预定的处理规程的最小规定部分。

(2)测定主要变量的可能性。

(3)没有任何大的违反方案的地方,包括违反入组标准。

将病人排除在符合方案集之外的理由应当讲清楚,并以一种适合这一特定试验情况的方式,在破盲之前用文件写明。应用符合方案集可能使新的治疗在分析中显示出附加效果的机会最大化,并且更密切地反应了作为方案的基础的科学模型。然而,相应的无效假设的检验和处理效应的估计依据试验不同而可能是保守的或不是保守的;由于虔诚地遵守方案而导致的偏倚,可能是严重的,与处理和结果有关。

导致排除病例产生符合方案集的问题,以及其他对方案的违反,应当被完全识别出来并加以总结。有关的违反方案可能包括处理指定的错误、使用了不许用的药物、依从性不好、失访和数据缺失。评价各处理组间关于频度和发生时间这种问题的模式是良好的做法。

5.2.3 不同分析集的作用

一般说来,显示选择不同的病例集进行分析对主要的试验结果不敏感是有优越性的。在验证性试验计划的同时对全分析集及符合方案集进行分析,一般来说是恰当的,由此可以对它们之间的任何差异进行清楚的讨论和解释。在有些情况下,最好能计划选择不同的分析集进行对结论的敏感性的探索。当全分析集和符合方案集得出实质上是相同的结论时,则试验结果的可信性增加了。然而有一点需注意,从符合方案集中排除较大比例的病例时,则对试验的总有效性会产生影响。

在优效性试验(为了显示研究产品的效果更好)和在等效或非优效性试验(为了显示研究产品具有可比性,见 3.3.2)中,全分析集和符合方案集起着不同的作用。在优效性试验中,全分析集用于主要分析(除了特殊情况),因为它倾向于避免由于符合分析集所致的效果的过于最优化估计。这是由于,在全分析集中包括了依从性不良者一般会减少估计的处理效应。然而,在一个等效性或非劣效性试验中,应用全分析集一般并不保守其作用应当非常仔细地考虑。

5.3 缺失值及离群值

缺失值是临床试验中的一个潜在的偏倚来源,因此,必须尽一切努力完成试验方案中所有有关搜集资料和数据管理的各项要求。然而,事实上任何试验几乎不可避免地总有缺失值。

不过,一个试验倘若处理缺失值的方法是敏感的,尤其那些方法在方案中已预先定义了,可以认为是有效的。在盲法核查时,在统计分析计划中更新这方面内容,可以改进方法的定义。遗憾的是,尚无一个通用的处理缺失值的方法可供推荐。研究者必须注意分析结果对处理缺失值方法的敏感性,特别当缺失值较多时。

应当用类似的方法探索离群值的影响。统计学上对离群值的定义在某种程度上讲是主观确定的。从医学和统计学上共同清晰地判断某一个特定数据是离群值更加可信,而医学上的判断常常确定适当的行动。任何在方案中或统计分析计划中设定的对离群值处理的步骤应当不会对任何一个处理组有偏向。同样,这方面的分析计划也常在资料的盲态核查时进行有用的更新。如果在试验方案中未预先指定处理离群值的方法,则用实际资料分析所得结果,以及去除或削弱离群值的影响后的至少一个分析结果均需给出,并对结果不一致之处加以讨论。

5.4 数据的变换

对关键变量是否要进行变换,最好根据以前的研究中类似资料的性质,在试验设计时就作出决定。拟采用的变换(如平方根、对数)及其原理需在试验方案中说明,特别是对主要变量。变换是为了确保资料满足统计分析方法所基于的假定,变换方法的选择原则在一般的教科书上均能找到,一些特定变量的常用变换方法已在某些特定的临床领域得到成功应用。对一个变量是否采用变换,以及如何变换,常受到临床解释方法的影响。导出的变量亦需作同样考虑,如从基线的改变量,从基线改变的百分数,重复测量“曲线下的面积”或两个不同变量之比值。后继的临床上的解释需仔细考虑,所选新变量导出方法需在试验方案说明其正确性。与此密切相关的一些问题已在2.2.2节作了讨论。

5.5 参数估计、可信区间及假设检验

试验方案中的统计部分应当说明要检验的假设和/或为了满足试验的主要目的而待估计的处理效应。为完成这些任务的主要变量(最好也有次要变量)的统计分析方法,以及所基于的统计模型需阐述清楚;如可能,处理效应的估计需同时有可信区间,并需说明其计算方法。如想要根据基线资料以提高估计精度,或对可能的基线差异估计值进行校正,如协方差分析,亦需在试验方案中写明。

明确说明所采用的假设检验是单侧的还是双侧的是非常重要的,特别是当要采用单侧检验时,需事先说明其是正确的。如果认为假设检验不合适,则需给出其他得到统计结论的方法。关于统计推断用单侧还是双侧是有争议的,在统计文献中可见到不同的观点。通常推荐在设定单侧检验的第I类错误时可以设为双侧检验中的一半,这就使得与通常适用于估计两种处理间差异的可能大小的双侧可信区间相一致。

所选择的统计模型应当能反映目前医学和统计学关于所分析的变量以及试验设计的知识。所有在分析中拟合的效应(例如在方差分析模型中的)应当全面地说明。而且,如果有的话,应当对由于初步结果而进行了修改的效应集加以说明。对在协方差分析(见 5.7)中拟合的协变量集也应作同样的考虑。在选择统计方法时,应注意到主要和次要变量的统计分布。在进行选择时(例如参数还是非参数方法),应当记住需要提供处理效应的大小及其可信区间(除了提供统计意义检验之外)。

主要变量的主要分析应当清晰地与主要或次要变量的附加分析区别开来。在方案的统计部分或者统计分析计划中,也应当概述除了主要和次要变量之外的数据总结和报告的方法。这应当包括各种试验,例如安全性数据中的分析达到一致性所采用的任何方法的参考文献。

建立模型方法与已知的药理学参数、病人对方案的依从性或其他基于生物学数据的了解相结合可以对实际的或可能的效果,特别是对于处理效应的估计,提供有价值的洞悉。这类模型所基于的假定都应当清晰地加以说明,而任何结论的局限性也应仔细地描述。

5.6 I 类错误及可信水准的调整

当出现多重性(multiplicity)时,常用的分析临床试验资料的频率的方法需对I类错误进行调整。多重性可以由于以下情况而产生,例如多个主要变量(见2.2.2)、处理的多重比较、不同时期的多次评估和/或期中分析(见4.6)。如果有可能,最好采用避免或减少多重性的方法,如确定一个关键的主要变量(多重变量)、选择关键的处理对比(多重比较)、运用综合变量如“曲线下面积(重复测量时)。作了这样的处理后,在验证性分析中,如仍有多重性方面的问题,则需在试验方案中确定;必须考虑调整,调整的详细步骤,以及为何不必调整均需在分析计划中说明。

5.7 次级组、交互作用及协变量

主要变量常系统地与除处理因素以外的其他因素有关,例如,年龄、性别等与协变量有关,特定的次级组间,如在多中心试验中,不同中心治疗的病人可能有差异。在有些情况下,对协变量及对次级组效应的校正是分析计划中不可缺少的一部分,故亦需在试验方案中陈述。需在试验前深思熟虑地识别可能对主要变量有重要影响的协变量和因素,并且应当考虑如何对其进行分析以提高估计的精度,以及补偿处理组间不均衡所产生的影响。如果在设计中有一个或多个分层因素,在分析中应当包括这些因素。当一个校正的可能数值可疑时,建议将未经校正的分析结果作为主要依据,而将校正后的分析结果作为参考。特别要注意中心的作用及主要变量的基线值的作用。在随机化分组后测量的协变量值对主要分析作调整是不可取的,因为它们可能受处理的影响。

处理效应的大小会因次级组或协变量的不同而不同,例如,效应可能会随年龄的增加而减少,或对某一类病人较大。在有些情况下,这种交互作用能预期到或者特别感兴趣(如老年等),因此,次级组分析,或包含交互作用的统计模型,都属验证性分析计划的一部分。然而,在大多数情况下,次级组分析和交互作用分析是探索性的,并且应当清晰地认为是如此的;它们应当探索任何处理在不同情况下得出的效应是一样的。总之,这类分析首先应在所研究的统计模型中添加交互作用项,再加上对有关病人的次级组内或由协变量定义的层内的这病例作附加的探索性分析,加以补充。在作探索性分析时,对这种分析的解释必须十分审慎,任何仅基于次级组所作的探索性分析,任何关于有效(或无效),或是安全性的结论,均不宜被接受。

5.8 资料的完整性与计算机软件的正确性

资料分析的数值结果的可信程度,依赖于用于数据处理、数据输入、储存、核实、改错、检索和统计学处理中的方法和软件(内部和外部的)的质量和正确性。所以,数据处理须基于完善的、有效的标准操作程序。用于数据管理和统计分析的计算机软件必须可靠,并提供恰当的软件检验过程文件。

6. 安全性与耐受性评价

6.1 评价的范围

在所有的临床试验中,安全性及耐受性(见词汇)评价是非常重要的一个方面。在试验早期,这一评价主要是探索性的,且只对毒性明显的表现敏感,而在后期,由于样本较大,对于药物的安全性和耐受性的评价将更为全面。后期的对照试验,代表了一个重要的以无偏的方式探索任何新的潜在的不良反应的方法,尽管这类试验在这一方面的把握度较低。

为了说明在安全性与耐受性方面与其他药物或该药物的其他剂量的比较的优效性或等效性,可设计某些试验。这种申述需要相应的验证试验的支持,这与相应的有效性的申述要求是一样的。

6.2 变量的选择与资料搜集

在任何一个临床试验中,用于评价一种药物的安全性和耐受性的方法及度量准则依赖于一些因素,包括与之密切相关的药物的不良反应知识、非临床试验或早期临床试验的信息、该药物的药效学及药代动力学(pharmacodynamic/pharmacokinetic)特性、服药方式、所研究的病人类型,以及试验的期间等。实验室检验包括临床化学和血液学、生命指征(vital signs)及临床不良反应(疾病、体征和症状)的实验检查,通常构成了安全性与耐受性资料的主体部分。严重不良事件的发生,及因不良事件导致治疗终止对于注册特别重要(见ICH E2A及ICH E3)。

此外,为便于对不同试验的资料进行合并,建议在整个临床试验中,资料的收集及评价所用的方法最好一致。使用一个通用的不良事件的词典是特别重要的。该词典从三个不同的级别对不良事件的资料的概括给出可能性,即系统-器官级,推荐名词或包括名词(见词汇)。推荐名词是通常用于汇总不良事件所用的名词,然后,在数据的描述表达时让同一系统-器官级的推荐名词进行合并。

6.3 用于评价的病例集及数据的表达

评价总的安全性与耐受性时,用于汇总的病例集常定义为至少接受了一剂被研究药物。从这些病例中收集的安全性及耐受性变量应尽可能地全面,包括不良反应类型、严重程度、发生及持续时间(见 ICH E2B)。另外,在特定的次级人群,如女性、老年人(见ICH E7)、危重病人,或接受了辅助药物治疗的人可能需要附加的安全性及耐受性的评价。这些评价需说明更特殊的问题(见ICH E3)。

所有安全性及耐受性变量在评价中均需十分重视,所用的主要分析方法需在研究方案中指明。所有的不良事件均需报告,无论是否被认为与处理有关。在评价中,研究人群的所有可用资料均需说明。实验室变量的度量单位及参考值范围必须认真制订,如在同一试验,出现不同的单位及不同的参考值范围(如多个实验室参与研究),则需进行恰当的标准化,以便进行统一评价。毒性等级尺度也必须事先确定,并说明其正确性。

某不良事件的发生强度通常以出现不良事件的病例数与暴露病例数之比来表示。然而,发生强度并非总是十分清楚的。例如,根据不同情况,可考虑用暴露病例数或暴露程度(用人年表示)作为分母。无论是用于估计危险度还是进行处理组间的比较,定义需在试验方案中写明,这一点是很重要的。尤其对于时间较长的治疗,估计会有较大的退出治疗的比例及死亡比例时,对这类情况,需考虑用生存分析,并计算累积不良反应率,以避免低估的危险。

当体征和症状存在较大的背景噪音(如精神病的试验)时,在估计不同不良事件的危险时需考虑对此进行说明的方法。有一种方法是运用“处理后出现的事件”(见词汇)的概念,只有当不良事件相对于治疗前的基线出现恶化时才被记录。

其他消除背景噪音的方法也可以选用,如忽略程度轻微的不良事件,或在重复随访观察到者方可计入分子。这些方法需在试验方案中解释并说明其正确性。

6.4 统计学评价

安全性与耐受性的研究是一个多方面的问题。虽然,某些不良反应通常可被预计到,且对所有药物都进行监测,但不良反应的可能范围很广,新的未预计到的不良反应总是有可能发生的。此外,当违背了试验方案,如使用了方案中禁用的药物,出现了不良事件,就可以产生偏倚。这一背景构成了药物安全性和耐受性评价有关统计上的困难,这意味着由验证性临床试验得到的结论性信息只是一种例外,而不是通例。

在大多数试验中,对安全性与耐受性最好用描述性统计方法对数据进行分析,并在有利于说明时辅以可信区间。对处理组间及病例间的不良事件的模式用图形式来表达也是有价值的。

计算P 值有时也是很有用的,既有利于评价某一感兴趣的差别,又可作为一种'特殊标志'手段应用于大量安全性与耐受性变量,以显示其差别值得进一步注意。这对实验室资料特别有用,因为除此以外,很难给予恰当的汇总。建议实验室资料既要作定量分析,如估计处理的均数,又要作定性分析,计算高于或低于某一阈值的病例数。

如用假设检验,则在进行多重比较时需进行统计上的修正以控制I类错误,但通常更关注Ⅱ类错误的大小。如未对多重比较作修正,则解释被认为统计学上有意义的结果时需特别小心。

在大多数研究中,观察者希望确定,与阳性对照药及安慰剂相比,安全性及耐受性未出现临床上不可接受的差别。对非劣效性或等效性评价,应用可信区间比用假设检验更佳,这样,因发生频数较低而造成的较大的不精确性可以清晰地表示出来。

6.5 综合总结

药物的安全性与耐受性通常是在药物的开发过程中连续地通过试验过程总结出来的,特别是进行上市申请时。然而,总结的有用性依赖于适当的、严格控制的有高质量数据的个别试验。药物的总的有用性总是一个权衡利弊的问题,即使对利与弊的评价总是对整个临床试验项目进行总结时才进行 ( 见7.2.2),但在单一试验中,这一观点亦应考虑到。有关安全性与耐受性报告中所需的更详细的内容见  ICH E3 的第12 节。

7. 研究报告

正如引言中所述,临床试验报告的格式与内容是ICH E3 的内容。ICH 全面地包括了统计工作的报告,亦适当结合了一些临床及其他材料。本节只作简单讨论。

如第5 节所述,在试验的设计阶段,分析方法的主要特点必须在研究方案中确定。当试验结束后,数据已收集完整,则可作初步审查,正如第5 节所描述的,对数据按计划好的分析进行盲法审查是很有价值的。这种对处理保持盲态的预分析审查应当包括关于以下一些问题的决定,例如从分析集中剔除个体或数据;考察可能的变量变换,定义离群值;将其他最新研究中确定的重要协变量增加到模型中去;重新考虑用参数方法还是用非参数方法。此时所作的决定需写入报告,并与统计学专业人员在知道处理编码后所作的决定相区别,因为在盲态所作的决定一般引入偏倚的可能性较小。参加非盲期中统计分析的统计学专业人员或其他人员不应当参加盲法审查或对统计分析计划的修改。当处理所致的效应在数据中显示出来的可能性威胁到盲法时,盲法审查需要特别小心。许多更详细的表达和列表方面应当在接近或正当盲法审查时最终完成以便在实际分析时整个计划的所有各方面已经存在,这些方面包括病例的筛选、数据的筛选与修正、资料的汇总与列表、参数估计及假设检验。一旦数据核查已完成,则应按预定的分析计划进行分析,越遵循分析计划,所得结论的可信度就越大。当实际分析有别于在试验方案中、修订方案中及对资料进行盲态审核时所确定的统计分析计划时,要特别注意,对于偏离计划的分析必须给予认真详细的解释。

凡进入临床试验的病例,不管是否参与统计分析,均需在研究报告中说明。所有排除在分析之外的理由均需写明,任何一个包含在全分析集但不包含在符合方案集中的病例亦需写明其排除符合方案集的理由。同样,所有参与分析集的病例,其所有重要变量的测量值均需说明其测量的时点。

所有病例或数据的丢失、退出处理及违背试验方案等情况对主要变量分析的影响必须认真考虑。病例的失访、退出治疗、或严重违背试验方案必须确认,并对其进行描述性分析,包括退出的理由,以及与处理及结果的关系。

描述性分析是研究报告中必不可少的部分。应当用图或表的形式清晰地表示主要变量、次要变量、主要预后及人口学变量的重要特征。与试验目的相关的主要分析的结果应当是研究报告中特别仔细描述的内容。在报告统计学意义检验的结果时,应当报告精确的P 值(如P=0.034),而不是列出唯一的参照临界值。

尽管临床试验分析的主要目的应当是回答总目标中提出的问题,但在非盲态分析时基于观察数据又会出现一些新的问题,这时就需要用其他的或更复杂的统计分析方法来处理。在研究报告中,这部分的工作必须与方案中计划分析的内容严格区分开来。

由于机遇的作用,可能导致对处理组间基线测定项目的未预见的不均衡项在计划的分析方案中没有被预先定义为协变量,但它对预后具有一定的重要意义。处理这种不平衡的最佳方法是用一种附加的统计分析,说明在考虑这种不平衡因素后可以得出与原计划的统计分析方案相一致的结论。如果经过如上处理不能得出相一致的结论,则需对这种不平衡对结论的影响加以讨论。

一般而言,计划外的分析应尽量少用。如果认为治疗效果有可能由于其他某个或某些因素的改变而不同时,常需进行这种分析。这时可能是企图识别效果特别好的试验对象的某一亚组。对于计划外亚组分析结果过度解释的潜在危险是众所周知的(参见 5.7),应设法小心地避免。虽然,当一个处理无效或该处理对亚组试验对象具有副作用也会出现类似解释的问题,但我们应对其可能性作出适当评价并加以报告。

最后的统计学判定对临床试验结果的分析、解释及表达有关。为此,试验统计学专业人员应当是临床试验报告负责人员之一,并批准最终报告。

7.2 临床数据库的总结

在进行药品上市申请时,需要所有报告和临床试验的有关安全性和有效性全面小结和证据的综合材料(欧盟的专家报告,美国的整体小结和日本的概要)。在适当的时候需附有统计学的综合结果。

在小结中,应包括如下专门的统计学分析内容:参与临床试验过程中治疗人群的人口学特征和临床表现的描述;根据有关的(一般是有对照的)试验结果回答较关键问题,且着重说明其一致和不一致的程度;总结所有试验的综合数据库中所有的安全性信息,其结果对于上市申请有作用并可验明可能的安全性问题。在临床试验计划设计时,必须注重变量的定义及测量值收集的一致性,这将有利于随后的系列试验结果的解释,特别是当几个试验进行联合时。必须选用一个通用的记录用药详情、病史及不良事件的通用词典,对主要变量与次要变量采用公认的定义往往是有益的,而且是后继综合分析的基础。测量关键有效性变量的方式、安排对随机化/进入试验评价的时间、处理对违反或偏离试验方案者以及可能对预后因素的定义,都必须保持一致,除非有充分理由不这么做。

任何用于不同试验间数据联合的统计方法均需详细描述,对因试验的选择而可能导致的偏倚、对它们结果的齐性,以及对不同的变异来源建立恰当的模型都必须予以十分注意。结论对假定及所作的选择的敏感性必须进行探索。

7.2.1 有效性资料

每一个临床试验的样本量都必须足够大,以确保达到预期的目的。通过对本质上是说明相同的关键的效应问题的一系列临床试验结果的总结,也可能得到附加的有价值的信息。这一系列试验的主要结果应当以统一的格式表达,以便于比较,一般是用表格或图形的方式表达,主要是估计值和可信区间。用后继综合分析技术对这些参数进行综合就是一个很好的方法,因为该法可为所产生的处理效应的大小提供一个更加精确的总的估计,为试验结果提供一个完整而简洁的总结。在某些特殊情况下,后继综合分析也可能是最合适或唯一的方法,它通过总的假设检验提供充分的总的有效证据。当为此目的应用后继综合分析时,应该有其自己写好的方案。

7.2.2 安全性资料

在总结安全性数据时,要彻底检查安全性数据库中任何可能的中毒迹象,并且以寻找观察值的有关联的提供证据的模式来随访任何迹象,这是重要的。将所有服用新药的人群的安全性资料联合起来分析,可提供信息的重要来源,因为大样本为检出发生率较低的不良事件提供机会,也许还可估计出近似发生率。但因为没有对照组,很难对由这一数据中得到的发生率进行评价,对照试验的资料对克服这种困难就显得特别有价值。用共同对照组(安慰剂或指定的阳性对照)的研究结果,应当进行综合,并对每一有足够数据的比较组分别给出研究结果。

探索资料时发现的任何潜在的中毒迹象均需报告。对这些潜在的不良反应的真实性的评价需考虑因大量的比较而产生的复杂性问题。在评价时也可适当运用生存分析方法,求得不良事件的发生率与服药时间和/或随访时间之间的潜在关系。与已识别的不良反应事件相联系的危险性必须适当量化,以便权衡利弊关系。

词汇

贝叶斯方法(Bayesian Appmaches):数据分析的方法,由观察数据及参数的先验概率分布导出某些参数(如处理效应)的后验概率分布。

偏倚(统计的和操作上的)(Bias Statistical & Operational):与设计、执行、分析和评价临床试验结果有关的任何因素的系统倾向使操作效应的估计值偏离其真值。由于执行不正确造成的偏倚称为“操作”偏倚。上面所列出的偏倚的其他原因称为“统计学的”。

盲态审核(Blind Review):在试验完成(最后一例病人的最后一次观察)与揭盲之间对数据进行核对和评价,以便把计划的分析最后定下来。

含义的有效性(Content Validity):一个变量(如等级量表)度量了其应该度量的大小的程度。

双模拟(Double-Dummy):在临床试验中当两种处理不能做到一样时,使应用制品时仍保持盲态的一种技术,如为处理 A(有效药和不能区别的安慰剂)及处理 B(有效药和不能区别的安慰剂)制备制品。病人接受两套处理:或者是A(有效药)及 B(安慰剂),或者是 A(安慰剂)和B(有效药)。

脱落(Dropout):临床试验中的病人由于任何原因不能继续进行试验到按试验方案要求他/她的最后一次随访。

等效性试验(Equivalence Trial):一个试验的主要目的是要显示两种或多种处理的反应差别大小在临床上并无重要性。这通常以显示真正的处理差异是在临床上可以接受的等效性的上下界之间。

频率法(Frequentist Methods):统计方法,如统计意义检验和可信区间,可以用同一试验情况下假设的重复实现时某一结果出现的频率来说明。

全分析集(Full Analysis Set):尽可能接近按意向性治疗原则的理想的病例集。由所有随机化的病人中以最少的和合理的方法排除病例得出。

广义性(Generalisability, Generalisation):一个临床试验的结果可以被可信地由参加试验的病人外推到广大的病人群体和广大范围的临床环境的程度。

全局评定变量(Global Assessment Variable):单一变量,通常是把客观变量和研究者对病人的状况或者状态的改变情况结合起来的顺序分类等级尺度。

独立数据监视委员会(数据和安全监视组,监视委员会,数  据  监  视  委  员  会  )( Independent Data Monitoring Committee-IDMC, Data and Safty Monitoring Board, Monitoring Committee, Data Monitoring Committee):一个独立的数据监视委员会可以是由申办者建立的经常评定临床试验的进度、安全性数据以及关键性效果的结果,并且向申办者提出建议是否继续、修改或停止试验。

意向性治疗原则(Intention To Treat Principle ):一种认为处理策略以想要治疗病人 ( 即计划好的治疗进程),而不是基于实际给予的治疗为基础进行评价,可以对效果作出最好的评定原则。其结果是分到一个处理组的病人即应作为该组的成员被随访、评价和分析,而不管他们是否依从计划的处理过程。

交互作用 ( 定性的和定量的 )(Interaction , Qualitative & Quantitative):一种处理的对比(例如研究产品与对照之间的差异)依赖于另外一个因素(如中心)的情况。定量的交互作用是指对比差异的大小在因素的不同水平时不同,而定性交互作用时对比差异的方向至少在因素的一个水平上不同。

平定者间的可靠性(Inter-Rater Reliability):不同评定者在不同情况下产生相同结果的性能。

评定者内的可靠性(Intre-Rater Reliability):同一评定者在不同情况下产生相同结果的性能。

期中分析(Interim Analysis) :在正式结束试验之前在任何时期为了比较效果或安全性的任何分析。

后期综合分析(Meta-Analysis):对同一个问题的两个或更多的试验的定量证据进行正式的评价。这常是从各试验的小结统计资料进行统计合作,但此名词有时也用于对原始数据的合并。

多中心试验(Multicentre Trial):按单一试验方案在多个地点进行的临床试验。因而,由多个研究者进行。

非劣效性试验(Non-Inferiority Trial):主要目的是显示研究产品的反应在临床上不劣于比较制剂(阳性或安慰剂对照)的试验。

推荐和包括名词(Preferred and Included Terms):在一个分层次的医学词典中,例如 MedDRA,包括名词是最低级别的词典名词,以研究者的描述进行编码。推荐名词是对包括名词进行并组的级别,用于报告发生频率。例如,研究者写的是“左臂疼痛”,包括名词编码为“关节疼痛”,在推荐名词级别可报告为“关节痛”。

符合方案集(有效病例,有效样本,可评价病例样本)(Perprotocol Set, Valid  Cases, Efficacy Sample,Evaluable Subjects Sample):由充分依从于方案以保证这些数据会按所基于的科学模型而表现出治疗效果的病例子集所产生的数据集。依从性包括以下一些考虑,如暴露于处理、可以测定以及没有对方案大的违反等。

安全性和耐受性(Safety and Tolerability):医学产品的安全性涉及到病人的医疗风险,通常在临床试验中由实验室检查(包括临床生化与血液学)、生命体征、临床不良事件(疾病、体征和症状),以及其他专门的安全性检查(例如心电图、眼科检查)等来评定。医学产品的耐受性代表了病人能忍受明显的不良反应的程度。

统计分析计划(Statistical Analysis Plan):统计分析计划是包括比方案中描述的主要分析特征更加技术性和更多详细细节的文件,并且包括了对主要和次要变量及其他数据进行统计分析的详细过程。

优效性试验(Superiority Trial):主要目的是显示研究产品的反应优于对比制剂(阳性或安慰剂对照)的试验。

间接变量(Surrogate variable):在直接测定临床效果不可能或不实际时,提供效果间接测定的变量。

处理效应(Treatment Effect):在临床试验中归因于处理的效果。在大多数临床试验中感兴趣的处理效应是两个或多个处理的比较(或对比)。

处理后出现的事件(Treatment Emergent):在治疗时出现的,而在治疗前没有的或比治疗前状况更坏的事件。

试验统计学专业人员(Trial Statistician):经过教育、培训并且有经验足以贯彻本指导中的原则并且负责试验的统计方面的统计学专业人员。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多