分享

如何在早期临床试验中利用历史数据进行动态决策?

 霖霖爱医学 2020-08-29

原创 林晓 小凡生统月谈 2019-02-20

来自专辑

小凡研究

【作者介绍】

林晓同学2018年夏天加入我的团队,当时她刚博士毕业。记得第一次看到她的简历,就觉得这一定是一个特别努力高效的孩子。而加入公司后,她的学习能力,应用能力,成长速度更是令我惊喜。

在过去大半年,我们一起做了几个方法学的研究项目。林晓扎实的数理背景和优异的编程能力都让很多讨论和想法从理论走到应用层面,包括更容易推广的R shiny App的开发。

团队的所有成员不同的方面具有优势。从项目到方法探索,过去一年,“团队”,让我深刻体会到了“众人拾柴火焰高”的乐趣!

【文章背景】

公司在做大的过程中,管线规划(pipleline plan)和制定提高效率的标准流程就会愈发重要。我在Biotech工作,和很多biotech一样,我们的早期临床试验较小,并需要在风险控制的同时有相对快速和缩短的整体研发计划。随着管线的扩大,怎样更有效地计划和链接早期试验和注册性试验,怎样综合和科学地解读有限的早期试验数据成为越来越重要的问题。

早期试验设计和数据的解读并不容易。一方面,我们常常更容易基于有限的数据做出过度乐观的评价;另一方面,不断出现的竞争者数据和内部数据让我们不安,又让我们在同一个问题上纠结不已。

早期临床研发,决策本就是动态和综合的。但同时,我们怎样综合我们的试验数据和外部数据更高效地做决策呢?

事实上,我之前也做过早期试验统计决策的基于项目的方法学研究(见:Randomized Phase 1B Decision Making in A Bayesian Model,很值得在这篇文章之前一读)。但因为当时项目时间的紧迫,那一段研究中的贝叶斯决策其实用的是无信息先验,也就是并没有借用任何外部数据/历史数据用于决策。这件事一直在我心里。这次的研究和之前的整体框架虽一致,但我们此处进一步利用历史数据进行动态决策,方才是发挥贝叶斯推断的优势。并且我们开发了用户友好的软件(R shiny App)。

一天,与我共事的医学执行总监在我们的策略会议上提出需要有更加清晰的早期试验Go/No-Go决策考虑。我愉快地在会上告诉她:“我已经想到这一点了,连相关软件都给你写好了” 

——夏凡

背景和一些观点

(1)历史数据(historical data)的价值

随着目前竞争性药物开发成本的增加,已经有越来越多的成功案例利用早期小样本临床试验进一步推进新药临床研发工作。早期临床试验样本量相对较小,研发周期短,其主要目的是尽可能多的发现新药特性(包括毒性和有效性),为注册性研究提供依据。

在早期临床试验结束后,最常碰到的问题是试验该不该继续进入到耗时耗力的三期研究用于注册申请,这也就是我们这里讨论的go/no-go决策。制定更加准确、高效可靠的go/no-go决策成为统计师们不可回避的一个问题。

我们把来自于当前试验之外的其他数据统称为历史数据(historical data),这也可能包括公司内部未发表的其它早期数据。对历史数据在临床试验中的使用大家并不陌生,例如,计算样本量,确定等效或非劣效边界,假设性检验边界等等。这一类历史数据的使用主要发生在试验设计阶段。显然这一种历史数据的使用不能最有效解决我们的决策问题,因为决策是贯穿在试验过程中动态发生的,它不仅依赖于历史数据,同时依赖于决策时间点的当前试验收集到的数据。

将历史数据和当前数据联合考虑才能做出正确的决策。

(2)早期试验设计,单臂还是随机?

越来越多的早期疗效探索临床试验(Ph1b or Ph2 study) 采用仅包括试验药物的单臂设计(single arm design with only investigational medical product, IMP)。一个小缺陷是单臂试验可能会受人群偏移(population shift)的影响造成决策偏差。人群偏移包括:

目标人群(target population)偏移,即不同临床试验之间目标人群的差异(如由不同的入排标准带来的人群差异);

和即使目标人群完全一致,因抽样带来的两次独立试验的入组人群系统性差异,如随着医疗水平和健康管理意识的提高,正在进行的单臂试验的入组人群可能预后系统性好于某五年前试验的入组人群。那么,即使试验药物和标准治疗带来的疗效完全一致,我们也可能得到更好的临床结果。

探索性单臂试验很容易受到人群偏移的影响,使估计的疗效不能反应出药物相对于标准治疗的真实疗效。而现实情况下不可避免的选择性结果解读往往更常使早期结果解读过于乐观。相较而言,加入标准治疗(Standard of Care, SOC)作为对照组的随机试验(即使是小样本)对于降低人群偏移对决策的影响有一定帮助。

(3)我们的方法的应用场景

与此同时,从临床研发的角度,我们进一步考虑两类研发场景:

同类首研发(“First in class”): 对于试验药物(IMP)几乎没有可用的历史数据,但是对于当前标准治疗(SOC),存在历史数据;

同类跟进研发(“Me-too development”):不论是对于SOC还是IMP,都有可借鉴的历史数据。对于IMP, 我们也许可以借鉴和IMP有相同药物机理(Mechanism of action, MOA)的其他药物数据。当然,这种借鉴需要非常谨慎。

当然,对于IMP, 我们总可以适度借鉴IMP的内部其他早期数据。考虑到疾病领域,人群,剂量,这种借鉴也需要谨慎。

本文提供的方法和后续开发的R shiny App可处理不同试验设计(单臂或随机)和研发场景下历史数据的借用问题:

  

方法与模型

(这一部分比较理论,但我们尽量在逻辑上帮助大家了解方法可解决的问题)

Schimidli etc. (2014) 曾报道过如何通过荟萃分析方法(Meta Analytic Approach)使用历史数据,但是他们关注的是在随机对照试验中,如何利用历史对照组的信息辅助推断,或缩减当前对照组中所需的样本量。其对历史数据的使用和分析值得借鉴。其核心思想是对历史对照数据拟合如下的层次模型(hierarchical model):

, 然后对当前试验对照组中的参数进行推断,根据推断方法的不同又可以分为:

Meta analytical combined (MAC)方法

在试验结束后,利用历史对照信息和当前对照信息对当前对照组的参数进行推断,类似于回顾性分析方法

Meta analytical predictive (MAP)方法

在试验设计阶段,从历史对照信息中利用贝叶斯分层模型进行蒙特卡洛抽样(MCMC sampling),将抽样结果近似为共轭先验(conjugate prior),并利用此分布计算对照组样本量;在试验结束后,利用当前对照信息更新先验分布,得到后验分布,类似于两阶段的前瞻性分析。

MAC和MAP的最大区别在于何时使用历史数据。其中MAP方法可在设计阶段就引入历史数据,从而继而影响试验设计。所以推荐使用MAP方法。




【举例解读方法应用】

假设某试验是在me-too场景下进行的单臂试验。假设客观反应率(ORR)为主要研究终点,也是我们的待估参数。

由于在试验开始前有若干历史数据可供参考(如来自于其它相似MOA的药物的已发表数据或内部其它试验的数据),我们可从这些历史数据中提取信息构造先验(informative prior)分布,如对于ORR构造Beta分布。考虑到多数据来源下,单一Beta分布可能不能捕捉到待估参数的变化趋势,所以可以考虑应用混合分布(mixture beta) ,其形式如下:

近似后的mixture Beta分布就是我们药物疗效的信息先验分布。在试验结束后,用当前治疗组中收集到的数据可以更新这一先验,从而得到后验分布。由于此单臂设计不包括对照组,所以标准治疗的历史数据可在试验开始前进行分析处理得到其分布。

最后,此例中的具体决策过程可参考下图:

当然,这里的Go/No-Go决策仅考虑了疗效数据,而事实上其它方面的数据,如安全性数据也会影响我们的决策(事实上在早期临床试验中是及其重要的方面)。谨慎设置仅基于疗效的Go/No-Go阙值(threhold),和结合多方面数据做最后判断非常重要。这里不多讨论。


另一个可能影响决策准确性的因素是历史数据可能互相矛盾,或与试验得到的数据矛盾(可能因为目标人群的不完全一致,当然,也可能因为抽样误差),这也是使用历史数据最常面临的问题。FDA指南“Meta-Analyses of Randomized Controlled Clinical Trials to Evaluate the Safety of Human Drugs or Biological Products” 介绍了如何在荟萃分析中选择合适的历史数据。即便如此,我们不可能有十足的把握证明历史数据和当前试验中得到的数据是同质的(homogeneous)。

为此,在MAP方法的基础上,我们需要提出一种更加稳健的方法,可以解决历史数据冲突问题,和控制历史数据的借用强度。其改动很简单,即在mixture Beta分布的基础上再加入一项无信息分布,例如Beta(1,1)。该无信息分布的权重(w_R) 代表对历史数据的信任程度:

最后,在目前的讨论在中没有给出的情况是:早期小样本试验分析也可能是多次的(甚至在不能做出Go/No-Go决策下我们会需要扩展试验)。所以中期分析计划和计算相应的贝叶斯预测概率Bayesian Predictive Probability)也需要被考虑。事实上,在我们目前工作的基础上,这一点延伸非常容易被包括进来。


模拟与应用

核心模拟设置:

试验设计:单臂设计,仅包括IMP组

真实的客观反应率(ORR): 0.25 (标准治疗假设) , 0.4/0.55 (IMP组最小目标/最大目标);

控制做出错误的Go决策(False Go)的概率为20%:即当IMP相对于SOC没有疗效提高时(原假设下),我们希望只有至多20%的概率做出继续临床研发的决策;

控制做出错误的No-Go决策(False No-Go)的概率为10%:即当IMP相对于SOC有疗效提高时,我们希望至多10%的概率做出停止该药物临床研发的决策;

历史数据:假设有3套关于标准治疗的历史数据,4套与IMP疗效高度相关的历史数据:

比较3种利用历史数据构造先验分布的方法:(1) flat prior(无信息先验,即不参考历史数据)(2) mixture Beta prior(综合历史数据信息做出有信息先验)(3)robust mixture Beta prior(综合历史数据信息做出有信息先验,并通过加入无信息先验和控制权重考虑降低历史数据借用比例)

设计和分析中我们会有如下关键步骤:

1) 设计阶段:样本量选择

肿瘤试验中进行最初步疗效探索的Ph1b或者Ph2a的临床试验的样本量是很有限的(如每组15-50人较常见)。而与此同时,我们也希望有限样本量能提供较为稳健的对数据分布的估计,这可以通过观察在不同的样本量下后验分布的特征。对于三个候选样本量(15/30/45),样本量从15变到30,可看出模拟的后验分布密度曲线有明显收缩趋势,说明方差缩小,从30到45,没有明显变化。因此,模拟中可使用样本量为30。

2)设计阶段:确定Go 和No-Go 的决策阙值(threshold)

在样本量30下,选择go/no-go决策阙值依据准则为预设的做出错误判断的可容忍范围。该范围的选择依具体情况而定。本文使用的准则为false go最大概率为20%,false no-go最大概率为10%。

原假设场景(即试验药物无效,IMP ORR<=20%)用于选择go threshold;备择假设场景用于选择no-go threshold。其中针对不同的目标疗效提高(如目标15%和30%提高),No-Go threshold会不一样。决策界值通过模拟的后验概率选择:

比如上图中,依据最左边一张图,对于不同方法,我们得到的Go阙值分别为0.61 (flat prior),0.72(mixture Beta prior) 和0.67(robust mixture Beta prior)。

 3)分析阶段:做决策

通过比较计算的后验概率和决策界值就可以做出Go,或No-Go,或者当前信息不确定的决策。假设临床上希望看到15%的治疗获益(即IMP组ORR在35%以上),在样本量30的情况下,若治疗组的ORR大于对照组的后验概率超过模拟得到的Go阈值,则认为应当继续试验。相反,若对照组的ORR大于治疗组的后验概率大于No-Go阈值,则结论应当是终止试验。

举例说明,假定在试验分析点,本次试验的试验组(模拟设置为单臂场景)30个患者中观察到12个客观缓解。在这样的数据下,依据flat prior、mixture Beta prior以及robust mixture Beta prior结合历史数据构造的先验分布,计算得到的后验概率分别是0.92、0.93和0.95,模拟得到的Go阈值分别是0.61 (<0.92)、0.72(<0.93)和0.67 (<0.95),所以这三种方法均认为应当继续试验。

R shiny App 开发

为了方便这种方法被公司内部不同的团队使用(甚至包括非统计师也可以使用),我们开发了一个R shiny app。由于还在调试和整合更多关于设计和分析的模块,以及希望通过了解用户意见(比如内部医学部同事意见)调整一些输出图表。我们先通过截图分享部分功能。待全部结束并且合适在外部发表的情况下,我们也希望将这一软件进行下一步推广。

一方面,上节【模拟与应用】分享的截图和步骤全部来自于我们的R shiny app。同时,我们的app还包括的关键功能包括:

读取历史数据,并画出拟合的先验分布:这一步,用户只需导入记录历史数据的excel文件,我们的软件就可以画出拟合历史数据的mixture Beta 先验分布

比较使用不同的历史数据处理方法后,先验、后验以及似然函数之间的关系:对于对历史数据打折的robust MAP, 权重可以手动选取(设计了一个移动条供大家调整)

输入试验数据和做决策:数据的分析结果,包括计算的后验概率和与阙值相比的结果用文字描述。




【作者的话】

大家好,我叫林晓,很幸运能够找到一份学有所用并且能让我发挥所长的一份工作,最最重要的是碰到小凡老板😊😊。还记得面试的时候老板对我说感觉我们是相似的人,当时有种强烈的认同感。这篇文章也要得益于小凡老板的鼓励和督促,否则,也只是一些simulation和code,仅供自己参考。

做为“间歇性自闭症”人群中的一员,我还挺享受“自闭”的感觉。可以一个人静下心来,好好研究研究方法,总结一下最近的工作和生活。求学时期,老师对我最多的评价就是勤奋踏实。我很喜欢这样的评价,因为生命中有太多事情是我们无法掌控的,但自己对待工作和生活的态度是我们自己可以掌控的。一步一步脚踏实地,充实的过好每一天,是我现阶段对自己的要求。

I have a simple philosophy: Fill what's empty. Empty what's full. Scratch where it itches:

________________________

此研究过程中我们的参考文献:

[1] Dallal, S. and Hall, W. Approximating priors by mixtures of natural conjugate priors. Journal of the Royal Statistical Society, 1983,Series B 45, 278–286.

[2] Bernardo, J. M. and Smith, A. F. M. Bayesian Theory. Chichester: Wiley,1994.

[3] Lunn, D. J., Thomas, A., Best, N., and Spiegelhalter, D. WinBUGS—A Bayesian modelling framework: Concepts, structure, and extensibility. Statistics and Computing, 2000, 10, 325–337.

[4] Schmidli H , Bretz F , Racine-Poon A . Bayesian predictive power for interim adaptation in seamless phase II/III trials where the endpoint is survival up to some specified timepoint[J]. Statistics in medicine, 2007, 26(27):4925-4938.

[5] Santis F D . Using Historical Data for Bayesian Sample Size Determination[J]. Journal of the Royal Statistical Society. Series A (Statistics in Society), 2007, 170(1):95-113.

[6] Schmidli H , Gsteiger S , Roychoudhury S , et al. Robust meta-analytic-predictive priors in clinical trials with historical control information[J]. Biometrics, 2014, 70(4):1023-1032.

[7] Ibrahim JG, Chen MH, Lakshminarayanan M, Liu GF, Heyse JF. Bayesian probability of success for clinical trials using historical data. Stat Med. 2014;34(2):249-64.

[8] Friede T , RoVer C , Wandel S , et al. Meta-analysis of two studies in the presence of heterogeneity with applications in rare diseases[J]. Biometrical Journal, 2016.

[9] Friede T , RoVer C , Wandel S , et al. Meta-analysis of few small studies in orphan diseases[J]. Research Synthesis Methods, 2017, 8(1):79-91.

[10] FDA. Meta-Analyses of Randomized Controlled Clinical Trials to Evaluate the Safety of Human Drugs or Biological Products. 2018

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多