【原】Nat. Biotechnol. | 区分和预测药物专利

DrugAI 2023-08-13 发布于韩国

展开全文

今天为大家介绍的是来自Colleen V. Chien的一篇关于医药专利的论文。药物专利是有差异的。为了在专利授予前提高其质量，监管机构可以使用预测模型。

药物专利为开发拯救生命的药物提供了关键的激励，但如果授予不当，它们可能导致竞争延迟和限制获取。尽管专利的最长有效期为20年，药企经常通过申请涵盖替代配方、剂量、用途和药物组合的“次要”或后续专利来获得更长的保护期。此外，药企还可以申请“续展”专利以增加专利保护的密度。立法者对弱次要专利对涵盖某种药物的“专利森林”所造成的影响日益关注，每个专利都对仿制竞争构成阻碍。

针对这些担忧，美国专利商标局（USPTO）已就如何在药物专利授予前增加专利质量征求意见。由于在授予后无效化低质量的药物专利可能需要数百万美元的成本，因此在专利授予前对药物专利质量进行投资是具有吸引力的。然而，管理授予前的专利质量措施的任务受到药物专利的稀缺性的影响。根据法律规定，只有特定的专利可以列入美国食品药品监督管理局（FDA）的“橙皮书”。事实上，所有专利中少于0.12%是药物专利，而在与制药相关的技术中，药物专利的比例不到3.8%，因此确定在众多申请中哪些将成为“药物专利”（我们定义为列在橙皮书中批准药物上的专利）成为了大海捞针的难题。

在这里，作者提供了一个可能的解决方案，通过介绍药物专利的特征和预测哪些专利申请和专利有可能成为药物专利的模型。为了开发这些模型，作者对2005年至2015年的药物专利以及一个对照组应用了摘要统计和基于机器学习的方法。前往橙皮书的专利申请在许多方面与类似的专利申请有所不同：它们更有可能在橙皮书中有相关的先前专利（增加了20倍），成为“Track One加速”项目的对象（增加了14倍），具有大量相关专利和申请（增加了2到7倍），并包含“终端放弃声明”（增加了7倍）。

作者还发现，根据公开可见的特征可以预测申请和专利最终是否会被列入橙皮书。基于专利特征开发的预测模型得分良好至优秀，根据发表和授予时可用的特征信息预测药物专利状态的曲线下面积（AUC）得分在0.85到0.92之间。作者的结果确认了药物专利和专利申请与其他专利的不同，并表明机器学习方法可以用于帮助识别适合受到美国专利商标局关注的可能药物专利。结果对于仿制竞争也具有意义，因为在橙皮书上正式列出专利之前，他们可以从更透明地了解品牌药物的保护范围中受益。

方法

作者收集了2005年至2015年间美国食品药品监督管理局（FDA）批准的药物专利数据，以及同一技术领域的对照专利数据，以及它们相关的专利申请数据。数据来源包括：(i) 美国专利商标局（USPTO）的专利视图数据库，用于专利的文献数据；(ii) Google Patents，用于国内和国际专利家族数据；(iii) USPTO的专利审查研究数据集，用于专利申请和审查变量；(iv) 2022年2月版的橙皮书；(v) 美国国家经济研究局（NBER）的橙皮书专利独占数据。通过结合当前版本和NBER的橙皮书，作者能够对不仅出现在当前橙皮书中的专利进行建模，还可以对之前版本中的专利进行建模。

样本构建过程首先确定了由USPTO审查部门（称为“艺术组”）授予的所有专利，这些部门在样本期间至少授予了100个橙皮书专利。为了排除属于这些艺术组的相关非药物技术专利，作者进一步将样本限制在两个子分类中，这两个子分类共包含了橙皮书中85％的专利。最终，样本包括50,541个专利，其中2,235个最终列入了橙皮书，被视为作者的“受治疗”组；其余的构成了我们的“对照”组。

对于每个专利和相关的专利申请，作者收集了反映专利文件、审查过程、家族、引用、当事人和所有权方面的特征数据（表1），为每个专利申请和专利子组生成了摘要统计数据，并计算了t统计量和标准化均差（SMD）。为了更好地理解药物专利的独特之处，作者不仅将其与对照组进行比较，还将其与样本期间授予的所有专利进行比较。为了考虑到专利申请生命周期中信息的逐渐可用性增加的情况，作者区分了在专利申请公开出版时（通常在提交后18个月）和专利授予时公开的特征。预测模型的价值部分取决于它能在相关信息变得已知之前多早地揭示相关信息。为了估计时间差异，作者计算了专利申请日期和授予日期之间的滞后期，并与《Evergreen Drug Patent Database》提供的《橙皮书》列出日期进行对比，该数据库汇编了连续版本的《橙皮书》的数据。

表 1

首先，美国专利商标局正在考虑对继续申请专利进行更严格的审查，这种申请允许申请人针对早期专利中披露的发明的变种提交申请。作为一种代理指标，作者计算了在至少拥有一个药物专利的家族在提交和授予时的国内和国际成员数量。其次，该机构表示将重新审视终端放弃声明来克服“明显类型的双重专利拒绝”，这允许专利权人为“创新的明显变体”获得专利，而该创新已经由其自己的其他专利覆盖。因此，作者通过编码来跟踪这种实践的普遍性，以确定专利是否包含“终端放弃声明”。在以前预测重要专利的尝试的基础上，我们采用了随机森林机器学习模型来预测任何给定专利是否会被列入《橙皮书》。随机森林是一组独立的决策树，对于任何专利，它们会对该专利最终是否会列入《橙皮书》进行投票。每个独立的决策树首先根据变量（例如，审查时间、终端放弃声明等）构建一个树，并且对于树中的每个分支，确定能够在训练数据中区分药物专利和对照专利的最佳分割点。作者选择了这种方法而不是回归模型，因为随机森林在预测方面更为优秀，特别是在建模复杂系统（如专利系统）时。

为了反映数据可用性的时间变化，作者训练了一个模型，仅使用美国专利商标局在申请提交时可用的数据以及在公开发表时（通常是18个月后）对公众可用的数据。然后，训练了一个第二个模型，使用在专利授予时可用的数据。主要和次要药物专利具有不同的特征，并且在申请时可以获取到关于它们的信息。特别是，一些次要专利已经有家族成员列入《橙皮书》，这一特征可能对结果产生不成比例的影响。因此，作为一个鲁棒性检验，作者还产生了额外的模型，其中第一个模型仅包括主要专利（家族中的第一个专利），第二个模型仅包括次要专利（家族中的后续专利）。作则会使用了标准方法来评估模型的成功程度：（i）接收者操作特性曲线（ROC）及其关联的曲线下面积（AUC）统计数据和（ii）混淆矩阵。ROC曲线通过在给定的假阳性率下绘制真阳性率的图形来直观地展示分类模型的性能，AUC则测量了ROC曲线下的二维面积。混淆矩阵进一步说明了模型在给定阈值的情况下对于将专利列入《橙皮书》的预测效果。

实验结果

图 1

作者首先分析了药物专利及其申请与对照组专利之间的差异（图1a）。其中最显著的差异包括在橙皮书中具有相关先前专利的可能性要高出20倍，受到“Track One”加速审查的可能性要高出14倍。与平均专利相比，药物专利还涉及更多的相关专利和申请（2至7倍），更有可能包含“终止免责声明”（7倍）和非专利文献引用（包括申请人提交的文献，13倍）。在所有专利中，只有4.7%包含终止免责声明，而药物专利中有34.7%包含该声明；而在已经获得先前家族成员的药物专利中，有58%包含终止免责声明。就其他特征而言，药物专利在平均水平上与对照组专利没有统计学上的差异。药物专利和对照组专利的差异在后续列入橙皮书的专利中更加明显，在首次列入橙皮书的药物专利中则较为平缓。橙皮书中的每种药物平均与5.4项专利和2.7个专利家族相关联。然而，在研究的药物中存在着很大的差异：50%的药物只涉及三项或更少的专利，而少于2%的药物涉及超过20项专利。提交申请和橙皮书列入之间的平均滞后时间为7.9年（标准差为5.3）。

图 2

作者的模型在预测药物专利方面表现出较高的准确性，如图2a所示的ROC曲线所示。作者的模型在总体上具有95%的准确率，48%的精确度和45%的召回率。如图2b中的混淆矩阵所示，具体来说，93.3%的出版物被正确预测为不被列入橙皮书，2.0%的专利被正确识别为被列入橙皮书，误报率为2.4%，漏报率为2.2%。在授予时，这些数字进一步提升为2.4%的真阳性，1.3%的误报率，94.3%的真阴性和2.0%的漏报率，转化为97%的准确率，65%的精确度和55%的召回率。图1b显示了预测模型使用的特征的重要性排名。对于一个专利申请是否最终成为药物专利，最具预测性的特征包括技术组、说明书长度以及申请专利的发明人、受让人和律师的经验水平。还可以注意到，尽管技术组被用作样本选择标准，但它仍然对橙皮书列出具有很高的预测能力。这种预测能力反映了一个事实，即尽管样本中的所有专利都在授予大量药物专利的技术组进行了审查，但在这些技术组中列入橙皮书的专利的百分比是不同的。

最后，作者证实了一个直觉，即在授予专利时，专利家族中先前的药物专利数量是预测其未来进入橙皮书的最强预测因素。稳健性检验表明，这一信息可以在申请阶段有效地用于预测二次专利：当仅包括二次专利时，准确率达到99%，基于申请特征的精确度和召回率分别为70%和54%。当模型仅包括初级专利时，准确率为97%，基于申请特征的精确度和召回率分别为24%和29%。作者的研究在几个重要方面存在一些限制，其普适性有限。作者的研究重点是药物专利，这意味着排除了某些被禁止在FDA橙皮书中列出的小分子药物专利，以及涵盖生物制药药物的专利，而后者越来越重要。此外，正如下文所述，覆盖某种药物的专利数量差异很大，但模型中没有对这种差异进行控制，这可能导致模型的预测能力也因药物专利组合的规模而变化。橙皮书在每一版中都在不断演变，作者决定在训练模型时使用曾经出现在橙皮书中的任何专利，这可能使模型对某个时间点出现的专利过于包容。

结论

作者发现药物专利申请与对照申请有所不同，并且它们的特征可以用来以一种不完美但相对有预测能力的程度来预测最终专利是否会被列入橙皮书。作者的研究结果提供了第一个“概念验证”的证据，表明在专利申请（由专利审查员）、出版和授权（由公众）阶段可以观察到的特征对于预测专利最终是否会成为药物专利是有用的。

研究结果对于希望在授予专利前改善药物专利的质量，并且以一种有针对性的方式而不会过度增加所有专利的审查负担的政策制定者可能会感兴趣。目前，由于通常情况下专利直到几年后才被确定为涵盖药物，因此进行此类定位是困难的。作者的描述性和预测性研究结果可以帮助监管机构决定哪些申请可能值得更多审查或更多关注，以及如何规范专利审查实践以避免低质量专利但不妨碍创新。这也可以帮助决策者决定如何监管专利审查实践，以阻止低质量专利的产生，同时不影响创新。

参考资料

Chien, C.V., Halkowski, N. & Kuhn, J. Distinguishing and predicting drug patents. Nat Biotechnol 41, 317–321 (2023).

https:///10.1038/s41587-023-01703-0