【原】AI助力新药研发，暗数据与自动化齐飞

新康界pro 2020-06-01

展开全文

从研发到商业，人工智能(artificial intelligence, AI)正在改变整个生命科学行业，从研发到商业。根据Mordor Intelligence的报告《生命科学市场中的人工智能-增长、趋势及预测(2019-2024)》(Artificial Intelligence in LifeSciences Market – Growth, Trends, and Forecast(2019-2024))，2019年生命科学相关的AI市场估值约9亿美元，预计2019-2024年该市场规模年复合增长率超21%。根据全球IT行业著名咨询公司Gartner(高德纳)，人工智能技术的各种重要元素在技术成熟度曲线(hype cycle)中达到了顶峰(图表1)。然而与其他行业相比而言，生命科学中AI的应用并不多。在这个大背景下， AI在监管环境中的应用，如在研发价值链中的应用，也因为一些因素而远远落后于生命科学的其他领域。

图表1. 2019年Gartner人工智能技术成熟度曲线

来源：Gartner官网，中康产业资本研究中心

本篇讨论范围限于制药公司的临床、安全和监管职能，这些职能涉及典型大型药企的研发(R&D)和医学事务(medical affairs)组织。我们探寻这些领域的新兴应用案例，以及可能影响它们的AI技术类型。近年来药物相关数据激增，如真实世界数据(real-world data,RWD)在整个药物研发链中的广泛应用、药物上市后安全事件的数量增多等，数据显著和实质性的增长使AI能够对这些领域进行评估。然而，AI和机器学习(machine learning, ML)的能力在很大程度上被误解了。由于AI/ML具有较高的媒体曝光度，人民大众对它们有非常高的期望，这不可避免地会导致失望。这削弱了在执行层面对AI的信任。

AI在研发中的应用场景

Gartner将“暗数据(Dark Data)”定义为组织在常规业务活动期间收集、处理和存储的信息资产，但通常不能用于其他目的，如分析、业务关系和直接变现。这一概念与物理学中的“暗物质”类似，暗数据通常包括大多数组织的信息资产，组织通常只为了合规目的而保留暗数据。存储和保护暗数据通常引起比价值更多的花费及更高的风险。

现在的制药公司分析并探寻来自于合法收集和分析的数据的推论。尽管研发领域的数据在迅速增长，但是药企仍无法充分利用所有这些数据进行有效决策。当前的需求是抓住数据增长的机会，通过从这些“暗数据”中获得洞察来产生价值，这些暗数据包括真实世界数据、二次研究数据、患者交互数据、监管申请提交等。根据IDC(International Data Corporation，国际数据公司)的报告，从2018至2025年，全球医疗数据将具有36%的年复合增长率。因此，探索这些数据并从中获得洞察是应用人工智能的重要机会，下面介绍部分具体应用场景。

缩短药品审批周期

在新药申请/市场许可申请(NDA/MAA)审批过程中，经常有来自药品监管机构的问询，如资料补充、数据质疑等，导致药监与药企的来回沟通。这构成了药品审批周期中的重要部分。通过分析过往的问询，可以找出规律来预测和预防出现类似的问询，从而整体上缩短药品审批周期。这是药企通过利用现有AI技术，在短期内可以实现的合理目标。

从患者声音数据获得洞察

药企在药品上市前的临床开发阶段需要收集受试者反馈信息，在药品上市后仍需要与患者互动，以收集医学信息，进行药物警戒(PV)。自然语言处理(natural language processing,NLP)和自然语言生成(natural language generation, NLG)技术现在已经准备好用于基于语音的数据，自动将它们转换为文本，并发掘它们以获得不同维度的分析。这些分析比第三方对产品体验的分析或社交媒体数据挖掘要更加全面，可帮助产品上市、产品定位、标签拓展，以及监管和营销策略。

获得可操作且有洞察力的监管情报

对于药企内部负责监管事务(regulatory affairs, RA)和处理药监问询的单位，他们希望以高准确性和高合规水平加速审批，先进技术可以提供一个智能监管情报平台，具有诸如药物监管历史监控、临床试验分析、药监问询评估、竞争对手药物概况等功能特点。该平台将利用细致的人工智能/机器学习(AI/ML)算法访问来自所有相关公开和内部信息源的信息，从数据挖掘中获得洞察，并且自动生成报告和可视化文件。在目前主要依靠人力工作的流程中，AI辅助的解决方案将极大地减少(90%以上)收集和评估用于制定战略监管决策的信息的时间，并使申请资料的质量和合规水平达到近乎完美的程度。

提交途径优化和预测

一款药品的批准途径可能是复杂的，例如欧盟有3种规定的程序来获得药品批准，分别为互认程序、分散程序和集中程序。对于大型制药公司来说，药监事务的复杂性成倍地增长，这主要是因为新药项目多，提交的申请数量较多，而拓展新适应症或因安全问题更新标签等则进一步增加了复杂性。其次还存在其他一些问题，比如为每项申请确定最优的审批路径，将每项申请所需的申请资料准确地打包在一起，等等。此外，如果在多地进行申报，不同的药监机构对于同一申请的答复也不尽相同。因此，为制定最优提交计划来加快药品获批，须涉及相当多的规划。当决定提交途径时，即使通常有许多过去提交的历史数据，药企也只能做出定性判断。在这种情况下，可以使用历史数据训练机器来优化提交路径、规划并预测审批的时间线，这是AI对药企有较高影响的另一用例。

探索疾病特征与患者特征

药企越来越多地开始使用外部数据源，如真实世界数据，来了解疾病特征、患者特征等，并且利用这些数据更好地服务于研发。识别正确的疾病特征以更好地理解患者群体是基础，并且有广泛的应用。用途之一是患者招募，这可能是临床试验最大的瓶颈之一。对于创新药，研发人员需要了解人群并识别其中最适合在研药物的患者群。虽然世界数据(RWD)是解决这些用例的核心，但使用聚类(clustering)的AI技术可以帮助研发者更清楚地了解真实世界的患者群是怎样的，什么共病可能与这个群体相关，如何在真实世界为该群体进行诊断等。

AI实现药物研发自动化

研发作为成本核心，始终处在压力之下，要用更少的钱做更多的事情，这使得合理的自动化成为有吸引力的选项。AI与其他技术结合，可以在降低运营成本方面发挥重要作用。除了节省成本，自动化还能带来其他好处，减少总体研发时间是一个明显的好处。自动化不仅节省了成本，而且改善了合规性，便于操作规模的扩展。例如，在药物警戒案例处理中，如果一项在第15天到期的案例在第13天时到达，除非周转时间能显著改善，否则将无法处理。业务规模扩大是通过自动化实现的，特别是在受管制的地区，需要足够的准备时间来识别合格的资源并对其培训。

图表2. AI技术与新药研发的一些结合点

来源：公开信息，中康产业资本研究中心

自动化可以通过多种方式实现，本篇我们主要关注通过AI实现的自动化。在涉及决策制定和主观性的领域，人工智能是实现自动化所必需的。在药物研发领域中有好几个领域以过程为导向，但其中嵌入了人工决策，这使得这些领域没有AI就不能实现自动化。

临床试验分析

临床试验中的数据需要很长时间才能被清理、处理和汇编，这需要大量的劳动。这项活动是很好的自动化候选项目。从创建和使用全局库来设计病例记录表(case record form, CRF)到对收集的数据生成数据查询(DQ)，在临床试验的执行阶段花费了大量人力。类似的，在最后一位患者最后一次访问后，公司需要花费大量时间将数据转换为分析数据模型(ADAM)数据集，分析数据，识别结果和问题，生成表列表图(TLF)。这个过程可以通过使用机器来执行智能的CRF设计，提出智能的数据查询，并对收集的中期试验数据进行预测分析，以提供机会在做出有效的项目组合决策，同时自动化手动操作。

药物警戒/投诉处理中的智能案例处理

安全自动化可以说是当今研发领域最受欢迎的用例，有几家公司已经开始应用，或正在积极评估该领域。投诉处理是一个类似的用例，尽管投诉处理过程的多变使它变得有些困难。质量和药物警戒方面的大部分预算都花在了这些活动上，使得该领域成为自动化的理想候选。

图表3. 科文斯的药物警戒自动化工具与路线图

来源：Covance(科文斯)官网，中康产业资本研究中心

自动创立eCTD(电子通用技术文档)文件和标签

医药内容构成了制药价值链若干方面的关键。通常，内容只生产一次，并在制药价值链中重复使用。例如，企业社会责任(CSR)的内容在整个提交文档中使用，或者一份公司核心数据表(CCDS)的更新导致多个下游标签的更新。CCDS是药物上市许可持有人(MAH)准备的一份文件，除药物安全性信息外，还包括与适应证、剂量、药理学有关的材料和与产品有关的其他信息。

许多医学编辑的时间和精力都花在寻找正确的文档、阅读和整理信息，以及将内容安排到正确的模板中。随着NLP(自然语言处理)和NLG(自然语言生成)技术的发展，人们能够让机器搜索正确的内容、跟踪更新、读取内容和整理相关组件来自动创建这些文档。

文献检索

这是一项费时费力的活动，人们已经多次尝试自动获取和监测涵盖医疗事务、监管事务、安全、临床研究的文献文章，但是这些尝试比较零碎且迥然不同。因此，整个文献检索领域是智能自动化的一个很好的候选领域，它将利用现有的技术，通过将文献合理的聚类来创建一个一站式、端到端的解决方案。该解决方案依靠实现单词向量匹配的机器学习算法、基于搜索策略中的趋势和模式的监督/无监督学习、AI/NLP的支持，通过逐字文本或上下文匹配进行高级搜索，以获得最佳结果。

AI技术分类

以上讨论的应用场景，涉及的AI技术主要包括三个主要领域，分别为自然语言处理(NLP)、分类算法(classification algorithms)和聚类算法(clusteringalgorithms)。

自然语言处理(NLP)

自然语言处理是处理自由格式文本、提供结构化信息的技术。获取结构化数据并生成人类可读的自由文本的相反过程称为自然语言生成(NLG)。核心在于，现代的NLP系统将文档中的单词转换成可计算的数字向量表示形式。这些向量包括单词和单词的上下文。这些系统经过大量文件的训练。当前，最先进的NLP正在被越来越多地使用处理大型文档集合和创建数字向量的复杂机制的算法所推动。NLP技术正在跨多种语言和特定领域的本体和分类法进行培训，提供了强大的部署自动化的方法，以增强文档创作过程中的信息检索和获取。在医疗和监管领域，NLP能够用正确的文本写出临床术语，并且具有很高的准确性。

图表4. NLP将自然语言转化为数字向量