分享

软件作为医疗器械(SaMD)该如何进行临床评估?(中)

 睿谈医养 2023-03-06 发布于广东

 人工智能是SaMD临床评估绕不过的坎!

    上一篇文章我们已经对SaMD的临床评估过程的整体背景,具体原则以及如何进行进行了大致的梳理,问题的关键在于SaMD所拥有的光明前途同时与不可知风险的一致性,医疗器械企业应该在这一创新的过程中同时具有胆大心细的特质。

01

SaMD中关于人工智能的考虑

        依赖于人工智能(AI)或更具体地说,机器学习(ML)的设备具有独特的特征,为制造商和监管机构带来了一系列新问题,包括系统行为对新输入的不可预测性,以及在某些情况下,通过持续学习来改变系统性能同样不可预测。与其他医疗软件一样,基于AI/ MLSaMD也需要充分的临床证据。然而,机器学习模型通常很复杂,就像一个黑盒,这使得它们难以解释和解释这影响了根据现行指南证明医疗器械安全性和有效性的能力。

        首先,尽管理解AI/ML驱动的输出所涉及的逻辑对于建立模型的信任很重要,但考虑到机器学习的复杂性质,并不总是能够确定输出在多大程度上符合已被证明的科学知识。文献中提出了评估输入特征与预测输出的临床相关性,与已建立的诊断标准一致,以支持基于AI/ ML的设备的科学有效性,并提供关于软件逻辑的一般信息在某些情况下,一篇同行评议的文章可能会提供必要的证据,例如,解释某些成像特征和肿瘤分类之间的联系。然而,在复杂模式识别的情况下,或者在特征之间复杂的相互作用影响个体预测的情况下,确定临床因素或特征的相对重要性是不可能的,就像在人工神经网络中的情况一样。最终,对于许多新的基于AI/ ML的设备来说,隐含学习的科学知识的有效性只能从算法的性能指标和以前未见过的测试数据中推断出来。虽然在IMDRF临床评估指南中,科学有效性/有效临床关联的证据既不是强制性的,也不是FDA在关于基于AI/ MLSaMD拟议监管框架的讨论文件中所要求的,但根据欧盟体外诊断医疗器械法规(EU IVDR) SaMD必须证明其作为体外诊断(IVD)医疗器械的科学有效性

        像任何其他医疗软件一样,基于AI/MLSaMD需要在临床评估的背景下证明可靠和准确的性能。然而,AI/ML系统的特性使得它们难以使用传统的验证方法进行测试。对复杂AI软件的验证可能不可避免地局限于测试用户和模型之间的接口组件。考虑到AI/ML在医疗保健领域的广泛应用、技术的多样性以及数据和人类参与的程度,任何给定的基于AI/MLSaMD的需求在很大程度上取决于上下文无论哪种方式,制造商都应该定义一种验证方法来检测异常,消除错误,并在系统中建立信心

        验证,理解为通过检查和提供客观证据来确认所设计的系统符合用户需求和预期用途,通过使用独立的参考标准来衡量人工智能系统的性能。参考标准可以来自许多来源,包括一个明确的事实,该领域专家的共识,或临床医生做出的临床决定。此外,AI算法的验证需要制造商特别注意许多其他因素,例如验证机器学习数据或对训练和测试数据实施适当的控制,以避免数据集中的偏差临床效用评估或用户研究可能是验证的必要部分,以揭示何时需要解释人工智能的决定或使其可追溯,从而通过将人类判断引入循环中来最大限度地降低风险。

02


SaMD中关于人工智能的考虑

        基于AI/ML的应用程序具有临床意义的性能意味着实现人类或超人的能力,并与临床目标(真阳性和假阴性的适当比率)一致。观察队列研究最适合评估机器学习算法的初始可行性,因为需要开发和验证它们的有效性尽管如此,虽然验证研究通常以回顾性的方式进行,但算法在临床环境中的性能可能低于其回顾性性能。在其中实现模型的新设置可能不同于在其中导出或验证模型的设置。在医疗服务和患者群体方面,当地的做法可能有所不同。如果这些差异很大,预测模型可能产生不准确的风险预测,导致不正确的决策,从而影响患者在新环境中的结果使用外部测试数据来证明模型性能在其预期用途中充分泛化,经常被建议支持临床有效性。然而这只有在测试数据和训练模型使用公共数据表示时才有可能。在医学影响中,使用广泛使用的DICOM格式更容易实现;然而,在其他场景中,证明通用性变得更加困难,例如,在语义互操作性也需要的情况下,例如使用相同编码系统的电子健康记录(EHR)。此外,对泛化性的狭隘关注可能会以模型在特定临床环境中的临床效用为代价,影响干预对患者的相关性和有用性。优化临床表现可能需要在常规使用前使用新设置的个体患者数据重新校准模型,特别是在日常实践中使用前需要进行外部验证的数量没有明确的指导方针。

        值得注意的是,只有ML模型的可行性和性能可以在回顾性数据集上进行测试,而不能在其潜在的实际意义上进行测试。准确性指标并不涉及模型的临床价值,因为模型可以准确预测风险升高,例如,术后并发症,而不提供任何降低风险的机会。对可采用性和临床效用的有限看法可能导致在器械设计及其与用户交互的上市前评估中风险表现不足或过度。上市后临床随访是确保充分表征设备的真实临床使用的一个特别关键的步骤。通过记录、评估和将临床使用数据集成到软件算法中,上市后临床数据(使用逐步批准阶段)集成到IMDRF倡导的整个产品生命周期方法中。

        如果该模型能够不断地再培训以提高性能,这也会给制造商和监管机构带来了另一系列问题。这种动态变化不太适合目前医疗器械的变更控制流程。持续学习系统需要持续监控,以确保系统在预先指定的操作参数内运行,并执行持续的安全审查和持续的收益-风险分析,将模型的性能与人类对应的性能进行比较(如果相关),因为两者都随时间变化,对用户和监管机构具有足够的透明度。

        未完待续!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多