人工智能及其患者安全问题

mandy53wiuq5i6 2019-07-18

展开全文

Emerging Safety Issues in Artificial Intelligence

编译自：Robert Challen，AHRQ Patient Safety Network，Perspectives on Safety，July 2019 图片来自网络

【背景】

自电子健康记录问世以来，人们便致力于运用信息技术为临床医生提供更加安全和高效的服务。事实上，人工智能（Artificial intelligence，AI) 决策支持系统在医疗行业中的一些应用也有一段时间了。如今，许多基于规则的人工智能决策支持系统在临床上得以广泛使用，另有一些尚在积极开发之中。最近，人们将人工智能的研究重点放在了机器学习（Machine Learning）更新上，希望通过对过去收集的案例数据进行分析整合从而构建一个机器内部系统模型，最终应用该模型为新病人的推理诊断提供服务。由于该研究重点在近期文献中频频出现，AI几乎成了机器学习更新的代名词。

未来的机器学习系统将基于新病人的数据对进行预判性诊断，并为获取最佳临床结局制定患者管理策略。这类系统既可以定期反复训练，也可以从以往的决策中自主学习。从长远来看，自主决策系统将有望应用于诊断特定的临床问题，但这场演变也将在短期、中长期时间内引发一系列特定的安全问题，这些问题在最近的一篇综述中已被提及。然而，就在近日，美国食品药品监管局（FDA）对提供辅助诊断的机器自主学习更新系统进行了批准，因此，伴随着这些系统而来的安全问题成为了本文将要探讨的重点。

图示：机器学习研究的趋势以及相关的短期、中期和长期安全风险

【新涌现的安全问题】

在传统的临床决策支持系统中，疾病诊断依据主要由专家们提出，且均基于循证原则。而机器学习行为取决于它在训练过程中所获得的数据，当机器学习系统现有数据不能完全匹配患者的疾病现状时，系统的准确性将受到质疑，这种现象称为分布位移（Distributional shift）。原因可能包括训练数据的代表性不强、患者诊断不全面、或者将机器学习系统不适当地应用于不同的患者群体而该群体不在样本内。其他因素还包括不同患者的人口统计学差异、时间变化、疾病各阶段临床差异、定义黄金诊断标准的不一致以及用于扫描患者的机器本身的差异性等。临床医生应该思考这样一个问题：如果没有对整个培训过程进行深入了解，我们如何确信特定的机器自主学习决策支持系统适合特定的患者？

机器学习训练包括优化预测准确性的过程。与临床医生工作量相比，越来越多的研究声称机器诊断行为堪称超人的表现。例如，针对皮肤病分类的机器学习系统的诊断效率已被证实明显优于临床医生在一系列良性和恶性皮肤病中进行的人工测试效率，但同时，该系统相比临床医生而言更容易出现误判。这种情况下，在训练机器学习系统时必须考虑到错误情况下可能造成某些后果的严重性，同时，也必须要考虑到算法的目的，权衡由假阳性和假阴性诊断结果带来的利弊。一些算法，例如Isabel诊断支持系统中包括“不能错误诊断”这一类别，以围绕该轴重新确定诊断建议的优先级。

最近，苹果公司获FDA批准，使用智能手表来检测心房颤动的算法。对此，苹果公司也有相应的担忧：这种算法的广泛使用，特别是在那些使用苹果手表而房颤发生率很低的年轻人群中，可能会出现大量的假阳性房颤诊断而促使其进行不必要的医学检查。近期，苹果公司向美国心脏病学会提交了关于AppleWatch大规模研究的初步结果，基于目前现有数据下结论还为时尚早。但在少量已发生的心房颤动警报案例中，只有34％的使用者通过随访心电图得以证实他确实有房颤的发生。虽然指导GRADE指南发展准则很重要，但在机器学习研究中却很少考虑到：“如果一项测验不能改善患者的重要结果，无论它的准确度多高，都没有使用它的理由。”

在对心电图诊断支持系统的评估中，Tsai及其同事巧妙地证明了临床医生会受到专业系统建议的影响，甚至在其错误的指示下出现“自动化偏差”，这类偏差通常存在于航空业或车辆自动化大背景下。在有关医学和非医学背景下决策支持的综述中，针对减少该项技术的支持性证据是有限的，但更显而易见的问题是，在决策支持系统协助下受过训练的人一旦脱离了该系统的帮助，将不能实现正常工作。这个问题很严重，但并非仅局限于AI或特定的机器学习系统。很难想象在没有超声心动图的情况下能对瓣膜性心脏病进行明确诊断。不出所料，由于高准确度的检测技术越来越容易获取，听诊技巧在临床实践中变得越来越不受重视。

机器学习技术与临床工具（如床旁超声心动图）的应用存在着重要差异。机器学习系统就像人类决策者一样，他们也会不可避免地犯错，也可能像“黑匣子”一样运作而显得神秘莫测，这种情况下，人们不能评估到机器学习系统的决策过程。通常情况下，我们会假定临床医生的角色是解释机器学习系统的建议并在其出现错误时及时采取控制措施。然而，机器学习系统和相关自动化偏差会以一种非常特殊且可能自我实现的方式出现，它们的出现或会妨碍临床技能的发展和改进，而这些临床技能能起到监督作用且是保证安全实施的关键。

无论采用何种技术，最终它都可能形成由相对于AI能力弱的临床医生去监管AI系统的局面，并可能因此对患者造成伤害。这种方式下，医疗保健为其他高风险技术系统（如汽车领域和航空领域的先进自动化）提供了借鉴经验，因为即便是少数但足够引人瞩目的事故将使公众对自动化的智慧产生质疑。如果说，临床医生需要在这场设想中承担什么责任，我们认为，这样的机器并不能很好地适应医疗设备的现存定义，而需要在类似于人类决策者的监管框架内运作，无论是在合适的资历、预期的实践标准、绩效审查以及为自身错误而承担责任等各个方面。在这种情况下，AI系统需要像临床医生一样，保证不会出现差错。这将需要一个公司勇敢地站出来向世人展示他对人工智能系统的支持和信任。

【结论】

这篇文章探讨了在医学上采用机器学习系统（或称人工智能技术）可能产生的各种实际和哲学问题。但是，这些问题的严重性主要取决于AI系统在医疗领域的应用程度。败血症预测算法的实验正在进行中，其益处明确且可以在重要的结果中表达出来，并且数据的算法监测与从整体中识别患者身份的临床技能相互补充。临床医生和机器学习研究人员需要专注于寻找“简单易懂”的应用程序，以确保机器学习技术和计算机卓越的数据处理能力能安全的运用于临床。在我们看来，关键是要正确理解诊断测试在临床环境中的作用。

关于机器学习在实验室的成果表现的研究报告（由Topol及其同事总结）让临床医生们对其作用效果产生了质疑，他们怀疑这样的目标在现实环境中无法实现。一些研究集中于将机器学习系统与临床医生决策相结合，并将最终决策与无机器学习系统辅助的临床医生诊断结果进行比较，研究通过机器学习系统来提高医生疾病诊断准确性的方法。机器学习系统与临床医生的合作过程使其发展前景一片光明，并挖掘了机器自主学习作为教学和决策支持工具的巨大潜力。有机器自主学习系统辅助的医生和没有辅助的医生之间的对比，应当作为机器自主学习实验标准化设计的一部分。

【作者】

Robert Challen, MA, MBBS
EPSRC Centre for Predictive Modelling in Healthcare and Department of Mathematics, Living Systems Institute，University of Exeter，Exeter, Devon, UK
Taunton and Somerset NHS Foundation Trust，Taunton, Somerset, UK