如何建立AI临床应用指南？

昆仑圃 2019-07-10

展开全文

“

《柳叶刀-数字医疗》（The Lancet Digital Health）第三期已正式上线。主编 Dr. Rupa Sarkar撰写的这篇社论中提到了加快制定AI临床应用指南的必要性，并讨论了该指南制定过程中须注意的问题。Dr. Rupa Sarkar将于7月13-15日到访北京，届时将与更多数字医疗领域的学者交流。

”

过去几个月内，全球监管机构、研究机构和各类组织相继发布了一系列数字医疗相关的指南和白皮书。在人工智能（AI）领域，欧盟（EU）4月发布的指南旨在促进可靠的AI技术在各个领域中的发展，美国食品药品监督管理局（FDA）白皮书则针对不断更替的医疗卫生软件提出了监管框架。英国国家卫生医疗质量标准署（NICE）发布的指南意在规范新的数字医疗手段所需达到的证据水平，NHSX[1]和英国公共卫生部（PublicHealth England）[2] 均表示有意制定自己的AI指南。

医疗实践中的AI应用需要合乎法律、合乎伦理、稳健有效。根据EU指南[3]中对可靠AI的说明，合乎伦理的AI需达到以下七个关键要求：体现人的能动性并受人监督；技术稳健性及安全性；隐私保护及数据管理；透明性；多样性、非歧视性、公正性；有助于社会安康及环境保护；问责制。这其中包括制定多层次的、基于风险的工具有效性评价指南，规避伤害，为构建可解释的、公正无偏的模型提供建议，并确保人类自主权。指南强调，AI应用需通过透明决策来增益人类的行动，不应出现“黑箱”操作。

假设一个AI模型的设计和创造均合乎伦理规范，那么至少还需要哪些证据支持才能将其用于临床呢？这将由、也应由软件的设计功用来决定，英国国家卫生医疗质量标准署（NICE）[4]的数字医疗干预措施应用指南也持有这一观点。一个为高血压易感人群推荐膳食计划的AI项目与一个为重症监护病人提供治疗方案的AI项目，应当满足不同的证据水平。NICE的建议并非专为AI提出，而是针对所有数字医疗干预措施。因此，目前的AI专用指南尚不够详尽，无法根据不同医疗情境判定需要达到的证据水平。在其他领域中，AI算法主要从相同的源数据集中选择数据进行测试和验证。具体来说，开发者将源数据集随机分为训练集和测试集，再通过交叉验证提高AI的可靠性，经过这一过程的AI工具一般已足够可靠，可以用于现实世界中，并有可能在日后获得更多数据时进行学习和改进。但辅助治疗和诊断的算法却非如此，这类模型必需更加稳健，以确保患者安全。对AI算法进行训练时需使用多个独立的验证集，以确保算法的有效性和普适性。算法的验证过程则要求使用从公共数据集中获取的外部数据。

究其本质，人工智能模型是在不断学习中发展的。因此，最后要考虑的问题是：如果某些AI模型已获准在临床使用，如何对其今后势必发生的新变化进行管理？FDA白皮书[5]中有关使用机器学习模型修改软件的相关说明正是为了解决这一问题。虽然尚未形成正式的指南，但发布于白皮书中的监管框架讨论稿中蕴含了不少深远洞见，并指出AI的改变主要可能发生在三个方面：性能、输入和软件的预期功用。如果AI软件的功用改变，应重新审批；而其他方面的修改只需定期审核、备案即可。

指南能够保证不同等级的AI研究需要满足的最低临床证据水平，这对于减少已发表研究的异质性与AI工具自身带来的差异很有必要。本文所讨论的现有指南和仍在开发中的其他指南都需要经常更新，确保它们跟上先进技术的发展步伐。我们期待TRIPOD-ML报告[6]指南的发布，帮助解决已发表的AI研究（例如《柳叶刀-数字医疗》期刊上的相关文章）中出现的各种问题。我们将一如既往地要求对那些用于筛查、治疗、诊断疾病等过程的所有AI研究进行独立验证。数据来源应是多样的，可以最大限度地避免偏倚、保持高质量，从而确保研究结果的准确性。我们相信，证据门槛将随着技术进步而不断提高，以助推医用AI模型走向日益精确的未来。END

参考文献 （上下滑动查看）

[1] For the NHSX policy guidance announcement see

https://www./articles/news/nhsx-create-policy-guide-use-ai-healthcare

[2] For the Public Health England guidance for the use of AI in screening see

https://phescreening./2019/03/14/new-guidance-for-ai-in-screening

[3] For the EU ethics guidelines for trustworthy AI see

https://ec./digital-single-market/en/news/ethics-guidelines-trustworthy-ai

[4] For the NHS code of conduct see

https://www./government/publications/code-of-conduct-for-data-driven-health-and-care-technology/initial-code-of-conduct-for-data-driven-health-and-care-technology

or NICE's guidelines for digital health interventions see

https://www./Media/Default/About/what-we-do/our-programmes/evidence-standards-framework/digital-evidence-standards-framework.pdf

[5] For the FDA whitepaper for modifications to software using machine learning models see

https://www./document?D=FDA-2019-N-1185-0001

[6] For TRIPOD-ML reporting guideline statement see Comment Lancet 2019; 393: 1577–79