【原】研究显示：人工智能模型需要彻底的临床前测试，以消除安全隐患！

睿谈医养 2022-06-19 发布于广东

展开全文

“ AI虽好但是很有可能导致安全隐患，充分的临床试验是非常有必要的！”

一项发表在《柳叶刀》(TheLancet)杂志上的研究显示，一种用于检测髋关节骨折的人工智能算法的表现优于人类放射科医生，但研究人员在进一步测试后发现了一些错误，这些错误会妨碍该软件的安全使用，因此在效率与安全如何平衡成为了人工智能在医学领域运用的最重要鸿沟。

—

具体细节！

研究人员评估了一种深度学习模型，该模型旨在通过急诊病人的正位X光片发现股骨近端骨折，该模型是根据澳大利亚皇家阿德莱德医院的数据进行训练的。他们将该模型的准确性与同样来自阿德莱德皇家医院的数据集上的5名放射科医生进行了比较，然后利用美国斯坦福大学医学中心的成像结果进行了外部验证研究，最后，他们进行了算法审计，以发现任何不寻常的错误。

在皇家阿德莱德研究中，评估人工智能模型性能的受试者工作特征曲线(AUC)下面积为0.994，而放射科医生的AUC为0.969。使用Stanford数据集，模型性能的AUC为0.980。然而，研究人员发现，如果没有额外的准备，外部验证仍然不能在新的环境中使用。

该研究的作者写道:“尽管人工智能系统(AUC)的鉴别性能似乎在外部验证中得以维持，但在预先指定的操作点(从95.5到75.0)的灵敏度下降，将使系统在新的环境中无法在临床上使用。”“尽管这种转变可以通过选择一个新的操作点来缓解，正如我们在事后分析中发现的类似的敏感性和特异性(特异性的较小下降反映了区别表现的较小下降)，这需要一个本地化过程来确定新环境中的新操作点。”

虽然该模型总体表现良好，但研究也指出，它偶尔会出现非人类错误，或人类放射科医生不会犯的意外错误。作者写道:“尽管该模型在股骨近端骨折检测的任务中表现非常好，但在人们认为简单易懂的情况下，该模型似乎容易犯意想不到的错误。”

—

该文章对整个AI医学应用市场的影响！

研究人员表示，该研究强调了在实施人工智能模型之前进行严格测试的重要性。“该模型在外部验证中表现优于放射科医生的测试并保持了性能，但在进一步测试中显示出一些意想不到的局限性。对人工智能模型进行全面的临床前评估，包括算法审计，即使在高性能的人工智能系统中，也可以发现意想不的、潜在的有害行为，这可以为未来的临床测试和部署决策提供信息。”

许多公司正在使用人工智能分析成像结果。上个月，Aidoc获得了FDA 510(k)的两项许可，用于标记和分类潜在的气胸和脑动脉瘤。该领域的另一家公司quure。在获得美国食品和药物管理局(FDA)批准后不久，该公司的一款工具就获得了4000万美元的融资，该工具可以帮助提供商根据胸部x光片植入呼吸管。尽管支持者认为人工智能可以改善结果并降低成本，但研究表明，用于训练这些模型的许多数据集来自美国和中国，这可能会限制它们在其他国家的用途。偏见也是医疗提供者和研究人员的一大担忧，因为它有可能加剧卫生不平等。