【原】医学AI部署探索，“推理效率”将成为下一个角斗场？

动脉网 2021-10-11

展开全文

当我们谈到影像医疗AI时，首先想到的可能是模型的准确率度、敏感度，产品应用范畴或是产品的审批审评状况。但当医疗人工智能陆续通过器审中心审批，开始以商品形式落地于医院时，医生的实际使用体验逐渐成为医疗AI厂商关注的重点。

阻碍医院AI正常调用的环节非常多。PACS系统接口、医院电脑等软硬件的兼容能力、工作站与电子病历数据传输限制等因素，都有可能降低AI在实际使用中的推理速度，甚至出现多AI系统不兼容的问题。

近日，NVIDIA将TensorRT、Triton两个工具用之于医疗AI的部署环节。这位人工智能计算的引领者曾助力大量医疗AI企完成AI模型训练与构建，现又继续向AI落地的下游延伸，尝试解决医院各科室与AI企业之间的部署纠缠。

一方面，新的工具将帮助医疗AI企业把握充分利用GPU硬件资源、充分发挥GPU的算力进行AI推理；高效部署、优化计算资源实用；安全、高效调度GPU等细节，加速院端AI推理过程，提高医疗AI的实际使用体验。

另一方面，在当前以单病种AI为主流的时代下，许多科室通常会向某AI公司采购多种AI，并在诊断时进行多个AI间切换。在这种情况下，NIVIDA能够为AI公司提供一种通用的支持框架，帮助企业在各种环境下部署多个人工智能。

当医疗人工智能进入精细化竞争时代，NVIDIA的新工具或将帮助医疗AI企业重构竞争力。

新一代TensorRT 8入驻医疗，

AI推理效率数倍提升

推理（Inference）意为把深度学习从影像AI训练中学习到的诊断能力应用到实际中去，是医疗人工智能模拟医生进行辅助诊断的关键。

对于医学这样一门严肃的学科，AI诊断的速度与精度必须满足高要求。这意味着，医学AI的模型及推理过程总是非常复杂，以至于我们很难窥探AI推理的过程。

为了使医疗AI的推理变为更易把控，NIVIDA将TensorRT的适用范围拓展至医疗场景。作为一种高性能深度学习推理（Inference）的优化器和运行引擎，TensorRT以TensorFlow框架训练得到的模型作为输入，为CUDA GPU生成优化了的模型运行时间，减少推理的时间来降低应用程序的延迟，减少计算和内存访问，并利用稀疏张量核心提供额外的性能提升。

此外，TensorRT可以将研发人员训练好的模型分解再进行融合，融合后的模型具有高度的集合度。例如，将卷积层和激活层进行融合后，计算速度可获得显著提升。

2021年7月，最新一代TensorRT 8.0版本将上述的优势进行了极致提升。

TensorRT 8.0使用量化感知训练，实现与 FP32 相当的精度和 INT8 精度，相比7.0版本运行速度和精准度都提升了1倍。此外，TensorRT 8.0加速支持大量推理模型，其中基于BERT模型的推理速度提高 2 倍。

由于采用了稀疏性技术，TensorRT 8.0可显著提升 Ampere GPU性能，将 Ampere GPU 的吞吐量提高多达 50%，加速2:4细粒度结构。数据显示，通过消除神经网络中不必要的计算，用户可以获得超过30%的性能增长。

更为高效推理能够解决现阶段部署的众多问题。譬如，由于医疗信息化系统对于医院计算机系统的限制，许多医院的软件系统版本相对滞后，难以支撑医疗人工智能对于软硬件的要求，TensorRT 8.0的介入则能更为充分的运用有限的计算资源，有效降低AI部署成本。

此外，高效推理、低延迟能够优化线上流程的流畅性。无纸化时代，TensorRT 8.0将极大提升医生的AI使用体验。

抽丝剥茧，Triton支持下，

GPU实现极致利用

TensorRT 8.0的入驻优化了医疗AI的推理，但在实际之中，NVIDIA还需解决同一环境下多种类AI部署这一关键问题。

NVIDIA Triton推理服务器是一款开源软件，提供单一标准化推理平台，可支持在多框架模型、CPU 和 GPU 以及不同部署环境（例如数据中心、云、嵌入式设备和虚拟化环境）中运行推理。

对于所有推理模式，Triton都可以简化模型在任一框架中以及任何 GPU或CPU上的运行方式，从而在生产环境中使用 AI。结合 NVIDIA AI部署框架的最新版本NVIDIA TensorRT 8，Triton可以进一步提高神经网络的推理效率，在不损失精度的前提下减少计算和存储成本，实现高效推理。

目前，Triton支持多模型ensemble，以及TensorFlow、PyTorch、ONNX等多种深度学习模型框架，可以很好的支持多模型联合推理的场景，构建起视频、图片、语音、文本整个推理服务过程，大大降低多个模型服务的开发和维护成本。

在金融行业，蚂蚁集团借助NVIDIA Triton 推理服务器，配合T4GPU、DALI的图像预处理能力，将多模型推理性能整体提升2.4倍，延迟降低20%，既满足了业务的低延时需求，成本也降低了50%。这意味着，在多模态业务场景中，蚂蚁集团以更低的成本构建了高性能的推理服务，同时以更低的延迟降低了整条系统链路的响应时间，优化了用户体验。

同样的成功也有可能复制于医疗之中。一方面，Triton支持下，医学AI企业的研究人员可以自由地为他们的项目选择合适的框架，最大化利用GPU，帮助其尽快进行推理型；另一方面，Triton的多环境支持功能及安全保障能够保证医疗AI在任何一家医院顺利部署，帮助部署人员更为轻松地满足不同医院对于不同部署环境的偏好。

解锁TensorRT和Triton

在医疗影像诊断中的应用

为了进一步帮助大家理解TensorRT和Triton在医疗影像诊断中的应用，英伟达将在10月13日14:00-15:20召开网络研讨会《解锁TensorRT和Triton在医疗影像诊断中的应用》，详解医疗中的TensorRT和Triton。

本次网络研讨会邀请到了NVIDIA 高级架构师赵凡博士以及安德医智算法总监刘盼博士，两位嘉宾将在会上分享以下内容：