分享

医学AI部署探索,“推理效率”将成为下一个角斗场?

 动脉网 2021-10-11

当我们谈到影像医疗AI时,首先想到的可能是模型的准确率度、敏感度,产品应用范畴或是产品的审批审评状况。但当医疗人工智能陆续通过器审中心审批,开始以商品形式落地于医院时,医生的实际使用体验逐渐成为医疗AI厂商关注的重点。

阻碍医院AI正常调用的环节非常多。PACS系统接口、医院电脑等软硬件的兼容能力、工作站与电子病历数据传输限制等因素,都有可能降低AI在实际使用中的推理速度,甚至出现多AI系统不兼容的问题。

近日,NVIDIA将TensorRT、Triton两个工具用之于医疗AI的部署环节。这位人工智能计算的引领者曾助力大量医疗AI企完成AI模型训练与构建,现又继续向AI落地的下游延伸,尝试解决医院各科室与AI企业之间的部署纠缠。

一方面,新的工具将帮助医疗AI企业把握充分利用GPU硬件资源、充分发挥GPU的算力进行AI推理;高效部署、优化计算资源实用;安全、高效调度GPU等细节,加速院端AI推理过程,提高医疗AI的实际使用体验。

另一方面,在当前以单病种AI为主流的时代下,许多科室通常会向某AI公司采购多种AI,并在诊断时进行多个AI间切换。在这种情况下,NIVIDA能够为AI公司提供一种通用的支持框架,帮助企业在各种环境下部署多个人工智能。

当医疗人工智能进入精细化竞争时代,NVIDIA的新工具或将帮助医疗AI企业重构竞争力。

 新一代TensorRT 8入驻医疗,

AI推理效率数倍提升

推理(Inference)意为把深度学习从影像AI训练中学习到的诊断能力应用到实际中去,是医疗人工智能模拟医生进行辅助诊断的关键。

对于医学这样一门严肃的学科,AI诊断的速度与精度必须满足高要求。这意味着,医学AI的模型及推理过程总是非常复杂,以至于我们很难窥探AI推理的过程。

为了使医疗AI的推理变为更易把控,NIVIDA将TensorRT的适用范围拓展至医疗场景。作为一种高性能深度学习推理(Inference)的优化器和运行引擎,TensorRT以TensorFlow框架训练得到的模型作为输入,为CUDA GPU生成优化了的模型运行时间,减少推理的时间来降低应用程序的延迟,减少计算和内存访问,并利用稀疏张量核心提供额外的性能提升。

此外,TensorRT可以将研发人员训练好的模型分解再进行融合,融合后的模型具有高度的集合度。例如,将卷积层和激活层进行融合后,计算速度可获得显著提升。

2021年7月,最新一代TensorRT 8.0版本将上述的优势进行了极致提升。

TensorRT 8.0使用量化感知训练,实现与 FP32 相当的精度和 INT8 精度,相比7.0版本运行速度和精准度都提升了1倍。此外,TensorRT 8.0加速支持大量推理模型,其中基于BERT模型的推理速度提高 2 倍。

由于采用了稀疏性技术,TensorRT 8.0可显著提升 Ampere GPU性能,将 Ampere GPU 的吞吐量提高多达 50%,加速2:4细粒度结构。数据显示,通过消除神经网络中不必要的计算,用户可以获得超过30%的性能增长。

更为高效推理能够解决现阶段部署的众多问题。譬如,由于医疗信息化系统对于医院计算机系统的限制,许多医院的软件系统版本相对滞后,难以支撑医疗人工智能对于软硬件的要求,TensorRT 8.0的介入则能更为充分的运用有限的计算资源,有效降低AI部署成本。

此外,高效推理、低延迟能够优化线上流程的流畅性。无纸化时代,TensorRT 8.0将极大提升医生的AI使用体验。

  抽丝剥茧,Triton支持下,

GPU实现极致利用

TensorRT 8.0的入驻优化了医疗AI的推理,但在实际之中,NVIDIA还需解决同一环境下多种类AI部署这一关键问题。

NVIDIA Triton推理服务器是一款开源软件,提供单一标准化推理平台,可支持在多框架模型、CPU 和 GPU 以及不同部署环境(例如数据中心、云、嵌入式设备和虚拟化环境)中运行推理。

对于所有推理模式,Triton都可以简化模型在任一框架中以及任何 GPU或CPU上的运行方式,从而在生产环境中使用 AI。结合 NVIDIA AI部署框架的最新版本NVIDIA TensorRT 8,Triton可以进一步提高神经网络的推理效率,在不损失精度的前提下减少计算和存储成本,实现高效推理。

目前,Triton支持多模型ensemble,以及TensorFlow、PyTorch、ONNX等多种深度学习模型框架,可以很好的支持多模型联合推理的场景,构建起视频、图片、语音、文本整个推理服务过程,大大降低多个模型服务的开发和维护成本。

在金融行业,蚂蚁集团借助NVIDIA Triton 推理服务器,配合T4GPU、DALI的图像预处理能力,将多模型推理性能整体提升2.4倍,延迟降低20%,既满足了业务的低延时需求,成本也降低了50%。这意味着,在多模态业务场景中,蚂蚁集团以更低的成本构建了高性能的推理服务,同时以更低的延迟降低了整条系统链路的响应时间,优化了用户体验。

同样的成功也有可能复制于医疗之中。一方面,Triton支持下,医学AI企业的研究人员可以自由地为他们的项目选择合适的框架,最大化利用GPU,帮助其尽快进行推理型;另一方面,Triton的多环境支持功能及安全保障能够保证医疗AI在任何一家医院顺利部署,帮助部署人员更为轻松地满足不同医院对于不同部署环境的偏好。

解锁TensorRT和Triton

在医疗影像诊断中的应用

为了进一步帮助大家理解TensorRT和Triton在医疗影像诊断中的应用,英伟达将在10月13日14:00-15:20召开网络研讨会《解锁TensorRT和Triton在医疗影像诊断中的应用》,详解医疗中的TensorRT和Triton。

本次网络研讨会邀请到了NVIDIA 高级架构师赵凡博士以及安德医智算法总监刘盼博士,两位嘉宾将在会上分享以下内容:

  • TensorRT 8最新特性;

  • Triton的应用特性及如何高效使用;

  • 医疗影像 AI 在部署中的常见问题以及使用技巧;

  • 介绍Triton多后端的优势及基于Pytorch/tensorflow后端的推理流程;

  • 讲解3D大尺度模型如何从 GraphDef 转换到 TtensorRT plan的实战案例;

  • 讲解实际真实应用环境下的模型部署和调度。

若您有兴趣参与本次讨论会,请扫描下图二维码参与报名。


想要联系动脉网报道的企业请点击文末左下方“阅读原文”填写表单,我们的工作人员将尽快为您服务。

左右滑动查看更多

声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
动脉网,未来医疗服务平台

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多