分享

NVIDIA推出TensorRT-LLM运算框架,可带来8倍大型语言模型推论性能

 22DIY 2023-09-10 发布于陕西

TensorRT-LLM能够支持多种大型语言模型,并在新一代软硬件整合的助力下,可带来8倍AI推论性能。

软硬件双管齐下

NVIDIA预测大型语言模型(Large Language Model,以下简称LLM)的应用将沿伸至各行各业,其技术发展也相当快速,不过随着模型的体量持续扩大,AI模型的部署也变的更加复杂,且需花费更多运算资源进行推论。

为了改善这个状况,NVIDIA推出TensorRT-LLM运算框架,它具有高度优化与开源等特性,并支持GPT-3、Llama、Flacon 180B、BLOOM等LLM,以及SmoothQuant、FlashAttention、fMHA等AI核心(AI Kernel)。

此外TensorRT-LLM也支持多GPU、多节点运算,并导入能够优化工作排程的In-Flight Batching技术,还能通过Transformer引擎自动将模型转换为FP8文件格式,都对性能表现有所帮助。

NVIDIA 预测金融、医疗、零售、电商、媒体、娱乐、制造、能源等产业都会导入大型语言模型(Large Language Model,LLM)。

大型语言模型的发展相当快速,然而也面临部署更复杂、运算更吃资源等问题。

TensorRT-LLM是款高度优化的开源运算框架。

它支持多种LLM,并可支持多GPU、多节点运算,以及工作排程、文件格式优化。

根据NVIDIA提供的数据,H100 GPU搭配TensorRT-LLM能带来8倍于A100 GPU的GPT-J 6B推论性能表现。至于Llama 2部分,H100 GPU搭配TensorRT-LLM则能带来4.6倍于A100 GPU的推论性能。

虽然说上述性能数据所使用的GPU属于不同迭代产品,但看到。H100 GPU搭配TensorRT-LLM与单纯使用H100,也能带来大概1倍的性能提升,可见其软件优化还是能带来不错的性能进步。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多