【原】NVIDIA推出TensorRT-LLM运算框架，可带来8倍大型语言模型推论性能

22DIY 2023-09-10 发布于陕西

展开全文

TensorRT-LLM能够支持多种大型语言模型，并在新一代软硬件整合的助力下，可带来8倍AI推论性能。

软硬件双管齐下

NVIDIA预测大型语言模型（Large Language Model，以下简称LLM）的应用将沿伸至各行各业，其技术发展也相当快速，不过随着模型的体量持续扩大，AI模型的部署也变的更加复杂，且需花费更多运算资源进行推论。

为了改善这个状况，NVIDIA推出TensorRT-LLM运算框架，它具有高度优化与开源等特性，并支持GPT-3、Llama、Flacon 180B、BLOOM等LLM，以及SmoothQuant、FlashAttention、fMHA等AI核心（AI Kernel）。

此外TensorRT-LLM也支持多GPU、多节点运算，并导入能够优化工作排程的In-Flight Batching技术，还能通过Transformer引擎自动将模型转换为FP8文件格式，都对性能表现有所帮助。

NVIDIA 预测金融、医疗、零售、电商、媒体、娱乐、制造、能源等产业都会导入大型语言模型（Large Language Model，LLM）。

大型语言模型的发展相当快速，然而也面临部署更复杂、运算更吃资源等问题。

TensorRT-LLM是款高度优化的开源运算框架。

它支持多种LLM，并可支持多GPU、多节点运算，以及工作排程、文件格式优化。

根据NVIDIA提供的数据，H100 GPU搭配TensorRT-LLM能带来8倍于A100 GPU的GPT-J 6B推论性能表现。至于Llama 2部分，H100 GPU搭配TensorRT-LLM则能带来4.6倍于A100 GPU的推论性能。

虽然说上述性能数据所使用的GPU属于不同迭代产品，但看到。H100 GPU搭配TensorRT-LLM与单纯使用H100，也能带来大概1倍的性能提升，可见其软件优化还是能带来不错的性能进步。