TensorRT-LLM能够支持多种大型语言模型,并在新一代软硬件整合的助力下,可带来8倍AI推论性能。 为了改善这个状况,NVIDIA推出TensorRT-LLM运算框架,它具有高度优化与开源等特性,并支持GPT-3、Llama、Flacon 180B、BLOOM等LLM,以及SmoothQuant、FlashAttention、fMHA等AI核心(AI Kernel)。 NVIDIA 预测金融、医疗、零售、电商、媒体、娱乐、制造、能源等产业都会导入大型语言模型(Large Language Model,LLM)。 大型语言模型的发展相当快速,然而也面临部署更复杂、运算更吃资源等问题。 TensorRT-LLM是款高度优化的开源运算框架。 它支持多种LLM,并可支持多GPU、多节点运算,以及工作排程、文件格式优化。 根据NVIDIA提供的数据,H100 GPU搭配TensorRT-LLM能带来8倍于A100 GPU的GPT-J 6B推论性能表现。至于Llama 2部分,H100 GPU搭配TensorRT-LLM则能带来4.6倍于A100 GPU的推论性能。 |
|