TensorRT-LLM# TensorRT-LLM (@github,NVIDIA NeMo 框架的一部分)能够在 NVIDIA GPU 上加速并优化最新大型语言模型(LLMs)的推理。 TensorRT-LLM 简介 可以用 TensorRT-LLM 做什么? 在 Linux 上安装 TensorRT-LLM 快速入门指南 LLM API