TensorRT-LLM

TensorRT-LLM#

TensorRT-LLM (@github,NVIDIA NeMo 框架的一部分)能够在 NVIDIA GPU 上加速并优化最新大型语言模型(LLMs)的推理。