第十二章 TensorRT 使用
第十二章简介
本章介绍模型部署的实用工具——TensorRT。
TensorRT是Nvidia公司针对N卡推出的高性能深度学习推理框架,TRT采用c++编写底层库,并提供c++/python应用接口,实现了高吞吐、低时延的优点。TRT 应用量化、图优化、层融合等优化技术,同时利用高度优化的内核找到该模型的最快实现。
TRT涉及的内容非常多,本章将从基础概念与安装开始介绍,然后通过一个Resnet的推理来了解TRT的工作流程,接着介绍TRT实用工具集trtexec、Night system, polygraph,接着介绍基于API的模型搭建方法,最后介绍基于TRT的量化方法及理论原理,还包括PTQ和QAT的实现,最后通过YOLOv5的TRT推理部署来熟悉工程化时,python代码的编写。