YOLOv5模型部署TensorRT之 FP32、FP16、INT8推理

您所在的位置：网站首页 › int8和fp16 › YOLOv5模型部署TensorRT之 FP32、FP16、INT8推理

YOLOv5模型部署TensorRT之 FP32、FP16、INT8推理

2023-04-09 01:53| 来源: 网络整理| 查看: 265

点击上方蓝字关注我们

微信公众号：OpenCV学堂关注获取更多计算机视觉与深度学习知识

引言

YOLOv5最新版本的6.x已经支持直接导出engine文件并部署到TensorRT上了。

FP32推理TensorRT演示

可能很多人不知道YOLOv5新版本6.x中已经支持一键导出Tensor支持engine文件，而且只需要一条命令行就可以完成：演示如下：

python export.py --weights yolov5s.pt --include onnx engine --device 0

其中onnx表示导出onnx格式的模型文件，支持部署到：

- OpenCV DNN- OpenVINO- TensorRT- ONNXRUNTIME

但是在TensorRT上推理想要速度快，必须转换为它自己的engine格式文件，参数engine就是这个作用。上面的命令行执行完成之后，就会得到onnx格式模型文件与engine格式模型文件。--device 0参数表示GPU 0，因为我只有一张卡！上述导出的FP32的engine文件。

使用tensorRT推理

YOLOv5 6.x中很简单，一条命令行搞定了，直接执行：

python detect.py --weights yolov5s.engine --view-img --source data/images/zidane.jpg

FP16推理TensorRT演示

在上面的导出命令行中修改为如下

python export.py --weights yolov5s.onnx --include engine --half --device 0

其中就是把输入的权重文件改成onnx格式，然后再添加一个新的参 --half 表示导出半精度的engine文件。就这样直接执行该命令行就可以导出生成了，图示如下：

对比可以发现相比FP32大小的engine文件，FP16的engine文件比FP32的engine大小减少一半左右，整个文件只有17MB大小左右。

推理执行的命令跟FP32的相同，直接运行，显示结果如下：

对比发现FP32跟FP16版本相比，速度提升了但是精度几乎不受影响！

INT8量化与推理TensorRT演示

TensorRT的INT量化支持要稍微复杂那么一点点，最简单的就是训练后量化。只要完成Calibrator这个接口支持，我用的TensorRT版本是8.4.0.x的，它支持以下几种Calibrator：

不同的量化策略，得到的结果可能稍有差异，另外高版本上的INT8量化之后到低版本的TensorRT机器上可能无法运行，我就遇到过！所以建议不同平台要统一TensorRT版本之后，再量化部署会比较好。上面的Calibrator都必须完成四个方法，分别是：

#使用calibrator验证时候每次张数，跟显存有关系，最少1张get_batch_size #获取每个批次的图像数据，组装成CUDA内存数据get_batch #如果以前运行过保存过，可以直接读取量化，低碳给国家省电read_calibration_cache #保存calibration文件，量化时候会用到write_calibration_cache

这块对函数集成不懂建议参考TensorRT自带的例子：

TensorRT-8.4.0.6\samples\python\int8_caffe_mnist

几乎是可以直接用的！Copy过来改改就好了！

搞定了Calibrator之后，需要一个验证数据集，对YOLOv5来说，其默认coco128数据集就是一个很好的验证数据，在data文件夹下有一个coco128.yaml文件，最后一行就是就是数据集的下载URL，直接通过URL下载就好啦。

完成自定义YOLOv5的Calibrator之后，就可以直接读取onnx模型文件，跟之前的官方转换脚本非常相似了，直接在上面改改，最重要的配置与生成量化的代码如下：

# build trt enginebuilder.max_batch_size = 1config.max_workspace_size = 1

【本文地址】

YOLOv5模型部署TensorRT之 FP32、FP16、INT8推理

YOLOv5模型部署TensorRT之 FP32、FP16、INT8推理

今日新闻

推荐新闻