【pytorch模型转onnx模型】一些模型转化和加速推理的知识 |
您所在的位置:网站首页 › onnx加速很慢 › 【pytorch模型转onnx模型】一些模型转化和加速推理的知识 |
来源:投稿 作者:王浩 编辑:学姐 最近,学习了一些模型转化和加速推理的知识,本文是对学习成果的总结。 对模型的转化,本文实现了pytorch模型转onnx模型和onnx转TensorRT,在转为TensorRT模型的过程中,实现了模型单精度的压缩。 对于加速推理,本文实现GPU环境下的onnxruntime推理、 TensorRT动态推理和TensorRT静态推理。 希望本文能帮助大家。 环境配置CUDA版本:11.3.1 cuDNN版本:8.2.1 TensorRT版本:8.0.3.4 显卡:1650 pytorch:1.10.2 模型的转化和推理对版本有要求,如果版本对应不上很可能出现千奇百怪的问题,所以我把我的版本信息列出来给大家做参考。 ONNXONNX,全称: Open Neural Network Exchange(ONNX,开放神经网络交换),是一个用于表 示深度学习模型的标准,可使模型在不同框架之间进行转移。 ONNX是一种针对机器学习所设计的开放式的文件格式,用于存储训练好的模型。它使得不同的人工智能框架(如Pytorch, MXNet)可以采用相同格式存储模型数据并交互。ONNX的规范及代码主要由微软,亚马逊 ,Facebook 和 IBM 等公司共同开发,以开放源代码的方式托管在Github上。目前官方支持加载ONNX模型并进行推理的深度学习框架有:Caffe2, PyTorch,MXNet,ML.NET,TensorRT和Microsoft CNTK,并且TensorFlow也非官方的支持ONNX。---维基百科 onnx模型可以看作是模型转化之间的中间模型,同时也是支持做推理的。一般来说,onnx的推理 速度要比pytorch快上一倍。 模型转化
onnx模型转换和推理需要安装Python包,如下:
新建模型转换脚本pytorch2onnx.py。 导入需要的包。 打印pytorch版本。 定义input_name和output_name变量。 定义输入格式。 加载pytorch模型。 导出onnx模型,这里注意一下参数opset_version在8.X版本中设置为13,在7.X版本中设置为12。 yolov5中这么写的。 查看转化后的模型,如下图: 推理的写法有两种,一种直接写,另一种将其封装为通用的推理类。 第一种推理写法先看第一种写法,新建test_onnx.py,插入下面的代码:
导入包 定义get_test_transform函数,实现图像的归一化和resize。 读取图像
对图像做resize和归一化。 增加一维batchsize。 将图片转为数组。 定义onnx_model_path模型的路径。 加载onnx模型。 定义输入。 执行推理。 获取预测结果。 到这里第一种写法就完成了,是不是很简单,接下来看第二种写法。 第二种推理写法新建onnx.py脚本,加入以下代码: 调用onnx.py实现推理,新建test_onnx1.py插入代码: 输出结果如下: TensorRT
TensorRT是英伟达推出的一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。 TensorRT可用于对超大规模数据中心、嵌入式平台或自动驾驶平台 进行推理加速。 TensorRT现已能支持TensorFlow、Caffe、Mxnet、Pytorch等几乎所有的深度学习框架,将TensorRT和NVIDIA的GPU结合起来,能在几乎所有的框架中进行快速和高效的部署推理。 TensorRT 是一个C++库,从 TensorRT 3 开始提供C++ API和Python API,主要用来针对 NVIDIA GPU进行 高性能推理(Inference)加速。 TensorRT的安装可以参考我以前的文章: https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/120360288。 本次用的8.X版本的,安装方式一样。 本文实现Python版本的 TensorRT 推理加速,需要安装tensorrt包文件。这个文件不能直接通过pip下载,我在下载的TensorRT安装包里,不过我下载的8.0.3.4版本中并没有,在8.2.1.8的版本中存在这个包文件。 所以我安装了8.2.1.8中的whl文件。 安装方式,进入模型所在的目录,执行: 模型推理用到了pycuda,执行安装命令: 模型转化将onnx模型转为TensorRT 模型,新建onnx2trt.py,插入代码: build_engine函数共有三个参数: onnx_file_path: onnx模型的路径。 engine_file_path:TensorRT模型的路径。 half:是否使用单精度。 单精度的模型速度更快,所以我选择使用单精度。 通过上面的代码就可以完成模型的转化,下面开始实现推理部分,推理分为动态推理和静态推理。 动态推理新建test_trt,py文件,插入代码: 导入需要的包。 定义load_engine函数和get_test_transform函数。 load_engine用于加载TensorRT模型。 get_test_transform实现图像的resize和归一化。 图片的预处理,和onnx一样,最后转为数组。 输出结果: 静态推理静态推理和动态推理的代码差不多,唯一不同的是不需要 运行结果: |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |