TensorRt推理加速框架Python API服务器部署教程以及运行Helloworld程序

一、确认cuda工具包和n卡相关驱动是否安装

在终端中输入以下命令:

nvcc -V

如果出现以下提示,则已经成功安装
image.png
在终端中输入以下命令:

nvidia-smi

如果出现即为成功,我在这里就不去介绍怎么下载cuda和驱动怎么下载了,大家可以看一下网上的其他安装教程
在这里插入图片描述

二、pip安装tensorRT API

此步骤在python的虚拟环境下进行:

python3 -m pip install --upgrade tensorrt

三、验证tensort库安装结果

>>> import tensorrt
>>> print(tensorrt.__version__)
8.6.1
>>> assert tensorrt.Builder(tensorrt.Logger())
[11/04/2023-11:19:33] [TRT] [W] CUDA lazy loading is not enabled. 
Enabling it can significantly reduce device memory usage and speed up 
TensorRT initialization. 
See "Lazy Loading" section of CUDA documentation https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#lazy-loading

四、安装Cuda-python

这里如果遇到网络问题可以加上清华源-i [https://pypi.tuna.tsinghua.edu.cn/simple](https://pypi.tuna.tsinghua.edu.cn/simple)

pip install cuda-python

五、验证cuda-python是否安装成功

进入python,如果能成功导入库,则成功安装开库

python
import cuda

image.png

六、克隆TensorRT HelloWorld程序

项目地址:https://github.com/NVIDIA/TensorRT/tree/main/samples/python/network_api_pytorch_mnist
(1)克隆整个项目

git clone https://github.com/NVIDIA/TensorRT.git

这里如果网络不行,可以直接上github下载zip文件,一样的
(2)进入pytorch版本的例子目录,安装依赖

cd TensorRT/samples/python/network_api_pytorch_mnist
pip install -r requirements.txt

image.png
这里面包含了两个python源代码文件,其中model.py是一个卷积神经网络的代码,sample.py是调用这个网络对minist数据集进行训练预测的代码,并将训练好的模型转换文tensorRT的格式进行推理。
(3)运行sample.py文件

python sample.py

运行上述命令后,会产生以下输出:
训练过程:
image.png
最终结果:
image.png
**此时,你就已经成功运行了tensorRT的pytorch版本的HelloWorld程序!**下面我们对这个HelloWorld进行深入分析。

六、代码分析-Todo

这个样例采用了经典的mnist数据集,它是一些单通道的二维图像组成的数据集,可视化后如下:
mnist的样子.png
从下述代码,可以知道,作者构造了一个由两个卷积层和两个全连接层组成的简单神经网络,用来训练在mnist数据集上的预测模型,并且提供了get_weights方法,方便下载训练好的参数。

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.autograd import Variable
import numpy as np
import os
from random import randint# 这是一个简单的神经的网络,由两个卷积层和两个全连接层组成
# Network
class Net(nn.Module):def __init__(self):super(Net, self).__init__()self.conv1 = nn.Conv2d(1, 20, kernel_size=5)self.conv2 = nn.Conv2d(20, 50, kernel_size=5)self.fc1 = nn.Linear(800, 500)self.fc2 = nn.Linear(500, 10)def forward(self, x):x = F.max_pool2d(self.conv1(x), kernel_size=2, stride=2)x = F.max_pool2d(self.conv2(x), kernel_size=2, stride=2)x = x.view(-1, 800)x = F.relu(self.fc1(x))x = self.fc2(x)return F.log_softmax(x, dim=1)# 这个类主要实现用上述网络结构来训练的功能
class MnistModel(object):def __init__(self):# 一系列超参数self.batch_size = 64self.test_batch_size = 100self.learning_rate = 0.0025self.sgd_momentum = 0.9self.log_interval = 100# 加载mnist的训练数据和测试数据self.train_loader = torch.utils.data.DataLoader(datasets.MNIST("/tmp/mnist/data",train=True,download=True,transform=transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))]),),batch_size=self.batch_size,shuffle=True,num_workers=1,timeout=600,)self.test_loader = torch.utils.data.DataLoader(datasets.MNIST("/tmp/mnist/data",train=False,transform=transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))]),),batch_size=self.test_batch_size,shuffle=True,num_workers=1,timeout=600,)# 初始化网络对象self.network = Net()def learn(self, num_epochs=2):"""这个函数用来训练网络,默认训练两轮"""# 每一个单轮训练def train(epoch):# 切换到训练模式self.network.train()# 使用随机梯度下降法来作为优化器optimizer = optim.SGD(self.network.parameters(), lr=self.learning_rate, momentum=self.sgd_momentum)#  每一个batch训练数据for batch, (data, target) in enumerate(self.train_loader):data, target = Variable(data), Variable(target)optimizer.zero_grad()output = self.network(data)loss = F.nll_loss(output, target)loss.backward()optimizer.step()# 输出损失信息if batch % self.log_interval == 0:print("Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}".format(epoch,batch * len(data),len(self.train_loader.dataset),100.0 * batch / len(self.train_loader),loss.data.item(),))# 测试函数def test(epoch):# 切换到验证模式self.network.eval()test_loss = 0correct = 0for data, target in self.test_loader:with torch.no_grad():data, target = Variable(data), Variable(target)output = self.network(data)test_loss += F.nll_loss(output, target).data.item()pred = output.data.max(1)[1]correct += pred.eq(target.data).cpu().sum()test_loss /= len(self.test_loader)# 输出测试损失print("\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n".format(test_loss, correct, len(self.test_loader.dataset), 100.0 * correct / len(self.test_loader.dataset)))# 训练num_epochs轮for e in range(num_epochs):train(e + 1)test(e + 1)def get_weights(self):"""返回network的权重参数"""return self.network.state_dict()def get_random_testcase(self):"""从名字可以看出,这是一个从测试数据中随机抽取样本来进行推理"""data, target = next(iter(self.test_loader))case_num = randint(0, len(data) - 1)test_case = data.numpy()[case_num].ravel().astype(np.float32)test_name = target.numpy()[case_num]return test_case, test_name

从下述代码可知,作者使用了tensorRT对使用pytorch构建的神经网络进行了再构建,没有使用到parser自动解析网络框架。随着网络层数越深,这种方式会越来越麻烦。

import os
import sys
import model
import numpy as np
import tensorrt as trt
sys.path.insert(1, os.path.join(sys.path[0], ".."))
import common
TRT_LOGGER = trt.Logger(trt.Logger.WARNING)class ModelData(object):INPUT_NAME = "data"INPUT_SHAPE = (1, 1, 28, 28)OUTPUT_NAME = "prob"OUTPUT_SIZE = 10DTYPE = trt.float32def populate_network(network, weights):# 从这个函数可以看出,这里对model.py中的网络架构又重新进行了创建,并没有使用parser来自动构建网络,如果网络层数更深,使用这种方法会非常麻烦# Configure the network layers based on the weights provided.input_tensor = network.add_input(name=ModelData.INPUT_NAME, dtype=ModelData.DTYPE, shape=ModelData.INPUT_SHAPE)def add_matmul_as_fc(net, input, outputs, w, b):assert len(input.shape) >= 3m = 1 if len(input.shape) == 3 else input.shape[0]k = int(np.prod(input.shape) / m)assert np.prod(input.shape) == m * kn = int(w.size / k)assert w.size == n * kassert b.size == ninput_reshape = net.add_shuffle(input)input_reshape.reshape_dims = trt.Dims2(m, k)filter_const = net.add_constant(trt.Dims2(n, k), w)mm = net.add_matrix_multiply(input_reshape.get_output(0),trt.MatrixOperation.NONE,filter_const.get_output(0),trt.MatrixOperation.TRANSPOSE,)bias_const = net.add_constant(trt.Dims2(1, n), b)bias_add = net.add_elementwise(mm.get_output(0), bias_const.get_output(0), trt.ElementWiseOperation.SUM)output_reshape = net.add_shuffle(bias_add.get_output(0))output_reshape.reshape_dims = trt.Dims4(m, n, 1, 1)return output_reshapeconv1_w = weights["conv1.weight"].numpy()conv1_b = weights["conv1.bias"].numpy()conv1 = network.add_convolution(input=input_tensor, num_output_maps=20, kernel_shape=(5, 5), kernel=conv1_w, bias=conv1_b)conv1.stride = (1, 1)pool1 = network.add_pooling(input=conv1.get_output(0), type=trt.PoolingType.MAX, window_size=(2, 2))pool1.stride = (2, 2)conv2_w = weights["conv2.weight"].numpy()conv2_b = weights["conv2.bias"].numpy()conv2 = network.add_convolution(pool1.get_output(0), 50, (5, 5), conv2_w, conv2_b)conv2.stride = (1, 1)pool2 = network.add_pooling(conv2.get_output(0), trt.PoolingType.MAX, (2, 2))pool2.stride = (2, 2)fc1_w = weights["fc1.weight"].numpy()fc1_b = weights["fc1.bias"].numpy()fc1 = add_matmul_as_fc(network, pool2.get_output(0), 500, fc1_w, fc1_b)relu1 = network.add_activation(input=fc1.get_output(0), type=trt.ActivationType.RELU)fc2_w = weights["fc2.weight"].numpy()fc2_b = weights["fc2.bias"].numpy()fc2 = add_matmul_as_fc(network, relu1.get_output(0), ModelData.OUTPUT_SIZE, fc2_w, fc2_b)fc2.get_output(0).name = ModelData.OUTPUT_NAMEnetwork.mark_output(tensor=fc2.get_output(0))def build_engine(weights):# For more information on TRT basics, refer to the introductory samples.builder = trt.Builder(TRT_LOGGER)network = builder.create_network(common.EXPLICIT_BATCH)config = builder.create_builder_config()runtime = trt.Runtime(TRT_LOGGER)config.max_workspace_size = common.GiB(1)# Populate the network using weights from the PyTorch model.populate_network(network, weights)# Build and return an engine.plan = builder.build_serialized_network(network, config)return runtime.deserialize_cuda_engine(plan)# Loads a random test case from pytorch's DataLoader
def load_random_test_case(model, pagelocked_buffer):# Select an image at random to be the test case.img, expected_output = model.get_random_testcase()# Copy to the pagelocked input buffernp.copyto(pagelocked_buffer, img)return expected_outputdef main():common.add_help(description="Runs an MNIST network using a PyTorch model")# 训练pytorch模型mnist_model = model.MnistModel()mnist_model.learn()# 训练结束后,可以获得训练后的权重字典weights = mnist_model.get_weights()# 使用训练好的权重来构建tensorrt的引擎对象engine = build_engine(weights)# Build an engine, allocate buffers and create a stream.# For more information on buffer allocation, refer to the introductory samples.inputs, outputs, bindings, stream = common.allocate_buffers(engine)context = engine.create_execution_context()# 随机抽取推理样本,保存在inputs中,case_num是抽出的样本的真实值case_num = load_random_test_case(mnist_model, pagelocked_buffer=inputs[0].host)# For more information on performing inference, refer to the introductory samples.# The common.do_inference function will return a list of outputs - we only have one in this case.# 开始推理,并产生推理结果output[output] = common.do_inference_v2(context, bindings=bindings, inputs=inputs, outputs=outputs, stream=stream)pred = np.argmax(output)# 清除缓存common.free_buffers(inputs, outputs, stream)# 输出真实值print("Test Case: " + str(case_num))# 输出测试值print("Prediction: " + str(pred))if __name__ == "__main__":main()

代码没时间看的,后续完成后我再补上-~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/147179.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探索NLP中的核心架构:编码器与解码器的区别

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

分类预测 | Matlab实现PSO-BiLSTM-Attention粒子群算法优化双向长短期记忆神经网络融合注意力机制多特征分类预测

分类预测 | Matlab实现PSO-BiLSTM-Attention粒子群算法优化双向长短期记忆神经网络融合注意力机制多特征分类预测 目录 分类预测 | Matlab实现PSO-BiLSTM-Attention粒子群算法优化双向长短期记忆神经网络融合注意力机制多特征分类预测分类效果基本描述程序设计参考资料 分类效果…

使用Spring Boot实现大文件断点续传及文件校验

一、简介 随着互联网的快速发展,大文件的传输成为了互联网应用的重要组成部分。然而,由于网络不稳定等因素的影响,大文件的传输经常会出现中断的情况,这时需要重新传输,导致传输效率低下。 为了解决这个问题&#xff…

十三、Docker的安装

0.安装Docker Docker 分为 CE 和 EE 两大版本。CE 即社区版(免费,支持周期 7 个月),EE 即企业版,强调安全,付费使用,支持周期 24 个月。 Docker CE 分为 stable test 和 nightly 三个更新频道…

联想笔记本电脑触摸板失灵了怎么办

这里写自定义目录标题 thinkbook笔记本电脑触摸板失灵 thinkbook笔记本电脑触摸板失灵 由于重装系统,导致笔记本的触控板失灵, 网上说的办法有 1、按键盘上的ctrlf6键,打开触控板功能:无效 2、设置——>设备——>触控板&am…

【powershell】入门和示例

▒ 目录 ▒ 🛫 导读开发环境 1️⃣ 简介用途IDE解决此系统上禁止运行脚本 2️⃣ 语法3️⃣ 实战数据库备份执行循环拷贝文件夹 🛬 文章小结📖 参考资料 🛫 导读 开发环境 版本号描述文章日期2023-11-17操作系统Win10 - 22H21904…

23111709[含文档+PPT+源码等]计算机毕业设计基于Spring Boot智能无人仓库管理-进销存储

文章目录 **软件开发环境及开发工具:****功能介绍:****论文截图:****数据库:****实现:****代码片段:** 编程技术交流、源码分享、模板分享、网课教程 🐧裙:776871563 软件开发环境及…

SQL server从安装到入门(一)

文章目录 彻底安装怎么安装?Polybase要求安装orcale jre 7更新 51或更高版本?安装完怎么配置?没有SSMS? 熟悉一下SMSS! 根据本人实际安装和初步使用SQL server的过程中,经历的一些关键性的步骤和精品文章。…

问卷工具价格一览:合理定价,满足您的预算需求

在市场调研、市场营销和客户反馈收集等方面,问卷调查是一项重要而有效的工具。而在众多的问卷工具中,Zoho Survey以其丰富的功能和灵活的定价模式而备受关注。Zoho Survey的定价如何?今天我们来聊一聊。 Zoho Survey提供了多种定价方案&…

ROS 学习应用篇(九)ROS中launch文件的实现

launch文件就好比一个封装好的命令库,我们按照在终端中输入的代码指令,全部按照launch语言格式封装在一个launch文件中,这样以后执行的时候,就可以不用开很多终端,一条一条输入代码指令。 lauch文件的语言风格很想我之…

用Postman发送xml数据

启动Postman: 点击左上角的“New”,在弹出窗中选择HTTP: 选择POST方法: 点击Body: 选择raw: 在右侧的下拉列表中选择XML: 在下面的输入框中输入或者从其它地方拷贝XML文本:…

websocket学习

写在前面 新公司用到了websocket技术&#xff0c;所以这里学习下。 1&#xff1a;Java原生 1.1&#xff1a;maven <dependency><groupId>org.java-websocket</groupId><artifactId>Java-WebSocket</artifactId><version>1.5.3</ver…

【高并发内存池】第一篇 项目简介及定长内存池

&#x1f57a;作者&#xff1a; 主页 我的专栏C语言从0到1探秘C数据结构从0到1探秘Linux菜鸟刷题集 &#x1f618;欢迎关注&#xff1a;&#x1f44d;点赞&#x1f64c;收藏✍️留言 &#x1f3c7;码字不易&#xff0c;你的&#x1f44d;点赞&#x1f64c;收藏❤️关注对我真的…

Android 实现三维空间坐标系(WebView与JS交互,支持多条曲线,可设置坐标轴翻转等)

全部代码已经上传&#xff0c;点击上方进行下载 支持多条曲线的绘制&#xff0c;可旋转拖动放大缩小 1.布局文件&#xff1a; <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/…

plantuml最原始的主题如何设置

在startuml下一行添加 skin rose startuml skin rose:Hello world; :This is defined on several **lines**;enduml 效果如下&#xff1a; plantuml官网地址如下&#xff1a; ​​​​​​使用简单的文字描述画UML图的开源工具。轻松从简单的文字说明创建UML图。也有许多种可…

一键云端,AList 整合多网盘,轻松管理文件多元共享!

hello&#xff0c;我是小索奇&#xff0c;本篇教大家如何使用AList实现网盘挂载 可能还是有小伙伴不懂&#xff0c;所以简单介绍一下哈 AList 是一款强大的文件管理工具&#xff0c;为用户提供了将多种云存储服务和文件共享协议集成在一个平台上的便利性。它的独特之处在于&am…

Unity中Shader矩阵的转置矩阵

文章目录 前言一、转置的表示二、转置矩阵三、转置矩阵的总结1、(A^T^)^T^ A2、(A B)^T^ A^T^ B^T^3、(kA)^T^ kA^T^ (k为实数)4、(AB)^T^ B^T^A^T^5、如果 A A^T^ 则称A为对称矩阵6、如果 AA^T^ I(单位矩阵)&#xff0c;则称 A 为正交矩阵&#xff0c;同时 A^T^ A^-1…

复杂数据统计与R语言程序设计实验二

1、创建一个对象&#xff0c;并进行数据类型的转换、判别等操作&#xff0c;步骤如下。 ①使用命令清空工作空间&#xff0c;创建一个对象x&#xff0c;内含元素为序列&#xff1a;1&#xff0c;3&#xff0c;5&#xff0c;6&#xff0c;8。 ②判断对象x是否为数值型数据。 ③…

OpenGL 的学习之路-4(变换)

三大变换&#xff1a;平移、缩放、旋转&#xff08;通过这三种变换&#xff0c;可以将图像移动到任意位置&#xff09; 其实&#xff0c;这背后对应的数学在 闫令琪 图形学课程 中有过一些了解&#xff0c;所以&#xff0c;理解起来也不觉得很困难。看程序吧。 1.画三角形&am…

OpenCV入门2——图像视频的加载与展示一些API

文章目录 题目OpenCV创建显示窗口OpenCV加载显示图片题目 OpenCV保存文件利用OpenCV从摄像头采集视频从多媒体文件中读取视频帧将视频数据录制成多媒体文件OpenCV控制鼠标关于[np.uint8](https://stackoverflow.com/questions/68387192/what-is-np-uint8) OpenCV中的TrackBar控…