使用 onnxruntime-gpu 进行推理,运行时间久显存逐渐递增无法减少

背景

        将 pytorch / tensorflow 模型转换为onnx后,推理速度相对变快。但是问题在于当请求量增加,onnx模型会无限制申请GPU资源。如果将onnx模型部署为一个接口,则这个接口会一直存在,申请的GPU资源也不会得到释放(详细可以搜索pytorch模型显存管理机制与显存占用机制)。

缓解方法

# 手动构建provider# CUDAExecutionProvider :使用GPU进行推理,默认使用CUDAExecutionProviderprovider = [("CUDAExecutionProvider", {"device_id": torch.cuda.current_device(),                # 使用哪张显卡"arena_extend_strategy": "kNextPowerOfTwo",      "gpu_mem_limit": 5 * 1024 * 1024 * 1024,              # 显存上限"cudnn_conv_algo_search": "EXHAUSTIVE","do_copy_in_default_stream": True,}),'CPUExecutionProvider',
]
onnx_model = onnxruntime.InferenceSession("your_onnx_model_path.onnx", providers=provider)

缺陷 

这个方法能够限制推理申请的资源上限,但是

1. 没有从根源上实现资源动态申请和释放

2. 需要对不同的任务制定不同的配置,例如显存上限,设定不好影响推理速度和吞吐速度

理想的方案

将onnx模型进一步转换为trt格式,使用tensorRT进行部署,方案可以由python或

c++实现,c++性能更佳。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/35766.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SK Hynix 3D DRAM良率突破56.1%,开启存储新时代

根据韩国财经媒体Business Korea独家报道:在刚刚结束的VLSI 2024国际研讨会上,韩国半导体巨头SK Hynix公布了一项振奋人心的进展:其五层堆叠3D DRAM的制造良率已达到56.1%。此成果标志着3D DRAM技术在商业化道路上迈出了坚实的一步&#xff0…

mybatisplus多条件对象xml分页查询

不要用它自带的 selectPage方法,会有传参问题 controller import java.util.Set;RestController RequiredArgsConstructor RequestMapping("/deviceInfo" ) public class DeviceInfoController {private final DeviceInfoService deviceInfoService;/**…

JUC 队列

常见的阻塞队列 Queue接口 public interface Queue<E> extends Collection<E> {//添加一个元素&#xff0c;添加成功返回true, 如果队列满了&#xff0c;就会抛出异常boolean add(E e);//添加一个元素&#xff0c;添加成功返回true, 如果队列满了&#xff0c;返回…

docker的容器操作命令

容器命令 容器是什么 镜像运行起来就是容器 docker run docker ps 查看运行的容器状态 docker ps -a 查看所有的容器状态&#xff08;包括未运行的&#xff09; docker logs 查看容器的日志 docker rm 删除容器 启动容器 docker start 镜像名称/镜像id 停止容器 docker stop …

大模型日报2024-06-26

大模型日报 2024-06-26 大模型资讯 大模型产品 Pygma&#xff1a;Instagram的AI助手 摘要: Pygma通过分析您的Instagram数据&#xff0c;提供7天的内容创意&#xff0c;并为您创建个性化内容&#xff0c;直接建议在界面中安排发布。 revid.ai&#xff1a;一站式短视频创作工具 …

sudo 权限之危险的 bash 命令

文章目录 [toc]事出有因干就完事了创建用户配置 sudo 权限sudo 验证使用 bash 命令执行 chmod 命令使用 bash 命令执行删根 事出有因 使用普通用户安装 tidb 时&#xff0c;发现报错了&#xff0c;报错内容如下&#xff1a; ERROR SSHCommand {"host": "…

三十九篇:UML与SysML:掌握现代软件和系统架构的关键

UML与SysML&#xff1a;掌握现代软件和系统架构的关键 1. 引言 1.1 为什么系统设计如此关键 在当今快速发展的技术环境中&#xff0c;系统设计的重要性不言而喻。无论是软件开发还是复杂的系统工程&#xff0c;良好的设计是确保项目成功的基石。系统设计不仅关系到功能的实现…

【Windows】Windows 10 + PowerToys 快捷键

1、Windows 10 快捷键2、PowerToys 快捷键2.1、始终置顶2.2、颜色选择器2.3、打开FancyZones编辑器2.3.1、FancyZones编辑器编辑布局2.3.2、将窗口放置到指定区域 2.4、鼠标实用工具2.4.1、查找我的鼠标2.4.2、启用/关闭鼠标荧光笔2.4.3、启用/关闭鼠标跳转2.4.4、 启用/关闭鼠…

Spring统一功能

文章目录 一、什么是统一功能二、拦截器2.1 什么是拦截器2.2 拦截器的使用2.3 案例&#xff1a;不拦截前端的请求2.4 拦截器是如何实现的 ---- >分析DispatcherServlet源码分析 三、适配器模式四、统一数据返回格式五、统一异常六、案例&#xff1a;在图书管理系统使用统一功…

【自然语言处理】GPT-5技术突破预测:引领自然语言处理革新的里程碑

摘要 随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;领域正迎来一场前所未有的革命。近日&#xff0c;OpenAI首席技术官米拉穆拉蒂在采访中透露&#xff0c;新一代大语言模型GPT-5将在一年半后发布&#xff0c;这一消息无疑在科技界掀起了巨大的波澜。GPT-…

【Linux】锁|死锁|生产者消费者模型

&#x1f525;博客主页&#xff1a; 我要成为C领域大神&#x1f3a5;系列专栏&#xff1a;【C核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 本博客致力于知识分享&#xff0c;与更多的人进行学习交流 ​ ​ 访问互斥 …

Linux中--prefix命令使用及源码安装

1.prefix - 指定文件安装路径通常与configure搭配使用&#xff1a; 在安装源码时可使用下述命令指定源码安装路径&#xff1a; bogon:httpd-2.4.59 wancanchishenma$./configure --prefix/usr/local/apache 2.源码的安装一般由3个步骤组成&#xff1a;配置&#xff08;configur…

ChatGPT在程序开发中的应用:提升生产力的秘密武器

在当今飞速发展的科技时代&#xff0c;程序开发已经成为许多企业和个人必不可少的技能。然而&#xff0c;编写代码并非总是顺风顺水&#xff0c;面对复杂的算法、繁琐的调试、持续不断的需求变更&#xff0c;程序员们常常感到压力山大。在这种情况下&#xff0c;ChatGPT应运而生…

ArkTS开发系列之Web组件的学习(2.9)

上篇回顾&#xff1a;ArkTS开发系列之事件&#xff08;2.8.2手势事件&#xff09; 本篇内容&#xff1a; ArkTS开发系列之Web组件的学习&#xff08;2.9&#xff09; 一、知识储备 Web组件就是用来展示网页的一个组件。具有页面加载、页面交互以及页面调试功能 1. 加载网络…

深度学习(理论知识)

一、监督学习、自监督和半监督 1、监督学习&#xff08;Supervised Learning&#xff09; 概念 监督学习是一种机器学习方法&#xff0c;通过使用带标签的数据进行训练&#xff0c;模型学习从输入到输出的映射关系。数据集中的每个样本都包含输入特征&#xff08;features&am…

【前端】实现时钟网页

【前端】实现时钟网页 文章目录 【前端】实现时钟网页项目介绍代码效果图 项目介绍 时钟显示在网页中央&#xff0c;并且使网页能够切换白天和夜晚两种模式。搭建基本的html结构&#xff0c;动态得到实时的时&#xff0c;分&#xff0c;秒 通过Date()函数获得。将得到的数字根…

onlyoffice实现打开文档的功能

后端代码 import api from api import middlewareasync def doc_callback(request):data await api.req.get_json(request)print("callback ", data)# status 2 文档准备好被保存# status 6 文档编辑会话关闭return api.resp.success()app api.Api(routes[api.…

力扣爆刷第153天之TOP100五连刷26-30(接雨水、环形链表、最长上升子序列)

力扣爆刷第153天之TOP100五连刷26-30&#xff08;接雨水、环形链表、最长上升子序列&#xff09; 文章目录 力扣爆刷第153天之TOP100五连刷26-30&#xff08;接雨水、环形链表、最长上升子序列&#xff09;一、300. 最长递增子序列二、415. 字符串相加三、143. 重排链表四、42.…

Flutter页面状态保留策略

目的: 防止每次点击底部按钮都进行一次页面渲染和网络请求 1. 使用IndexedStack 简单,只需要把被渲染的组件外部套一层IndexedStack即可 缺点: 在应用启动的时候,所有需要保存状态的页面都会直接被渲染,保存起来. 对性能有影响 2. 使用PageController 实现较为复杂,但是不用…

软件构造 | 期末查缺补漏

软件构造 | 期末查缺补漏 总体观 软件构造的三维度八度图是由软件工程师Steve McConnell提出的概念&#xff0c;用于描述软件构建过程中的三个关键维度和八个要素。这些维度和要素可以帮助软件开发团队全面考虑软件构建的方方面面&#xff0c;从而提高软件质量和开发效率。 下…