浅谈大模型推理成本优化

上回说了,全赞AI的应用里面有用到几十个大模型,我的其他的应用比如渣渣句,熊喵表情都会或多或少的用到一到两个大模型的推理。而众所周知,目前大模型的推理存在两个问题,一个是慢,一个是贵,慢的问题基本有赖于模型自身结构的优化才能从根本上解决,我暂时未研究这一块的内容,以后看看是否有推理框架能对大模型进行推理加速。本文主要讲一讲大模型推理成本的优化。

推理成本说的简单点,就是用户用你的大模型画一张图,你要花多少钱。这个怎么优化?我首先想到的是“自建机房”的思路,就是用自己闲置的带GPU的游戏主机,来搭个简易的推理集群,如下图所示。

家用主机是没有公网IP的,所以在Api网关和家用主机之间只能靠消息队列进行通信,这里如果有多台家用主机也没有关系,所有的游戏机都可以监听消息队列,然后率先拿到任务的机器来处理任务。这样用户用的请求就变成异步的了,用户第一次请求,只是告诉了系统,我需要文生图,然后系统返回给用户一个任务ID,接下来,用户需要每隔1秒钟拿着这个ID去询问我这个图画好了没有,直到家用游戏主机真正的把图画好之后才结束。

这个架构我也在线上跑了几个月,各种不适,主要是物理上的断电,机器太吵之类的,后来这个机器干脆自己冒白烟了,我赶紧把这个服务器停了。换成了下面这种看起来复杂很多的方案。

这个方案比较巧妙的地方是使用了各大云厂商的竞价实例来降低成本,并且能规模化,不管你后端用到多少个大模型,都可以用极低的价格搞定推理的事情。

  1. 首先我研发了一个调度器,它的功能就是根据用户的推理请求,分配相应规格的机器,比如用户说我要生成视频,调度器一查表,这个任务需要A100,然后再一查分配现状,发现没有A100在线上,那么需要找大厂调度了,于是用大厂的API问一下价格(标注上我只要竞价实例),发现腾讯现在没有A100的竞价实例,阿里的A100只要2元/小时,于是果断的对阿里说,这个A100我要了,开一个小时先。
  2. 得先在腾讯云和阿里云,华为云等各大厂商那里安排一个驻场的(SpotAgent),这就是一个云服务器启动模板,一旦调度器发请求给阿里云,这个SpotAgent就会起起来。阿里云的SpotAgent起来后会监听消息队列,它发现有个任务是文生视频,于是它果断的去拉取文生视频的镜像下来开始做推理。
  3. 不得不提一下COG,replicate/cog: Containers for machine learning (http://github.com),这个是专为机器学习模型开发的容器,它让所有的模型都能被标准化的安装,标准化的推理。
  4. 用户还是老样子,先发请求拿到个任务ID,但是第一个用户要忍受冷启动的问题(5分钟),然后不停的轮询他的任务做完没有。

这个计算架构能节省50%-80%之多的GPU账单,可能我这儿一公开,大厂的竞价实例GPU要卖断货了。我最近还在想如何用户自己的GPU做我们的推理服务器,如果这个事情能做成,并且能规模化,那大模型真的就可以做到免费了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/587303.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MyBatisPlus之逻辑删除

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 MyBatisPlus之逻辑删除 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 系列文章目录前言一、什么是逻辑删…

微服务系列之分布式事务理论

概述 事务是由一组操作构成的可靠的独立的工作单元,事务具备ACID的特性,即原子性、一致性、隔离性和持久性。 分类 大多数情况下,分类是没有意义的一件事。但是分类可以一定程度上,加深理解。 实现 从实现角度来看&#xff0…

轻松删除文件名中的符号,使用替换功能,让管理文件更加得心应手!

在我们的日常生活和工作中,文件管理是一项必不可少的任务。而一个整洁、有序的文件名系统则有助于我们快速找到所需的文件。如果你发现文件名中存在一些不必要的符号,那么这款文件重命名工具将是你的得力助手。它具备强大的替换功能,可以轻松…

数的高次幂运算取余,解决大数溢出问题

目录 解决思路引用基础数学公式公式1证明:公式2证明:公式3证明:公式4,但无法证明大数分解解决思路 当一个幂运算很大,而模为整型数时,通常的做法(先求幂再取模),结果很大可能就是数溢出,无法表示这样的大数,导致运算失败。 可以先试着将数分割成几个部分,然后一个…

在 Unity 中获取 Object 对象的编辑器对象

有这个需求的原因是,在编辑器的 Inspector 逻辑中,写了许多生成逻辑。 现在不想挨个在 Inspector 上都点一遍按钮,所以就需要能获取到它们的编辑器对象。 发现可以借助官方的 UnityEditor.Editor.CreateEditor 方法达到目的,如下…

OpcUaHelper实现西门子OPC Server数据交互

Opc ua客户端类库,基于.net 4.6.1创建,基于官方opc ua基金会跨平台库创建,方便的实现和OPC Server进行数据交互。 FormBrowseServer 在开发客户端之前,需要使用本窗口来进行查看服务器的节点状态,因为在请求服务器的节点数据之前,必须知道节点的名称,而节点的名称可以…

分布式技术之负载均衡技术

文章目录 什么是负载均衡?服务请求的负载均衡方法轮询策略随机策略哈希和一致性哈希策略对比分析 负载均衡是分布式可靠性中非常关键的一个问题或技术,在一定程度上反映了分布式系统对业务处理的能力。比如,早期的电商抢购活动,当…

4.36 构建onnx结构模型-Where

前言 构建onnx方式通常有两种: 1、通过代码转换成onnx结构,比如pytorch —> onnx 2、通过onnx 自定义结点,图,生成onnx结构 本文主要是简单学习和使用两种不同onnx结构, 下面以 Where 结点进行分析 方式 方法一…

记录一下imx6ull linux 5.10.9多点电容触摸屏驱动报错问题解决方法

最近再研究如何将linux 5.10.9移植到imx6ull,用的原子的开发板,在移植电容触摸屏驱动时报错gpio gpiochip0: (209c000.gpio): gpiochip_lock_as_irq: tried to flag a GPIO set as output for IRQ,如下图: 该错误的意思就是尝试将…

数据库系统概论SQL编程题合集(包含期末题、考研初试题以及复试题)

二、现有数据库casemanage中表结构如下图 1)请编写sql语句对年龄进行升序排列 select * from afinfo order by birth;2)请编写sql语句查询对“徐”姓开头的人员名单 select * from afinfo where name like 徐%;3)请编写sql语句修改“陈晓”…

【在大厂做测试外包这一年】

​ 在大厂做测试外包这一年 大厂外包是一种趋势,以后可能会越来越多,最起码测试行业是这样,像我们的测试工作,我所在的项目领导是大厂内部的,组长是OD外包,组员是普通外包。   1、关于办公方式 有两种方…

2024年【茶艺师(初级)】考试技巧及茶艺师(初级)试题及解析

题库来源:安全生产模拟考试一点通公众号小程序 茶艺师(初级)考试技巧是安全生产模拟考试一点通生成的,茶艺师(初级)证模拟考试题库是根据茶艺师(初级)最新版教材汇编出茶艺师&#…

「Kafka」入门篇

「Kafka」入门篇 基础架构 Kafka 快速入门 集群规划 集群部署 官方下载地址:http://kafka.apache.org/downloads.html 解压安装包: [atguiguhadoop102 software]$ tar -zxvf kafka_2.12-3.0.0.tgz -C /opt/module/修改解压后的文件名称: [a…

Vue3使用WangEditor编辑器

WangEditor的基本使用&#xff0c;图片上传功能 没详细讲解&#xff0c;只是做个记录。 Componets 下定义 WangEditor.vue 文件 <template><div style"border: 1px solid #ccc;"><Toolbar style"border-bottom: 1px solid #ccc" :editor&q…

关于HTTPS

目录 什么是加密 对称加密 非对称加密 中间人攻击 引入证书 HTTPS是一个应用层的协议,是在HTTP协议的基础上引入了一个加密层. HTTP协议内容都是按照文本的方式明文传输,这就导致在传输的过程中出现一些被篡改的情况. 运营商劫持事件 未被劫持的效果,点击下载按钮,就会…

Mybatis分页插件之PageHelper生效and失效原理解析

文章目录 前言整合PageHelperPageHelper生效原理PageHelper的分页参数和线程绑定核心拦截逻辑生成分页SQLdialect.afterAll() PageHelper失效原理分页失效案例分页失效原理总结 Mybatis拦截器系列文章&#xff1a;从零开始的 MyBatis 拦截器之旅&#xff1a;实战经验分享 构建自…

探索 3D 图形处理的奥秘

最近一年多来&#xff0c;在 3Dfx、Intel 们的狂轰滥炸中&#xff0c;在 Quake、古墓丽影们的推波助澜下&#xff0c;三维图形已经成为计算机迷眼中的又一个热点。3D 世界到底是怎样的神奇&#xff0c;我们又是怎样享受它的乐趣呢&#xff1f;就让我们来一探究竟吧。 图形基础…

K8s资源管理介绍

用这个官网下的&#xff0c;kube-flannel.yml &#xff0c;就不会nodes not-ready --- kind: Namespace apiVersion: v1 metadata:name: kube-flannellabels:k8s-app: flannelpod-security.kubernetes.io/enforce: privileged --- kind: ClusterRole apiVersion: rbac.author…

递归详解之青蛙跳台阶和汉诺塔问题

&#x1d649;&#x1d65e;&#x1d658;&#x1d65a;!!&#x1f44f;&#x1f3fb;‧✧̣̥̇‧✦&#x1f44f;&#x1f3fb;‧✧̣̥̇‧✦ &#x1f44f;&#x1f3fb;‧✧̣̥̇:Solitary-walk ⸝⋆ ━━━┓ - 个性标签 - &#xff1a;来于“云”的“羽球人”。…

51单片机三种编译模式的相互关系

51单片机三种编译模式的相互关系 编译模式默认存储类型RAM使用规模变量使用特点SAMLLdata128B片内RAM使用规模CPU访问数据速度快&#xff0c;但存储容量较小COMPACTpdata258B片外分页RAM速度和容量介于上下两者之间LARGExdata64KB片外RAMCPU访问数据的速度较慢&#xff0c;但存…