Fastchat + vllm + ray + Qwen1.5-7b 在2080ti 双卡上 实现多卡推理加速

首先先搞清各主要组件的名称与作用:
  • FastChat
    FastChat框架是一个训练、部署和评估大模型的开源平台,其核心特点是:

    提供SOTA模型的训练和评估代码
    提供分布式多模型部署框架 + WebUI + OpenAI API

    Controller管理分布式模型实例
    Model Worker是大模型服务实例,它在启动时向Controller注册
    OpenAI API提供OpenAI兼容的API服务,接受请求后,先向Controller获取Model Worker地址,再向Model Worker实例发送请求生成文本,最后返回OpenAI兼容的报文。
    Fastchat 兼容的llm集合 请见 https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

在这里插入图片描述

  • vllm 推理加速框架
    vLLM 用于大模型并行推理加速,核心是 PagedAttention 算法,官网为:https://vllm.ai/。

  • ray 分布式框架
    Ray 是一个高性能的分布式计算框架,由UC Berkeley RISELab 开发,支持Python 语言,并可与PyTorch 等机器学习框架结合使用。Ray提供了高效的任务调度、支持多种编程语言和机器学习框架,且系统层的抽象使得资源利用和任务调度更加灵活高效。它比Spark更轻量级,且易于使用和扩展。相较于TensorFlow和PyTorch,Ray注重分布式计算的高效和弹性。在隐私计算方面,Ray提供了数据隐私保护,支持数据共享和协作,同时允许在不泄露原始数据的情况下进行深度学习模型训练。

  • 本地环境情况 2080ti 双卡 共 44g显存 64g内存

开始操作

1. 启动worker控制协调器 ---- controller
python -m fastchat.serve.controller --host 0.0.0.0
2. 启动API服务 ---- API server
python -m vllm.entrypoints.api_server --trust-remote-code --model /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --served-model gpt-3.5-turbo  --tensor-parallel-size 2 --dtype=half
3. model worker 有2种 如下
  1. 启动不带推理加速的 模型worker
python -m fastchat.serve.model_worker --model-path /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --host 0.0.0.0 --dtype=half  
  1. 启动 带vllm推理加速的 模型worker
python -m fastchat.serve.vllm_worker --model-path /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --host 0.0.0.0 --dtype=half  

注意这几个参数

  • --dtype=half 由于我的显卡是2080ti bf16算力只有7.5 所以需要变成fp16运行
  • --tensor-parallel-size 2启动apiserver时候 如果需要多卡张量并行 加上卡的数量

那么服务正常情况下已经跑起来了 地址服务器所在 localhost:8000

使用langchain进行测试
from langchain import PromptTemplate
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessagellm = ChatOpenAI(streaming=False,verbose=True,# callbacks=[callback],openai_api_key="none",openai_api_base="http://localhost:8000/v1",model_name="CodeQwen1.5-7B-Chat"
)# 提示词
template = """
我很想去{location}旅行,我应该在哪里做什么?
"""
prompt = PromptTemplate(input_variables=["location"],template=template,)
# 说白了就是在提示词的基础上,把输入的话进行格式化方法输入,前后添加了一些固定词
final_prompt = prompt.format(location='安徽合肥')print(f"最终提升次:{final_prompt}")
output = llm([HumanMessage(content=final_prompt)])
print(f"LLM输出结果:{output}")

在这里插入图片描述

我又写了一个简易的多线程来请求 回复速度很快

import threading
import timeclass MyThread(threading.Thread):def __init__(self):super().__init__() #必须调用父类的初始化方法def run(self) -> None:print()output = llm([HumanMessage(content=final_prompt)])print("当前线程:"+threading.current_thread().name+f"LLM输出结果:{output}")     for i in range(0,100):new_job = MyThread()new_job.setName(i)new_job.start() 

执行情况如下 并发速度还不错
在这里插入图片描述

显存占用情况如下
在这里插入图片描述
我这套方案 是我本人跑通验证过的
streaming=False可以用
streaming=True的话 估计要写符合Streamevent的http格式接收 但这个不是重点 后面有老哥研究好的话可以@我一下 共同进步!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/10249.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智慧仓储可视化大屏,以最直观的形式展示海量数据。

智慧仓储可视化大屏是一种通过数据可视化技术,将仓储管理系统中的海量数据以图表、地图、仪表盘等形式直观展示在大屏上的解决方案。它可以帮助仓储管理人员更清晰地了解仓库的运营情况,从而做出更明智的决策。 智慧仓储可视化大屏通常包括以下功能和特点…

三层架构慎用跨层公用数据类型

在三层架构中,定义公共数据类型供三个层共用是可能的,但这种做法需要谨慎考虑。虽然共享数据类型可以减少代码冗余和提高数据一致性,但也可能导致层与层之间的耦合度增加,从而降低了系统的可维护性和可扩展性。 如果你决定定义公…

IP 地址追踪工具促进有效的 IP 管理

网络 IP 地址空间的结构、扫描和管理方式因组织的规模和网络需求而异,网络越大,需要管理的 IP 就越多,IP 地址层次结构就越复杂。因此,如果没有 IP 地址管理(IPAM)解决方案,IP 资源过度使用和地…

cocos creator 帧率60 不生效meta50 能刷新到90

环境: cocos creator 2.4.3 华为meta 50 背景: 小游戏 需要在update 里取帧率 发现跟时间对不上 游戏设置60帧 手机上显示 90帧 cc.game.setFrameRate(30) 显示 30帧 cc.game.setFrameRate(60) 显示 90帧 结论: 对于老版本的cocos creator …

2024-05-10 Ubuntu上面使用libyuv,用于转换、缩放、旋转和其他操作YUV图像数据,测试实例使用I420ToRGB24

一、简介:libyuv 最初是由Google开发的,主要是为了支持WebRTC项目中的视频处理需求。用于处理YUV格式图像数据的开源库。它提供了一系列的函数,用于转换、缩放、旋转和其他操作YUV图像数据。 二、执行下面的命令下载和安装libyuv。 git clo…

java连锁美业收银系统源码-发布产品时选择【销售模式】是什么意思?

博弈美业管理系统源码 连锁多门店美业收银系统源码 多门店管理 / 会员管理 / 预约管理 / 排班管理 / 商品管理 / 促销活动 PC管理后台、手机APP、iPad APP、 发布总部实物商品或门店实物商品时,分“代销”和“买断”两种销售模式。(参数名&#xff1a…

一探究竟:Java NIO的奥秘与原理解析

引言 在计算机编程领域,I/O(输入/输出)操作一直是至关重要的一环。在传统的IO模型中,通常采用阻塞IO(Blocking I/O)方式,即程序在执行IO操作时会被阻塞,直到IO完成才能继续执行后续…

多功能投票小程序基于ThinkPHP+FastAdmin+Uniapp(源码搭建/上线/运营/售后/维护更新)

基于ThinkPHPFastAdminUniapp开发的多功能系统,支持图文投票、自定义选手报名内容、自定义主题色、礼物功能(高级授权)、弹幕功能(高级授权)、会员发布、支持数据库私有化部署,Uniapp提供全部无加密源码。 功能特性

后端的一些科普文章

后端开发一般有4个方面 后端开发流程 1阶段 域名认证 是每一个计算机在网络上有一个ip地址,可以通过这个地址来访问102.305.122.5(举例), 但是这个公网ip地址,比较难记忆,所以大家使用域名来更好的记忆…

VS远程调试

因为是做工厂应用的客制化项目,在客户现场出现异常,本地又很难复现,而且重启软件可能又自动恢复了,此时可以用VisualStudio自带的远程调试功能进行调试,不需要重启软件,能较好的定位问题。客户电脑上不需要…

SrpingBootSpringCloud导入spring-boot-starter-amqp依赖失败

原因&#xff1a;用的仓库里的依赖不完整 解决方法&#xff1a;改成中央仓库 在pom.xml的< project >标签下加入如下代码 <repositories><repository><id>central</id><url>https://repo1.maven.org/maven2</url><layout>defa…

EasyExcel简单使用

EasyExcel简单使用 ​ 之前一直用的Apache POI来做数据的导入导出&#xff0c;但听说阿里的EasyExcel也拥有POI的功能的同时&#xff0c;在处理大数据量的导入导出的时候性能上比POI更好&#xff0c;所以就来尝试使用一下 导入Maven依赖&#xff1a; <dependency><…

旅游系统小程序基于Uniapp+FastAdmin+ThinkPHP(源码搭建/上线/运营/售后/更新)

一款基于UniappFastAdminThinkPHP开发的旅游系统&#xff0c;包含消费者端&#xff08;手机端&#xff09;、机构工作人员&#xff08;手机端&#xff09;、机构端&#xff08;PC&#xff09;、平台管理端&#xff08;PC&#xff09;。机构可以发布旅游线路、景点项目&#xff…

【系统架构师】-选择题(十五)知识产权与嵌入式系统

1、实时操作系统&#xff08;RTOS&#xff09;内核与应用程序之间的接口称为&#xff08;API&#xff09; PCI是外设部件互连标准 GUI&#xff0c;图形用户界面&#xff0c;是用户与操作系统之间的接口 2、基于网络的数据库&#xff08;Netware Database&#xff0c;NDB&#x…

张驰咨询:AI与六西格玛——携手共进,非彼此替代

在历史的洪流中&#xff0c;技术与方法的演进如同波澜壮阔的画卷&#xff0c;不断书写着人类文明的篇章。六西格玛&#xff0c;作为一种追求极致品质与效率的方法论&#xff0c;是现代工业文明中的瑰宝。而当我们面对AI&#xff08;人工智能&#xff09;这一新时代的产物时&…

万物互联:塑造未来的新篇章

在科技日新月异的时代&#xff0c;万物互联&#xff08;IoE&#xff09;作为一项前沿技术&#xff0c;正在以前所未有的速度改变着我们的世界。万物互联不仅将各种设备和物体连接在一起&#xff0c;更重要的是&#xff0c;它正在推动技术的飞速发展&#xff0c;塑造着未来的新篇…

信息系统安全与对抗-网络侦查技术与网络扫描技术(期末复习简答题)

1、网络拓扑结构在网络攻击中的作用 查明目标网络的拓扑结构&#xff0c;有利于找到目标网络的关键节点&#xff0c;从而提高攻击效率&#xff0c;达到最大攻击效果。 2、网络侦查在网络攻击中的作用 识别潜在目标系统&#xff0c;确认目标系统适合哪种类型的攻击。 3、百度…

java将文件压缩打包后进行下载

今天受到一个需求&#xff0c;需要查出文件&#xff0c;然后将文件打包后下载。看了下项目里默认代码有压缩功能&#xff0c;以此修改了下&#xff0c;项目使用了hutool。项目是若依项目 定义zip的数据传输对象&#xff0c;ossId可以是文件表的id Data public class SysOssZi…

ACM 的代码编码示例

写在最前面的 实践的顺序&#xff0c; 应该是先将基础的 数据结构题目类型给实现。 然后再开始尝试 实现对应类型的算法题目&#xff0c;如回溯算法&#xff0c; 贪心算法&#xff0c; 动态规划&#xff0c; 图论&#xff1b; 基础的数据结构&#xff0c; 推荐卡尔的&#xff…