Fastchat + vllm + ray + Qwen1.5-7b 在2080ti 双卡上 实现多卡推理加速

首先先搞清各主要组件的名称与作用:
  • FastChat
    FastChat框架是一个训练、部署和评估大模型的开源平台,其核心特点是:

    提供SOTA模型的训练和评估代码
    提供分布式多模型部署框架 + WebUI + OpenAI API

    Controller管理分布式模型实例
    Model Worker是大模型服务实例,它在启动时向Controller注册
    OpenAI API提供OpenAI兼容的API服务,接受请求后,先向Controller获取Model Worker地址,再向Model Worker实例发送请求生成文本,最后返回OpenAI兼容的报文。
    Fastchat 兼容的llm集合 请见 https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

在这里插入图片描述

  • vllm 推理加速框架
    vLLM 用于大模型并行推理加速,核心是 PagedAttention 算法,官网为:https://vllm.ai/。

  • ray 分布式框架
    Ray 是一个高性能的分布式计算框架,由UC Berkeley RISELab 开发,支持Python 语言,并可与PyTorch 等机器学习框架结合使用。Ray提供了高效的任务调度、支持多种编程语言和机器学习框架,且系统层的抽象使得资源利用和任务调度更加灵活高效。它比Spark更轻量级,且易于使用和扩展。相较于TensorFlow和PyTorch,Ray注重分布式计算的高效和弹性。在隐私计算方面,Ray提供了数据隐私保护,支持数据共享和协作,同时允许在不泄露原始数据的情况下进行深度学习模型训练。

  • 本地环境情况 2080ti 双卡 共 44g显存 64g内存

开始操作

1. 启动worker控制协调器 ---- controller
python -m fastchat.serve.controller --host 0.0.0.0
2. 启动API服务 ---- API server
python -m vllm.entrypoints.api_server --trust-remote-code --model /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --served-model gpt-3.5-turbo  --tensor-parallel-size 2 --dtype=half
3. model worker 有2种 如下
  1. 启动不带推理加速的 模型worker
python -m fastchat.serve.model_worker --model-path /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --host 0.0.0.0 --dtype=half  
  1. 启动 带vllm推理加速的 模型worker
python -m fastchat.serve.vllm_worker --model-path /home/ksl/llms/CodeQwen1.5-7B-Chat/CodeQwen1.5-7B-Chat  --host 0.0.0.0 --dtype=half  

注意这几个参数

  • --dtype=half 由于我的显卡是2080ti bf16算力只有7.5 所以需要变成fp16运行
  • --tensor-parallel-size 2启动apiserver时候 如果需要多卡张量并行 加上卡的数量

那么服务正常情况下已经跑起来了 地址服务器所在 localhost:8000

使用langchain进行测试
from langchain import PromptTemplate
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessagellm = ChatOpenAI(streaming=False,verbose=True,# callbacks=[callback],openai_api_key="none",openai_api_base="http://localhost:8000/v1",model_name="CodeQwen1.5-7B-Chat"
)# 提示词
template = """
我很想去{location}旅行,我应该在哪里做什么?
"""
prompt = PromptTemplate(input_variables=["location"],template=template,)
# 说白了就是在提示词的基础上,把输入的话进行格式化方法输入,前后添加了一些固定词
final_prompt = prompt.format(location='安徽合肥')print(f"最终提升次:{final_prompt}")
output = llm([HumanMessage(content=final_prompt)])
print(f"LLM输出结果:{output}")

在这里插入图片描述

我又写了一个简易的多线程来请求 回复速度很快

import threading
import timeclass MyThread(threading.Thread):def __init__(self):super().__init__() #必须调用父类的初始化方法def run(self) -> None:print()output = llm([HumanMessage(content=final_prompt)])print("当前线程:"+threading.current_thread().name+f"LLM输出结果:{output}")     for i in range(0,100):new_job = MyThread()new_job.setName(i)new_job.start() 

执行情况如下 并发速度还不错
在这里插入图片描述

显存占用情况如下
在这里插入图片描述
我这套方案 是我本人跑通验证过的
streaming=False可以用
streaming=True的话 估计要写符合Streamevent的http格式接收 但这个不是重点 后面有老哥研究好的话可以@我一下 共同进步!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/10249.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智慧仓储可视化大屏,以最直观的形式展示海量数据。

智慧仓储可视化大屏是一种通过数据可视化技术,将仓储管理系统中的海量数据以图表、地图、仪表盘等形式直观展示在大屏上的解决方案。它可以帮助仓储管理人员更清晰地了解仓库的运营情况,从而做出更明智的决策。 智慧仓储可视化大屏通常包括以下功能和特点…

IP 地址追踪工具促进有效的 IP 管理

网络 IP 地址空间的结构、扫描和管理方式因组织的规模和网络需求而异,网络越大,需要管理的 IP 就越多,IP 地址层次结构就越复杂。因此,如果没有 IP 地址管理(IPAM)解决方案,IP 资源过度使用和地…

2024-05-10 Ubuntu上面使用libyuv,用于转换、缩放、旋转和其他操作YUV图像数据,测试实例使用I420ToRGB24

一、简介:libyuv 最初是由Google开发的,主要是为了支持WebRTC项目中的视频处理需求。用于处理YUV格式图像数据的开源库。它提供了一系列的函数,用于转换、缩放、旋转和其他操作YUV图像数据。 二、执行下面的命令下载和安装libyuv。 git clo…

java连锁美业收银系统源码-发布产品时选择【销售模式】是什么意思?

博弈美业管理系统源码 连锁多门店美业收银系统源码 多门店管理 / 会员管理 / 预约管理 / 排班管理 / 商品管理 / 促销活动 PC管理后台、手机APP、iPad APP、 发布总部实物商品或门店实物商品时,分“代销”和“买断”两种销售模式。(参数名&#xff1a…

多功能投票小程序基于ThinkPHP+FastAdmin+Uniapp(源码搭建/上线/运营/售后/维护更新)

基于ThinkPHPFastAdminUniapp开发的多功能系统,支持图文投票、自定义选手报名内容、自定义主题色、礼物功能(高级授权)、弹幕功能(高级授权)、会员发布、支持数据库私有化部署,Uniapp提供全部无加密源码。 功能特性

后端的一些科普文章

后端开发一般有4个方面 后端开发流程 1阶段 域名认证 是每一个计算机在网络上有一个ip地址,可以通过这个地址来访问102.305.122.5(举例), 但是这个公网ip地址,比较难记忆,所以大家使用域名来更好的记忆…

VS远程调试

因为是做工厂应用的客制化项目,在客户现场出现异常,本地又很难复现,而且重启软件可能又自动恢复了,此时可以用VisualStudio自带的远程调试功能进行调试,不需要重启软件,能较好的定位问题。客户电脑上不需要…

EasyExcel简单使用

EasyExcel简单使用 ​ 之前一直用的Apache POI来做数据的导入导出&#xff0c;但听说阿里的EasyExcel也拥有POI的功能的同时&#xff0c;在处理大数据量的导入导出的时候性能上比POI更好&#xff0c;所以就来尝试使用一下 导入Maven依赖&#xff1a; <dependency><…

旅游系统小程序基于Uniapp+FastAdmin+ThinkPHP(源码搭建/上线/运营/售后/更新)

一款基于UniappFastAdminThinkPHP开发的旅游系统&#xff0c;包含消费者端&#xff08;手机端&#xff09;、机构工作人员&#xff08;手机端&#xff09;、机构端&#xff08;PC&#xff09;、平台管理端&#xff08;PC&#xff09;。机构可以发布旅游线路、景点项目&#xff…

张驰咨询:AI与六西格玛——携手共进,非彼此替代

在历史的洪流中&#xff0c;技术与方法的演进如同波澜壮阔的画卷&#xff0c;不断书写着人类文明的篇章。六西格玛&#xff0c;作为一种追求极致品质与效率的方法论&#xff0c;是现代工业文明中的瑰宝。而当我们面对AI&#xff08;人工智能&#xff09;这一新时代的产物时&…

万物互联:塑造未来的新篇章

在科技日新月异的时代&#xff0c;万物互联&#xff08;IoE&#xff09;作为一项前沿技术&#xff0c;正在以前所未有的速度改变着我们的世界。万物互联不仅将各种设备和物体连接在一起&#xff0c;更重要的是&#xff0c;它正在推动技术的飞速发展&#xff0c;塑造着未来的新篇…

信息系统安全与对抗-网络侦查技术与网络扫描技术(期末复习简答题)

1、网络拓扑结构在网络攻击中的作用 查明目标网络的拓扑结构&#xff0c;有利于找到目标网络的关键节点&#xff0c;从而提高攻击效率&#xff0c;达到最大攻击效果。 2、网络侦查在网络攻击中的作用 识别潜在目标系统&#xff0c;确认目标系统适合哪种类型的攻击。 3、百度…

Github 配置 SSH key

一、前言 问题描述 通过 ssh 的 url 使用 git 命令克隆 github 上私有项目出现 fatal: Could not read from remote repository. 本地仓库无法从远程仓库读取数据克隆失败 问题定位 一般是仓库 URL 错误或者权限问题这里排除 URL 错误&#xff0c;初步定位为访问权限问题 解决…

[Fork.dev] 增加用idea打开

用Fork做git管理工具时, 只有vscode 和sublime 等. 没有idea的. 今天研究了下如何操作.记录一下 点击 Action 文本框进行编辑 Path填写idea的执行位置. Parameters: 填写 ${repo:path} 代表用idea打开的文件夹路径为当前. 最终显示效果

端到端将重塑智驾?获10亿美金融资,解密英国AI独角兽Wayve

‍作者 |张马也 编辑 |德新 就在前两天&#xff0c;英国AI公司Wayve宣布获得新一轮10.5亿美元融资&#xff0c;投资方为软银、英伟达和现有投资人微软&#xff0c;可以说是顶级豪华阵容。 作为一家英国公司&#xff0c;Wayve这轮融资也创造了英国AI公司有史以来最大的单笔融资…

Linux——mysql运维篇

回顾基本语句&#xff1a; 数据定义语言 ( DDL ) 。这类语言用于定义和修改数据库的结构&#xff0c;包括创建、删除和修改数据库、表、视图和索引等对象。主要的语句关键字包括 CREATE 、 DROP 、 ALTER 、 RENAME 、 TRUNCATE 等。 create database 数据库 &…

CCC数字钥匙各版本关系

CCC钥匙规范版本关系 CCC数字钥匙架构Overview

2024精选7个wordpress模板

通用多用途wordpress模板 中国红WordPress模板&#xff0c;适合服务行业企业建站的通用多用途wordpress模板。 WordPress是一款使用PHP语言开发的开源内容管理系统(CMS)&#xff0c;最初设计用于个人博客&#xff0c;但随着时间的发展&#xff0c;它已经演化成为一个功能强大的…

谷歌上架攻略:个人号20人连续14天封闭测试的详细流程及相关注意事项

众所周知&#xff0c;近年来&#xff0c;Google play为了确保应用质量和用户体验&#xff0c;对开发者提出不少新要求。其中&#xff0c;对于个人开发者的一项要求是&#xff0c;自2023年11月13日起&#xff0c;新注册的个人开发者账号在上架正式版应用前&#xff0c;必须经过2…