我在本地部署通义千问Qwen1.5大模型,并实现简单的对话和RAG

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。

汇总合集:《大模型面试宝典》(2024版) 发布!


这篇文章中,我们将开源的大模型部署到本地,并实现简单的对话和RAG。

环境准备

本地实验环境:

系统:Win11
显卡:1070(8G显存)

首先更新显卡驱动到最新版本,可以去官网下载或者直接在NVIDIA Geforce Experience中直接更新驱动到最新版本,新版本的驱动向下兼容更多版本的CUDA。

图片

查看显卡驱动支持的CUDA的最高版本,小于等于此版本的CUDA均可以使用。CMD或powershell中执行如下命令:

nvidia-smi

图片

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了算法岗技术与面试交流群, 想要获取最新面试题、了解最新面试动态的、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2040。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2040,备注:技术交流

在https://pytorch.org/查看当前最新版PyTorch支持最低Python版本为3.8,支持CUDA的11.8和12.1版本,后面我们选择安装12.1版本。

图片

最终生成的命令可以拷贝出来,下文需要使用。

安装CUDA 12.1(可选)

此步骤可选,不安装的话后面Torch会自动安装

下载地址:

https://developer.nvidia.com/cuda-12-1-1-download-archive

图片

下载完成后直接安装即可,如果已经安装需要先卸载后再装。

安装conda

conda可以用来管理Python环境,后面我们会使用conda创建一个Python3.10的运行环境。

下载地址:

https://www.anaconda.com/download

安装完成后,为了能在命令行中使用,需要将conda的相关目录加入环境变量,例如安装在D:\developer\anaconda,则需要将以下目录添加到PATH中:

D:\developer\anaconda
D:\developer\anaconda\Scripts
D:\developer\anaconda\Library\bin
D:\developer\anaconda\Library\mingw-w64\bin

打开powershell,执行conda init初始化conda的powershell和cmd环境,linux下会初始化bash环境,初始化后方便进入conda创建的Python环境。

使用conda创建PyTorch环境

我们使用conda创建一个Python版本为3.10的Python运行环境,在命令行中执行如下命令:

conda create -n pytorch python=3.10
conda activate pytorch

使用上文中安装PyTorch的命令安装PyTorch

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

5下载模型

我们可以去模搭社区获取模型,国内的地址,下载速度快,不需要魔法可以直接访问。

模型库地址:https://modelscope.cn/models

这里使用Qwen1.5-0.5B-Chat这个对话模型进行体验,模型较小,占用内存少,生成速度快。

点击模型文件 -> 下载模型,可支持两种下载方式:Sdk和Git

我们通过git的方式将模型文件下载到本地

mkdir Qwen && cd Qwen
git clone https://www.modelscope.cn/qwen/Qwen1.5-0.5B-Chat.git
cd ..

加载模型

1. 模型功能验证

可以使用modelscope Library加载模型,使用方法与transformers相同,使用AutoModelForCausalLM.from_pretrained方法和AutoTokenizer.from_pretrained从本地文件中加载,如果路径不存在,这两个方法会自动到modelscope下载模型文件。

需要先安装modelscope库:

pip install modelscope transformers

使用量化模型的话需要安装以下库:

pip install optimum auto-gptq

创建一个Python文件,放到与上文Qwen文件夹同级的目录中,内容如下:

from threading import Threadfrom modelscope import (AutoModelForCausalLM, AutoTokenizer)
from transformers import TextIteratorStreamerdevice = "cuda"  # 将模型加载到哪个硬件,此处为GPUmodel = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-0.5B-Chat", # 模型文件夹路径device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-0.5B-Chat")while True:user_input = input("请输入问题(q退出):")if user_input.lower() == "q":print("exit")breaktry:messages = [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": user_input}]text = tokenizer.apply_chat_template(messages,tokenize=False,add_generation_prompt=False)inputs = tokenizer([text], return_tensors="pt").to(device)streamer = TextIteratorStreamer(tokenizer)generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=512)thread = Thread(target=model.generate, kwargs=generation_kwargs)thread.start()generated_text = ""count = 0for new_text in streamer:generated_text += new_textprint(new_text, end="", flush=True)print()except Exception as e:print(f"出错了:{str(e)}")

上面的代码首先从本地模型文件夹中加载了模型和分词器,然后我们在一个循环中接收用户输入,并将输入处理后通过大模型进行内容生成。我们可以通过python运行上面的文件,运行后,就可以测试了,就测试运行效果如下:

图片

2. LangChain加载本地模型

到目前为止,我们已经在本地跑起来了一个千问0.5B大语言模型,接下来需要让langchain能够加载这个本地模型。

如果要用langchain加载模型,我们需要继承langchain.llms.base.LLM 类,并且重写_llm_type, _call方法,因为我们需要支持流式输出,就需要重写_stream方法。可参考langchain的官方文档:Custom LLM | 🦜️🔗 LangChain

下面是这个类的代码:

from abc import ABC
from threading import Thread
from typing import Any, List, Mapping, Optional, Iteratorfrom langchain.callbacks.manager import CallbackManagerForLLMRun
from langchain.llms.base import LLM
from langchain_core.outputs import GenerationChunk
from modelscope import AutoModelForCausalLM, AutoTokenizer
from transformers import TextIteratorStreamerdevice = "cuda"  # the device to load the model ontomodel = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-0.5B-Chat",device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-0.5B-Chat")class QwenLocalLLM(LLM, ABC):max_token: int = 10000temperature: float = 0.01top_p = 0.9def __init__(self):super().__init__()@propertydef _llm_type(self) -> str:return "Qwen"def _call(self,prompt: str,stop: Optional[List[str]] = None,run_manager: Optional[CallbackManagerForLLMRun] = None,**kwargs: Any) -> str:messages = [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": prompt}]text = tokenizer.apply_chat_template(messages,tokenize=False,add_generation_prompt=True)model_inputs = tokenizer([text], return_tensors="pt").to(device)generated_ids = model.generate(model_inputs.input_ids,max_new_tokens=512)generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]return response@propertydef _identifying_params(self) -> Mapping[str, Any]:"""Get the identifying parameters."""return {"max_token": self.max_token,"temperature": self.temperature,"top_p": self.top_p,"history_len": self.history_len}def _stream(self,prompt: str,stop: Optional[List[str]] = None,run_manager: Optional[CallbackManagerForLLMRun] = None,**kwargs: Any,) -> Iterator[GenerationChunk]:try:messages = [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": prompt}]text = tokenizer.apply_chat_template(messages,tokenize=False,add_generation_prompt=False)inputs = tokenizer([text], return_tensors="pt").to(device)streamer = TextIteratorStreamer(tokenizer)generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=512)thread = Thread(target=model.generate, kwargs=generation_kwargs)thread.start()generated_text = ""for new_text in streamer:generated_text += new_textprint(new_text, end="", flush=True)yield GenerationChunk(text=new_text)print()except Exception as e:print(f"出错了:{str(e)}")yield GenerationChunk(text=f"生成失败: {str(e)}")

最后修改上一篇文章中的生成方法,将初始化千问模型的代码替换为上面的实现类:

# 替换前
model = Tongyi()
model.model_name = "qwen-max"# 替换后
model = QwenLocalLLM()

效果展示

更换之前:

图片

图片

生成结果:

离线包更新的原理涉及以下几个方面:

  1. 离线包结构 :离线包通常是一个包含前端资源的.zip包,这些资源可以是HTML、CSS、JavaScript文件或者图片等。这些资源被组织在一起,以便客户端能够下载并离线使用。

  2. 离线包类型:可能有不同类型的离线包,比如全量包和增量包。全量包包含所有更新的资源,而增量包只包含与旧版本相比发生变化的资源。

  3. 渲染过程:当客户端应用启动或用户触发更新时,会通过特定的RPC调用获取最新的离线包信息。然后,客户端会下载这个包,并将其解压缩到本地的沙盒目录。如果配置了验签,客户端还会验证包的完整性。一旦包被成功解压和验证,客户端会使用新的资源来渲染页面。

  4. 更新流程:更新流程包括构建前端.zip包,在线生成.amr包(可能是处理签名和版本信息的打包格式),然后通过发布平台将包推送给客户端。客户端在接收到更新信息后,会下载并应用新的离线包。

  5. 检查和调试:如果客户端无法加载新包,可以通过检查RPC返回结果、确认加载的离线包信息、检查沙盒目录下的解压情况、验证签名以及使用Safari调试H5页面来排查问题。

  6. 客户端范围:在控制台上传新版本离线包时,需要指定支持的客户端版本范围,只有在这个范围内的客户端才能接收并更新离线包。

  7. 用户交互:在应用中,用户触发更新后,会收到提示,更新完成后可以访问使用新离线包的页面。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/1825.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WordPress 告别 MySQL:Docker SQLite WordPress

本篇文章聊聊,如何将这个持续诞生和维护了 21 年的开源软件“脱离数据库”运行,让它能够更加轻量、适合低成本离线运行。 写在前面 2003 年,Michel Valdrighi 基于 b2/cafelog 创建了开源软件 WordPress,并在 GPL 协议下发布。 …

(一)Java EE企业级应用开发实战之Servlet教程——JDK安装

首先打开清华大学开源软件镜像站,清华大学开源镜像网站地址为: https://mirrors.tuna.tsinghua.edu.cn/ 打开该地址后的界面显示如下图所示 找到8版本对应的SDK安装包,我现在用的开发机器是Windows,所以我找的是Windows对应的版本…

[柏鹭杯 2021]试试大数据分解?

题目:(NSSCTF | 在线CTF平台) 题目就是如此,我没看到有5个不同的文本,其中最后一个文本以pem后缀,所以我们先来了解一下什么是pem格式。 PEM 格式 PEM格式通常用于数字证书认证机构(Certifica…

EelasticSearch的介绍和基于docker安装

1.概述 Elasticsearch 是一个基于 Apache Lucene 构建的开源分布式搜索引擎和分析引擎。它专为云计算环境设计,提供了一个分布式的、高可用的实时分析和搜索平台。Elasticsearch 可以处理大量数据,并且具备横向扩展能力,能够通过增加更多的硬…

AES和RSA加解密算法学习笔记(实战版)

1. 写在前面 今天整理一篇有关密码学的学习笔记,原因是最近做的一个任务是在网络传输的时候,需要对传输的包进行加密和解密工作,以保证传输过程的安全性。所以,这个过程用到了AES和RSA两个算法。 场景:假设我要给我的老师传送毕设代码和论文, 我已经把代码和论文打成了一…

VSCode 配置 C/C++ 环境

1 安装 VSCode 直接去官网(https://code.visualstudio.com/)下载并安装即可。 2 配置C/C编译环境 方案一 如果是在Windows,需要安装 MingW,可以去官网(https://sourceforge.net/projects/mingw-w64/)下载安装包。 注意安装路径不要出现中文。 打开 w…

Ubuntu-18.04本地化部署Rustdesk服务器

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、配置防火墙二、安装三大件1.下载三大件2.安装三大件 三、安装客户端1.下载客户端1.Windows2.Linux 四、配置客户端连接服务器五、总结 前言 如果你是想数据…

JEECG表格选中状态怎么去掉

官网代码(在取消选中状态的时候不生效) rowSelection() {return {onChange: (selectedRowKeys, selectedRows) > {console.log(selectedRowKeys: ${selectedRowKeys}, selectedRows: , selectedRows);},getCheckboxProps: record > ({props: {disa…

数据结构系列-堆排序

🌈个人主页:羽晨同学 💫个人格言:“成为自己未来的主人~” 昨天我们实现的堆的搭建,我们今天实现以下堆的排序, 堆的排序的最大的优点就是提高的效率,减小了时间复杂度,在这个里面我们有一个…

面试十八、容器适配器

容器适配器是一种特殊类型的容器,它们提供了一种不同于常规容器的接口和行为。容器适配器通常是建立在其他容器之上,通过改变接口或添加限制来满足特定的需求或解决特定的问题。 在 C 中,标准库提供了三种常见的容器适配器: 栈&am…

Web3钱包开发获取测试币-Polygon Mumbai(一)

Web3钱包开发获取测试币-Polygon Mumbai(一) 由于主网区块链上的智能合约需要真正的代币,而部署和使用需要花费真金白银,因此测试网络为 Web3 开发人员提供了一个测试环境,用于部署和测试他们的智能合约,以识别和修复在将智能合约…

边缘渲染是什么意思?属于云渲染吗?

边缘渲染,即利用靠近数据源或用户的边缘计算资源进行渲染,以减少数据传输延迟并提升处理速度。这种方式虽然基于云技术,但更注重数据处理的地理位置优化,与传统的云渲染有所不同。 一、边缘渲染属于什么意思? 边缘渲染是一种基于…

周鸿祎和雷军、马化腾相逢一笑泯恩仇

关注卢松松,会经常给你分享一些我的经验和观点。 马云竟然没有到场,真是遗憾! 前两天工信部和互联网协会联合举办的中国互联网三十周年座谈会上。周鸿祎、雷军、马化腾相逢一笑泯恩仇。 第一条视频: 周鸿祎和马化腾握手言欢&#xff0c…

一道有意思的面试题

面试过程中没有想到合适的数据结构,想了半天,构思没有实践落地。 也是听错了,以为三道题都要做,做出来了两道,这道死活没落地成功。 结果,三道题里面任选一道就行。。。。 好吧 题目:给定一个…

对接浦发银行支付(八)-- 对账接口

一、背景 本文不是要讲述支付服务的对账模块具体怎么做,仅是介绍如何对接浦发银行的对账接口。 也就是说,本文限读取到对账文件的内容,不会进一步去讲述如何与支付平台进行对账。 如果要获取商户的对账单,需要遵循以下步骤&…

【从浅学到熟知Linux】进程间通信之匿名管道方式(进程间通信方式汇总、匿名管道的创建、匿名管道实现进程池详解)

🏠关于专栏:Linux的浅学到熟知专栏用于记录Linux系统编程、网络编程等内容。 🎯每天努力一点点,技术变化看得见 文章目录 进程间通信介绍如何实现进程间通信进程间通信分类 管道通信方式什么是管道匿名管道pipe匿名管道读写规则管…

PMP®证书适合哪些岗位?哪些人适合报考?

PMP无处不在,不受岗位限制,因为项目管理思维都是相通的,就算你不想从事项目管理工作,也能应用到其他领域内。 当时报考PMP的人群中某些行业和岗位相对而言会多一些,本文就给大家介绍一下哪些行业、岗位的人群适合报考…

echarts折线图默认不显示数据圆点,鼠标划上之后折线图才显示圆点

只需要设置showSymbol为false就可以了,表示只在 tooltip hover 的时候显示。 代码如下: option {tooltip: {trigger: axis},xAxis: {type: category,data: [Mon, Tue, Wed, Thu, Fri, Sat, Sun]},yAxis: {type: value},series: [{data: [150, 230, 224…

Acrobat Pro DC 2021:强大的PDF编辑软件

Acrobat Pro DC 2021是Adobe公司推出的一款全面而强大的PDF编辑软件,凭借其卓越的性能和丰富的功能,成为了PDF编辑领域的领军者。 Acrobat Pro DC 2021中文激活版下载 这款软件具备全面的PDF编辑功能,包括文本编辑、图片处理、页面组织等&…

单例模式与反射创建对象

单例模式 饿汉式单例模式 单例模式,就是自己先把自己创建了,整个程序都只有这一个实例,别人都没有办法创建实例,因为他的构造方法是private的 一次性把全部都创建了 public class HungryMan {private static int [][] s new …