[大模型]XVERSE-7B-chat FastAPI 部署

XVERSE-7B-Chat为XVERSE-7B模型对齐后的版本。

XVERSE-7B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),参数规模为 70 亿,主要特点如下:

  • 模型结构:XVERSE-7B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持 8K 的上下文长度(Context Length),能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
  • 训练数据:构建了 2.6 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果。
  • 分词:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为 100,534 的分词器,能够同时支持多语言,而无需额外扩展词表。
  • 训练框架:自主研发多项关键技术,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等,让训练效率更高,模型稳定性强,在千卡集群上的峰值算力利用率可达到 58.5%,位居业界前列。

环境准备

在 Autodl 平台中租赁一个 3090 等 24G 显存的显卡机器,如下图所示镜像选择 PyTorch–>2.1.0–>3.10(ubuntu22.04)–>12.1(11.3 版本以上的都可以)。
接下来打开刚刚租用服务器的 JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行演示。

在这里插入图片描述

pip 换源加速下载并安装依赖包,为了方便大家进行环境配置,在 code 文件夹里面给大家提供了 requirement.txt 文件,大家直接使用下面的命令安装即可。如果你使用的是 autodl 部署模型的话,我们有制作好的镜像供大家使用:XVERSE-7B-Chat

# 升级pip
python -m pip install --upgrade pip
# 更换 pypi 源加速库的安装
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simplepip install -r requirement.txt

模型下载

使用 modelscope 中的 snapshot_download 函数下载模型,第一个参数为模型名称,参数 cache_dir 为模型的下载路径。

在 /root/autodl-tmp 路径下新建 model_download.py 文件并在其中输入以下内容,粘贴代码后请及时保存文件,如下图所示。并运行 python /root/autodl-tmp/model_download.py 执行下载,模型大小为 14GB,下载模型大概需要 2 分钟。

import torch
from modelscope import snapshot_download, AutoModel, AutoTokenizer
import os
model_dir = snapshot_download('xverse/XVERSE-7B-Chat', cache_dir='/root/autodl-tmp', revision='master')

代码准备

为了方便大家部署,在 code 文件夹里面已经准备好了代码,大家可以将仓库 clone 到服务器上直接运行。

在 /root/autodl-tmp 路径下新建 api.py 文件并在其中输入以下内容,粘贴代码后请及时保存文件。下面的代码有很详细的注释,大家如有不理解的地方,欢迎提出 issue。

from fastapi import FastAPI, Request
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
import uvicorn
import json
import datetime
import torch# 设置设备参数
DEVICE = "cuda"  # 使用CUDA
DEVICE_ID = "0"  # CUDA设备ID,如果未设置则为空
CUDA_DEVICE = f"{DEVICE}:{DEVICE_ID}" if DEVICE_ID else DEVICE  # 组合CUDA设备信息# 清理GPU内存函数
def torch_gc():if torch.cuda.is_available():  # 检查是否可用CUDAwith torch.cuda.device(CUDA_DEVICE):  # 指定CUDA设备torch.cuda.empty_cache()  # 清空CUDA缓存torch.cuda.ipc_collect()  # 收集CUDA内存碎片# 创建FastAPI应用
app = FastAPI()# 处理POST请求的端点
@app.post("/")
async def create_item(request: Request):global model, tokenizer  # 声明全局变量以便在函数内部使用模型和分词器json_post_raw = await request.json()  # 获取POST请求的JSON数据json_post = json.dumps(json_post_raw)  # 将JSON数据转换为字符串json_post_list = json.loads(json_post)  # 将字符串转换为Python对象prompt = json_post_list.get('prompt')  # 获取请求中的提示# 构建消息history = [{"role": "user", "content": prompt}]response = model.chat(tokenizer, history)now = datetime.datetime.now()  # 获取当前时间time = now.strftime("%Y-%m-%d %H:%M:%S")  # 格式化时间为字符串# 构建响应JSONanswer = {"response": response,"status": 200,"time": time}# 构建日志信息log = "[" + time + "] " + '", prompt:"' + prompt + '", response:"' + repr(response) + '"'print(log)  # 打印日志torch_gc()  # 执行GPU内存清理return answer  # 返回响应# 主函数入口
if __name__ == '__main__':# 加载预训练的分词器和模型model_path = "xverse/XVERSE-7B-Chat"tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16, trust_remote_code=True).cuda()model.generation_config = GenerationConfig.from_pretrained(model_path)model = model.eval()# 启动FastAPI应用# 用6006端口可以将autodl的端口映射到本地,从而在本地使用apiuvicorn.run(app, host='0.0.0.0', port=6006, workers=1)  # 在指定端口和主机上启动应用

Api 部署

在终端输入以下命令启动api服务:

cd /root/autodl-tmp
python api.py

加载完毕后出现如下信息说明成功。

在这里插入图片描述

默认部署在 6006 端口,通过 POST 方法进行调用,可以使用 curl 调用,如下所示:

curl -X POST "http://127.0.0.1:6006" \-H 'Content-Type: application/json' \-d '{"prompt": "你好,你是谁?"}'

也可以使用 python 中的 requests 库进行调用,如下所示:

import requests
import jsondef get_completion(prompt):headers = {'Content-Type': 'application/json'}data = {"prompt": prompt}response = requests.post(url='http://127.0.0.1:6006', headers=headers, data=json.dumps(data))return response.json()['response']if __name__ == '__main__':print(get_completion('你好,你是谁?'))

得到的返回值如下所示:

{"response":"我是元象公司开发的一个人工智能语言模型,名为XChat。我是基于Transformer架构训练出来的。我可以理解和生成自然语言,协助回答问题,提供信息,参与对话,创作文本等。请注意,我并非具有自我意识或个人情感,我只是一个能理解和生成文本的工具。我的知识截止于 2023 年 7 月,所以有关更近期事件和发展的信息可能不会包括在内。如果有任何问题,我会尽力提供帮助!","status":200,"time":"2024-04-18 12:07:16"}

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/853601.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HAL库开发--STM32的HAL环境搭建

知不足而奋进 望远山而前行 目录 文章目录 前言 下载 安装 解压 安装 添加开发包 修改仓库路径 下载软件开发包(慢,不推荐) 解压已有软件开发包(快,推荐) 总结 前言 在嵌入式系统开发中&#x…

线上教育培训办公系统系统的设计

管理员账户功能包括:系统首页,个人中心,管理员管理,教师管理,学生管理,运营事件管理 教师账户功能包括:系统首页,个人中心,学生管理,作业管理,电…

【React】《React 学习手册 (第2版) 》笔记-Chapter4-React 运行机制

四、React 运行机制 使用 React 构建应用几乎离不开 JSX。这是一种基于标签的 JavaScript 句法,看起来很像 HTML。 为了在浏览器中使用 React,我们要引入两个库:React 和 ReactDOM。前者用于创建视图,后者则具体负责在浏览器中渲…

Java版+ SaaS应用+接口技术RESTful API 技术开发的智慧医院HIS系统源码 专注医院管理系统研发 支持二开

Java版 SaaS应用接口技术RESTful API WebSocket WebService技术开发的智慧医院HIS系统源码 专注医院管理系统研发 支持二开 医院住院管理系统(Hospital Information System简称HIS)是一门医学、信息、管理、计算机等多种学科为一体的边缘科学&#xff…

servlet数量太多,搞个轻量级springmvc

这两天用jspservletMySQL开发了一个企业网站,后台和前台都有,功能已经实现了,现在总结发现,servlet是真的多,我这个系统有7个表,后台实现一遍增删改查,就得有28个servlet,而且还有前…

LabVIEW与Matlab联合编程的途径及比较

​ LabVIEW和Matlab联合编程可以通过多种途径实现,包括调用Matlab脚本节点、使用LabVIEW MathScript RT模块、利用ActiveX和COM接口,以及通过文件读写实现数据交换。每种方法都有其独特的优势和适用场景。本文将详细比较这些方法,帮助开发者…

给文件夹加密的最简单方法

安当TDE透明加密针对文件夹数据加密的保护方案主要包括以下几个方面: 1. 透明加密机制: 用户无需关心数据的加密和解密过程,操作文件夹时就像处理普通数据一样。加密和解密操作在后台自动进行,对用户和应用程序透明。 2. 高性能加…

python文件操作(Windows路径,内置os库)+ 正则表达式(语法与re库)

文章目录 前言1 Windows路径(1)绝对路径 (Absolute Path)(2)相对路径 (Relative Path)一、python文件的读写操作1 读写(1)打开文件file = open(test1.txt,r,encoding=utf-8) --- 打开文件(2)读取文件内容content = file.read() --- 读取全部内容,返回字符串lines = re…

【QT5】<知识点> QT常用知识(更新中)

目录 一、更改文本颜色和格式 二、QT容器类 三、字符串与整数、浮点数之间的转换 四、QString常用功能 五、SpinBox的属性介绍 六、滑动、滚动、进度条和表盘LCD 七、时间、日期、定时器 一、更改文本颜色和格式 动态设置字体粗体:QFont对象的setBold方法动态…

java第二十四课 —— super 关键字 | 方法重写

super 关键字 基本介绍 super 代表父类的引用,用于访问父类的属性、方法、构造器。 基本语法 访问父类的属性,但不能访问父类的 private 属性。 super.属性名; 访问父类的方法,不能访问父类的 private 方法。 super.方法名(参数列表); 访…

面试题——Redis

★1.简述一下缓存穿透,缓存击穿,缓存雪崩 ? 缓存穿透:大量恶意请求一个不存在的数据,使得压力绕过Redis缓存层打到数据库,造成数据库瘫痪 处理:①设置黑名单,维护一个可能存在也可能不存在的黑名单数据列表,对请求进行过滤(简单高效) ②布隆过滤器,会出现误删,且相对麻烦(不…

车载网络安全指南 生产、运行和服务阶段(九)

返回总目录->返回总目录<- 目录 一、现场检测 二、事件响应 三、事件跟踪管理 一、现场检测 具有联网功能的汽车电子产品宜具备网络安全监测能力。当汽车或相关基础设施被公众使用时,可实施现场监测,以便通过监测日常事件获得有关网络安全的威胁预警,根据预定程序…

【Qt 6.3基础教程 02】 Qt Creator入门与界面概览

文章目录 前言开始之前启动Qt Creator主要区域介绍 创建一个新项目界面概览菜单栏工具栏模式选择器编辑区项目管理区侧边栏底部面板 常用功能代码编写与自动补全UI设计构建与运行版本控制插件和扩展 总结 前言 Qt Creator是一个跨平台的集成开发环境&#xff08;IDE&#xff0…

数据仓库数据集成开源工具

数据集成是数据仓库建设的重要环节&#xff0c;开源工具在这一领域提供了许多强大的解决方案。以下是一些常见的开源数据集成工具&#xff0c;它们各自有独特的功能和特点&#xff1a; 1. Talend Open Studio for Data Integration 概述&#xff1a;Talend Open Studio 是一款…

C++设计模式---外观模式

1、介绍 外观模式&#xff08;Facade Pattern&#xff09;是一种结构型设计模式&#xff0c;它为子系统中的一组接口提供一个统一的、高层次的接口&#xff0c;使得子系统更容易使用。这种模式隐藏了子系统的复杂性&#xff0c;并为客户端提供了一个简单的接口。 外观模式的结…

node环境常见问题

文章目录 node运行环境常见问题1. node环境不支持ES6的import解决2. node版本太高&#xff0c;导致gitbook报错 node运行环境常见问题 1. node环境不支持ES6的import解决 在我学习ES6的import语法的时候&#xff0c;在自己电脑的node环境下模拟运行import&#xff0c;发现nod…

「C系列」C 位域

文章目录 一、C 位域位域的定义位域的使用注意事项位域示例代码 二、C 位域应用场景1. 访问硬件寄存器2. 节省内存空间3. 网络通信协议 三、相关链接 一、C 位域 在C语言中&#xff0c;位域&#xff08;bit-field&#xff09;是结构体&#xff08;struct&#xff09;中的一个特…

个人网站制作 Part 27 添加网站导航搜索功能 | Web开发项目添加页面缓存

文章目录 &#x1f680; 添加网站导航搜索功能&#x1f528;使用搜索服务&#x1f527;步骤 1: 选择搜索服务&#x1f527;步骤 2: 注册Algolia账户&#x1f527;步骤 3: 获取Algolia搜索配置 使用Vue.js&#x1f527;步骤 4: 安装Algolia搜索库&#x1f527;步骤 5: 创建搜索组…

C++中的指针和引用的区别

在C中&#xff0c;指针和引用都是用于间接访问内存位置的工具&#xff0c;但它们之间存在一些重要的区别。以下是它们之间的一些主要区别&#xff1a; 定义和初始化&#xff1a; 指针是一个变量&#xff0c;其值为另一个变量的地址。在定义指针时&#xff0c;需要为其指定类型。…

DNS域名解析----分离解析、多域名解析、父域与子域

1 理论部分 1.1 分离解析 DNS的分离解析&#xff0c;是指根据不同的客户端提供不同的域名解析记录。来自不同地址的客户机请求解析同一域名时&#xff0c;为其提供不同的解析结果。也就是内外网客户请求访问相同的域名时&#xff0c;能解析出不同的IP地址&#xff0c;实现负载…