vllm 部署GLM4模型进行 Zero-Shot 文本分类实验,让大模型给出分类原因,准确率可提高6%

简介

本文记录了使用 vllm 部署 GLM4-9B-Chat 模型进行 Zero-Shot 文本分类的实验过程与结果。通过对 AG_News 数据集的测试,研究发现大模型在直接进行分类时的准确率为 77%。然而,让模型给出分类原因描述(reason)后,准确率显著提升至 83%,提升幅度达 6%。这一结果验证了引入 reason 机制的有效性。文中详细介绍了实验数据、提示词设计、模型推理方法及评估手段。

复现自这篇论文:Text Classification via Large Language Models. https://arxiv.org/abs/2305.08377 让大模型使用reason。

数据集

现在要找一个数据集做实验,进入 https://paperswithcode.com/。
找到 文本分类,看目前的 SOTA 是在哪些数据集上做的,文本分类. https://paperswithcode.com/task/text-classification

在这里插入图片描述

实验使用了 AG_News 数据集。若您对数据集操作技巧感兴趣,可以参考这篇文章:

datasets库一些基本方法:filter、map、select等. https://blog.csdn.net/sjxgghg/article/details/141384131

实验设置

settings.py 文件中,我们定义了一些实验中使用的提示词:

LABEL_NAMES = ['World', 'Sports', 'Business', 'Science | Technology']  BASIC_CLS_PROMPT = """  
你是文本分类专家,请你给下述文本分类,把它分到下述类别中:  
* World  
* Sports  
* Business  
* Science | Technology  text是待分类的文本。请你一步一步思考,在label中给出最终的分类结果:  
text: {text}  
label:   
"""  REASON_CLS_PROMPT = """  
你是文本分类专家,请你给下述文本分类,把它分到下述类别中:  
* World  
* Sports  
* Business  
* Science | Technology  text是待分类的文本。请你一步一步思考,首先在reason中说明你的判断理由,然后在label中给出最终的分类结果:  
text: {text}  
reason:   
label:   
""".lstrip()  data_files = [  "data/basic_llm.csv",  "data/reason_llm.csv"  
]  output_dirs = [  "output/basic_vllm.pkl",  "output/reason_vllm.pkl"  
]  

这两个数据文件用于存储不同提示词的大模型推理数据:

  • data/basic_llm.csv

  • data/reason_llm.csv

数据集转换

为了让模型能够执行文本分类任务,我们需要对原始数据集进行转换,添加提示词。

原始的数据集样式,要经过提示词转换后,才能让模型做文本分类。

代码如下:

data_processon.ipynb

from datasets import load_dataset  from settings import LABEL_NAMES, BASIC_CLS_PROMPT, REASON_CLS_PROMPT, data_files  import os  
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'  
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'  # 加载 AG_News 数据集的测试集,只使用test的数据去预测  
ds = load_dataset("fancyzhx/ag_news")  # 转换为 basic 提示词格式  
def trans2llm(item):  item["text"] = BASIC_CLS_PROMPT.format(text=item["text"])  return item  
ds["test"].map(trans2llm).to_csv(data_files[0], index=False)  # 转换为 reason 提示词格式  
def trans2llm(item):  item["text"] = REASON_CLS_PROMPT.format(text=item["text"])  return item  
ds["test"].map(trans2llm).to_csv(data_files[1], index=False)  

上述代码实现的功能就是把数据集的文本,放入到提示词的{text} 里面。

模型推理

本文使用 ZhipuAI/glm-4-9b-chat. https://www.modelscope.cn/models/zhipuai/glm-4-9b-chat 智谱9B的chat模型,进行VLLM推理。

为了简化模型调用,我们编写了一些实用工具:

utils.py

import pickle  
from transformers import AutoTokenizer  
from vllm import LLM, SamplingParams  
from modelscope import snapshot_download  def save_obj(obj, name):  """  将对象保存到文件  :param obj: 要保存的对象  :param name: 文件的名称(包括路径)  """  with open(name, "wb") as f:  pickle.dump(obj, f, pickle.HIGHEST_PROTOCOL)  def load_obj(name):  """  从文件加载对象  :param name: 文件的名称(包括路径)  :return: 反序列化后的对象  """  with open(name, "rb") as f:  return pickle.load(f)  def glm4_vllm(prompts, output_dir, temperature=0, max_tokens=1024):  # GLM-4-9B-Chat-1M  max_model_len, tp_size = 131072, 1  model_dir = snapshot_download('ZhipuAI/glm-4-9b-chat')  tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)  llm = LLM(  model=model_dir,  tensor_parallel_size=tp_size,  max_model_len=max_model_len,  trust_remote_code=True,  enforce_eager=True,  )  stop_token_ids = [151329, 151336, 151338]  sampling_params = SamplingParams(temperature=temperature, max_tokens=max_tokens, stop_token_ids=stop_token_ids)  inputs = tokenizer.apply_chat_template(prompts, tokenize=False, add_generation_prompt=True)  outputs = llm.generate(prompts=inputs, sampling_params=sampling_params)  save_obj(outputs, output_dir)  

glm4_vllm :

  • 参考自 https://www.modelscope.cn/models/zhipuai/glm-4-9b-chat

给大家封装好了,以后有任务,直接调用函数

save_obj:

  • 把python对象,序列化保存到本地;

    在本项目中,用来保存 vllm 推理的结果;

模型推理代码

from datasets import load_dataset  from utils import glm4_vllm  
from settings import data_files, output_dirs  # basic 预测  
basic_dataset = load_dataset(  "csv",  data_files=data_files[0],  split="train",  
)  
prompts = []  
for item in basic_dataset:  prompts.append([{"role": "user", "content": item["text"]}])  
glm4_vllm(prompts, output_dirs[0])  # reason 预测,添加了原因说明  
reason_dataset = load_dataset(  "csv",  data_files=data_files[1],  split="train",  
)  
prompts = []  
for item in reason_dataset:  prompts.append([{"role": "user", "content": item["text"]}])  
glm4_vllm(prompts, output_dirs[1])  # nohup python cls_vllm.py > cls_vllm.log 2>&1 &  

在推理过程中,我们使用了 glm4_vllm 函数进行模型推理,并将结果保存到指定路径。

output_dirs: 最终推理完成的结果输出路径;

评估

在获得模型推理结果后,我们需要对其进行评估,以衡量分类的准确性。

eval.ipynb

from settings import LABEL_NAMES  
from utils import load_obj  from datasets import load_dataset  
from settings import data_files, output_dirs  import os  
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'  
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'  ds = load_dataset("fancyzhx/ag_news")  
def eval(raw_dataset, vllm_predict):  right = 0 # 预测正确的数量  multi_label = 0 # 预测多标签的数量  for data, output in zip(raw_dataset, vllm_predict):  true_label = LABEL_NAMES[data['label']]  output_text = output.outputs[0].text  pred_label = output_text.split("label")[-1]  tmp_pred = []  for label in LABEL_NAMES:  if label in pred_label:  tmp_pred.append(label)  if len(tmp_pred) > 1:  multi_label += 1  if " ".join(tmp_pred) == true_label:  right += 1  return right, multi_label  

我们分别对 basic 和 reason 预测结果进行了评估。

basic 预测结果的评估 :

dataset = load_dataset(  'csv',   data_files=data_files[0],   split='train'  )  
output = load_obj(output_dirs[0])  eval(dataset, output)  

输出结果:

(5845, 143)  

加了reason 预测结果评估:

dataset = load_dataset(  'csv',   data_files=data_files[1],   split='train'  )  
output = load_obj(output_dirs[1])  eval(dataset, output)  

输出结果:

(6293, 14)  

评估结果如下:

  • basic: 直接分类准确率为 77%(5845/7600),误分类为多标签的样本有 143 个。

  • reason: 在输出原因后分类准确率提高至 83%(6293/7600),多标签误分类样本减少至 14 个。

误分类多标签: 这是单分类问题,大模型应该只输出一个类别,但是它输出了多个类别;

可以发现,让大模型输出reason,其分类准确率提升了5%。

在误分类多标签的数量也有所下降。原先误分类多标签有143条数据,使用reason后,多标签误分类的数量降低到了14条。

这些结果表明,让模型输出 reason的过程,确实能够有效提升分类准确性,并减少误分类多个标签的情况。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/56261.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用IDEA和vecode创建vue项目并启动

一、使用IDEA创建Vue项目 一、打开IDEA下载Vue插件 打开IDEA的设置找到插件并查找到下载Vue.js这个插件 二、用IDEA创建Vue项目 新建项目并选择到Vue生成器 我这是IDEA自带的 创建项目非常迅速 端口号(默认):5173 版本是3.x 启动项目…

使用scss生成旋转圆圈

图片 html代码&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title>…

modbus tcp wireshark抓包

Modbus TCP报文详解与wireshark抓包分析_mbap-CSDN博客 关于wireshark无法分析出modbusTCP报文的事情_wireshark 协议一列怎么没有modbus tcp-CSDN博客 使用Wireshark过滤Modbus功能码 - 技象科技 连接建立以后才能显示Modbus TCP报文 modbus.func_code 未建立连接时&…

澳鹏干货 | 大语言模型的上下文窗口 (Context Windows)

大语言模型&#xff08;LLMs&#xff09;极大地提升了人工智能在理解和生成文本方面的能力。其中一个影响其效用的重要方面是“上下文窗口”&#xff08;Context Windows&#xff09;—— 这个概念直接影响着模型接收和生成语言的有效性。 本期澳鹏干货将深入探讨上下文窗口对…

Spark:DataFrame介绍及使用

1. DataFrame详解 DataFrame是基于RDD进行封装的结构化数据类型&#xff0c;增加了schema元数据&#xff0c;最终DataFrame类型在计算时&#xff0c;还是转为rdd计算。DataFrame的结构化数据有Row&#xff08;行数据&#xff09;和schema元数据构成。 Row 类型 表示一行数据 …

C++笔记之原子操作

C++笔记之原子操作 code review! 文章目录 C++笔记之原子操作1.初始化2.赋值3.取值4.赋给另一个原子类型5.`exchange`6.`compare_exchange_weak` 和 `compare_exchange_strong`使用场景7.注意事项在 C++ 中,原子类型提供了对共享变量的无锁操作,确保多线程环境下的安全。以下…

AI的风终于吹到到了短剧,也把财富的风吹到了家门口!

近年来&#xff0c;AI技术在短剧领域的创新应用&#xff0c;给整个行业带来了全新的变革。以快手平台为例&#xff0c;一部以**《山海经》为背景的短剧“李行舟”在今年7月13日上线后引发热议。** 这部短剧讲述了少年李行舟在大海中与古代神灵和各种异兽搏斗的故事。与传统影视…

A0001.主机访问虚拟机中的共享文件完事教程

1. 先在虚拟机中创建一个共享文件夹 2. 在虚拟机的windows系统中查看ip地址 3. 检查网络是否连通 4. 访问虚拟机 5. 登录帐号密码

【JavaEE】——Udp翻译器的实现(回显服务器)

阿华代码&#xff0c;不是逆风&#xff0c;就是我疯 你们的点赞收藏是我前进最大的动力&#xff01;&#xff01; 希望本文内容能够帮助到你&#xff01;&#xff01; 目录 一&#xff1a;引入 1&#xff1a;基本概念 二&#xff1a;UDP socket API使用 1&#xff1a;socke…

正点原子讲解SPI学习,驱动编程NOR FLASH实战

配置SPI传输速度时&#xff0c;需要先失能SPI,__HAL_SPI_DISABLE,然后操作SPI_CR1中的波特率设置位&#xff0c;再使能SPI, NM25Q128驱动步骤 myspi.c #include "./BSP/MYSPI/myspi.h"SPI_HandleTypeDef g_spi1_handler; /* SPI句柄 */void spi1_init(void) {g_spi…

使用Hugging Face中的BERT进行标题分类

使用Hugging Face中的BERT进行标题分类 前言相关介绍出处基本原理优点缺点 前提条件实验环境BERT进行标题分类准备数据集读取数据集划分数据集设置相关参数创建自己DataSet对象计算准确率定义预训练模型定义优化器训练模型保存模型测试模型 参考文献 前言 由于本人水平有限&…

动态规划-简单多状态dp问题——面试题17.16.按摩师

多状态问题的核心就是每个位置不止有一个状态&#xff0c;因此需要多个dp表表示不同状态对应位置的值&#xff0c;然后根据题目考虑特定情况写出状态转移方程即可 1.题目解析 题目来源&#xff1a;面试题17.16.按摩师——力扣 测试用例 2.算法原理 1.状态表示 这里与路径问…

【CSS in Depth 2 精译_047】7.2 CSS 响应式设计中的媒体查询原则(上):深入理解媒体查询的类型

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 【第七章 响应式设计】&#xff08;概述&#xff09; 7.1 移动端优先设计原则&#xff08;上篇&#xff09; 7.1.1 创建移动端菜单&#xff08;下篇&#xff09;7.1.2 给视口添加 meta 标签&#xf…

MATLAB - 机器人机械臂设计轨迹规划器

系列文章目录 前言 本示例介绍了一种设计抓取和轨迹规划器的方法,该规划器可用于垃圾箱拣选系统。 在机器人技术中,垃圾箱拣选包括使用机械手从垃圾箱中取出物品。智能垃圾箱拣选是这一过程的高级版本,具有更强的自主性。使用摄像系统感知部件,规划器生成与场景相适应的无碰…

NASA:ARCTAS 区域的二级 FIRSTLOOK 气溶胶产品子集。 它包含气溶胶光学深度和粒子类型,以及相关的大气数据

目录 简介 信息 代码 引用 网址推荐 知识星球 机器学习 MISR L2 FIRSTLOOK Aerosol Product subset for the ARCTAS region V001 简介 这是 ARCTAS 区域的二级 FIRSTLOOK 气溶胶产品子集。 它包含气溶胶光学深度和粒子类型&#xff0c;以及相关的大气数据&#xff0c;…

关于摩托车一键启动无钥匙进入、智能科技创新

摩托车一键启动无钥匙进入功能 一、工作原理 摩托车的一键启动无钥匙进入功能采用了世界最先进的RFID无线射频技术和最先进的车辆身份编码识别系统&#xff0c;率先应用小型化、小功率射频天线的开发方案&#xff0c;并成功融合了遥控系统和无钥匙系统&#xff0c;沿用了传统…

在 MTT GPU 上使用 llama.cpp 推理

大语言模型因其出色的自然语言理解和生成能力而迅速被广泛使用&#xff0c;llama.cpp 大幅降低了进行大语言模型推理的门槛&#xff0c;MTT GPU 同样也是 llama.cpp 支持的运行平台&#xff0c;能够充分利用硬件的性能来助力用户的大语言模型应用。 本文主要介绍了如何在摩尔线…

出处不详 取数游戏

目录 取数游戏题目描述背景输入输出数据范围 题解解法优化 打赏 取数游戏 题目描述 背景 两人将 n n n个正整数围成一个圆环&#xff0c;规则如下&#xff1a; 第一名玩家随意选取数字&#xff1b;第二名玩家从与第一名玩家相邻的两个数字中选择一个&#xff1b;而后依次在…

用Arduino单片机制作一个简单的音乐播放器

Arduino单片机上有多个数字IO针脚&#xff0c;可以输出数字信号&#xff0c;用于驱动发声器件&#xff0c;从而让它发出想要的声音。蜂鸣器是一种常见的发声器件&#xff0c;通电后可以发出声音。因此&#xff0c;单片机可以通过数字输出控制蜂鸣器发出指定的声音。另外&#x…

【尚硅谷】FreeRTOS学笔记(更新中更新时间2024.10.12)

在网上看到的一段很形象的描述&#xff0c;放在这里给大家娱乐一下。 裸机开发&#xff1a;n个人拉屎&#xff0c;先进去一个拉完&#xff0c;下一个再来。看门狗&#xff1a;如果有人拉完屎还占着&#xff0c;茅坑刷视频&#xff0c;把他拖出去中断系统&#xff1a;n个人拉屎&…