llama-factory SFT系列教程 (三),chatglm3-6B 大模型命名实体识别实战

文章列表:

  1. llama-factory SFT系列教程 (一),大模型 API 部署与使用
  2. llama-factory SFT系列教程 (二),大模型在自定义数据集 lora 训练与部署
  3. llama-factory SFT系列教程 (三),chatglm3-6B 命名实体识别实战

简介

利用 llama-factory 框架,基于 chatglm3-6B 模型 做命名实体识别任务;

本次实验的数据集、lora微调脚本、部署、推理、预测、评估的等相关资料已全部上传到 modelscope 平台;
output: 文件夹下,为 lora 微调的权重;
点击查看 https://modelscope.cn/datasets/jieshenai/llm_clue_ner2020/files
在这里插入图片描述

装包

git clone https://github.com/hiyouga/LLaMA-Factory.git
# conda create -n llama_factory python=3.10
# conda activate llama_factory
cd LLaMA-Factory
pip install -e .[metrics]

在 LLaMA-Factory 文件夹下,创建一个脚本文件夹,用来存放本次实验的数据集和脚本文件

mkdir glm_ner_scripts
cd glm_ner_scripts
git clone https://www.modelscope.cn/datasets/jieshenai/llm_clue_ner2020.git

使用 git clone 下载数据集和脚本文件

数据集

该数据集参考的 DeepKE的数据格式;

DeepKE 的代码不够通用,本文使用 llama-factory 做命名实体识别和通用的数据集格式,更方便读者学习与使用;

数据里已发布在 modelscope 平台上;

数据集示例:

{"instruction": "你是专门进行实体抽取的专家。请从input中抽取出符合schema定义的实体,不存在的实体类型返回空列表。请按照JSON字符串的格式回答。 schema: ['address', 'book', 'company', 'game', 'government', 'movie']", "input": "浙商银行企业信贷部叶老桂博士则从另一个角度对五道门槛进行了解读。叶老桂认为,对目前>国内商业银行而言,", "output": "{\"address\": [], \"book\": [], \"company\": [\"浙商银行\"], \"game\": [], \"government\": [], \"movie\": []}"
}

将 命名实体识别任务转换为 序列到序列的生成任务;

LLaMA-Factory/data/dataset_info.json 添加自定义数据集的配置信息;
llm_ner: 数据集名;
file_name: 文件名;
file_sha1: 利用 sha1sum train.json 计算文件的sha1值;
在这里插入图片描述

  "llm_ner2_train":{"file_name": "../glm_ner_scripts/llm_clue_ner2020/llm_ner_dataset2/train.json","file_sha1": "8dffb2d6e55ef8916f95ff7ccbcfbfe9d6865d12"},

lora 微调

bash train.sh

train.sh 脚本内容如下:

CUDA_VISIBLE_DEVICES=0 python ../../src/train_bash.py \
--stage sft \
--do_train \
--model_name_or_path ZhipuAI/chatglm3-6b \
--dataset_dir ../../data \
--dataset llm_ner2_train \
--template chatglm3 \
--finetuning_type lora \
--lora_target query_key_value \
--output_dir ./output/output_train \
--overwrite_cache \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_strategy epoch \
--learning_rate 5e-5 \
--num_train_epochs 2.0 \
--plot_loss \
--fp16
  • dataset_dir: llama-factory data/dataset_info.json 的文件夹路径;
    因为自定义数据集的配置信息,写在 dataset_info.json 文件中;
  • dataset : 在 data/dataset_info.json 中,配置的自定义数据集的名字;

在output文件夹中可找到训练过程中损失值图:

在这里插入图片描述

train.json 有18000条数据,跑了大概2个小时以上;
24G 显存的显卡恰好可以跑;

API 部署

使用训练完成的 LoRA 权重进行推理;
bash lora_infer.sh

CUDA_VISIBLE_DEVICES=0 API_PORT=8000 python ../../src/api_demo.py \--model_name_or_path ZhipuAI/chatglm3-6b \--adapter_name_or_path output/output_train/checkpoint-2250 \--template chatglm3 \--finetuning_type lora

部署
在这里插入图片描述

训练完成的模型lora权重, 在 modelscope 的 output 文件夹下;

使用 req.ipynb 调用API 接口,与大模型进行交互测试;
点击查看 req.ipynb https://modelscope.cn/datasets/jieshenai/llm_clue_ner2020/file/view/master/req.ipynb?status=1

大模型预测

使用 llm_ner_dataset2/dev.json 而不用 test.json;因为 test.json 的 label 标注有问题,读者忽略 test.json 这个文件即可;

req.ipynb 文本中,提供了如下功能:

  • request 针对大模型 API 发送请求,并处理大模型生成文本的代码;
  • 将大模型 生成的结果与原始数据集拼接在一起保存到 llm_predict2.json;

有待改进:
笔者一次发送一个请求,让大模型处理,大模型一次只能处理一行文本;
如果大模型能一次处理一个batch的文本,就可大大提高推理速度,该功能笔者没有实现;
欢迎读者提供相关的见解👏👏👏

评估

llm_predict2.json 的样例如下:

{"instruction": "{'instruction': '你是专门进行实体抽取的专家。请从input中抽取出符合schema定义的实体,不存在的实体类型返回空列表。请按照JSON字符串的格式回答。', 'schema': ['name', 'organization', 'position', 'scene'], 'input': '来自非洲的原料供应商莫檀壁表示“一些新入行的投资客往往被蓄意炒作的一些‘老前辈’、‘行业专家’、‘'}", "input": "", "output": "{\"name\": [\"莫檀壁\"], \"organization\": [], \"position\": [\"原料供应商\", \"行业专家\"], \"scene\": []}", "predict": {"name": ["莫檀壁"], "organization": [], "position": ["投资客", "专家"], "scene": []}
}
  • output: 真实的label;
  • predict:大模型预测的值;

在上一步预测 的llm_predict2.json 上评估大模型微调的效果;

使用 eval2.ipynb 进行评估实验,评估结果如下:
点击查看 eval2.ipynb https://modelscope.cn/datasets/jieshenai/llm_clue_ner2020/file/view/master/eval2.ipynb?status=1
在这里插入图片描述

缺少数据集

在这里插入图片描述
modelscope 会删除数据集,一言难尽;里面有一个压缩包备份,读者可以关注一下;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/144.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

免费的壁纸api

# 联想壁纸 from enum import Enumimport requestsclass LenovoTopHeadersTypePage(Enum):"""头部页面类型wallpaper 精选wallpaperHot 热门wallpaperRank 排行"""wallpaper wallpaperwallpaperHot wallpaperHotwallpaperRank wallpaperRankc…

NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道

NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道 NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2SQL、Text2DSL] NL2SQL基础系列(2):主流大模型与微调方法精选…

Android系统学习 —— 替换crash_dump文件

步骤 查看crash_dump所在的路径 vsoc_x86_64:/ # which crash_dump64 /apex/com.android.runtime/bin/crash_dump64可以看到,crash_dump放在了/apex/com.android.runtime下面。但是这个目录下的文件即使remount了也无法修改,而是需要通过/system/apex来…

1.2 海思SS928开发 - 开发环境 - 工具链安装

1.2 开发环境 - 工具链安装 为了方便使用,计划将工具链做成 SS928 SDK 仓库的一部分,并编写一个安装脚本。 创建仓库 在 gitlab 上创建 SS928 SDK 仓库,并命名为 SS928_SDK_G7.3_K4.19,其中 G7.3 代表 gcc 版本为 7.3&#xff0…

OpenHarmony轻量系统开发【12】OneNET云接入

12.1 OneNET云介绍 通常来说,一个物联网产品应当包括设备、云平台、手机APP。我将在鸿蒙系统上移植MQTT协议、OneNET接入协议,实现手机APP、网页两者都可以远程(跨网络,不是局域网的)访问开发板数据,并控制…

如何在阿里云主机上安装FreeBSD14系统

文章目录 在阿里云主机上安装FreeBSD14系统准备阿里云云主机识别目标磁盘下载 FreeBSD14解压缩 FreeBSD14系统镜像创建可启动的磁盘启动 FreeBSD14在阿里云主机上安装FreeBSD14系统 阿里云主机不支持 FreeBSD14 系统的镜像,因此需要手动进行安装。 准备阿里云云主机 在阿里云…

项目_预览和模拟器运行_真机运行鸿蒙应用---HarmonyOS4.0+鸿蒙NEXT工作笔记002

然后再来看如何使用预览,可以看到 右侧有个preview,点开就可以了 然后再有一个tools,这里 Device Manager,这个是模拟器 点开以后可以看到让我们连接,本地模拟器,还是远程模拟器,还是远程设备 这里我们选择phone 如果选择remote device,这个需要登录华为账号,会自动弹出来登…

前端网络---http协议演变

http协议的演变 什么是http协议? HTTP 协议全称为 Hypertext Transfer Protocol,即超文本传输协议,是互联网上应用最为广泛的一种网络传输协议 http协议演变 1991年0.9版本-------1996年1.0版本-------1997年1.1版本--------2015年2版本-…

探索SQL深入理解数据库操作的关键概念与技巧【文末送书】

文章目录 SQL语言从入门到精通入门篇进阶篇高级篇深入理解SQL SQL语言从入门到精通(软件开发视频大讲堂)【文末送书】 SQL语言从入门到精通 SQL(Structured Query Language,结构化查询语言)是一种用于管理关系型数据库…

Linux命令-du命令(显示每个文件和目录的磁盘使用空间)

说明 du命令 也是查看使用空间的,但是与df命令不同的是Linux du命令是对文件和目录磁盘使用的空间 的查看,还是和df命令有一些区别的 语法 du(选项)(参数)选项 -a, --all 显示目录中个别文件的大小。 -B, --block-size大小 使用指定字节数的块 -b, -…

数据结构-贪心策略(贪心算法)

贪心算法 1.贪心算法的核心思想 局部最优思想:在每一步决策时做出对当前看起来最优的解,并且期望这些局部最优的选择能成全全局最优解.全局最优构造:对于给定的问题,其全局最优解可以通过将问题分解为一系列子问题,然后在每个子问题上独立做出贪心选择来…

李飞飞团队发布《2024年人工智能指数报告》,预测人工智能未来发展趋势

昨天,斯坦福大学 Human-Center Artificial Intelligence (HAI)研究中心发布了《2024年人工智能指数报告》。 由斯坦福大学发起的人工智能指数(AI Index)是一个追踪 AI 动态和进展的非营利性项目,旨在全面研究 AI 行业状况&#xf…

Android Framework 常见解决方案(29)添加应用开发的共享库

1 原理说明 通过设置配置文件public.libraries.txt以及在system分区下添加so动态库的方式,让系统扩展动态库。关于动态库的拷贝较为简单,直接配置即可,这里主要解读下配置文件public.libraries.txt。 1.1 public.libraries.txt配置文件是什…

Redis主从复制及其原理

为什么要有主从复制 为了避免服务的单点故障,通过给主从复制可以把数据复制多个副本放在不同的服务器上,拥有数据副本的服务器可以用于处理客户端的读请求,扩展整体的性能 Redis的主从复制搭建 准备3台机器,主服务器ip为192.16…

云服务器租用一年、1个月优惠价格表,阿里/腾讯/京东/华为云

现在租一个服务器多少一个月?优惠价格低至3.8元1个月,租用一个月云服务器收费价格表:阿里云和腾讯云2核2G3M服务器优惠价格61元一年,折合一个月5元,京东云轻量云主机5.8元一个月,华为云服务器优惠价格3.8元…

未来交通:UWB模块引领智能交通系统的发展方向

随着城市化进程的加速和交通需求的不断增长,智能交通系统正成为解决城市交通问题的重要途径之一。UWB不断发展正在引领智能交通系统的发展方向。UWB模块作为UWB技术的核心组成部分,具有精准定位、快速响应、抗干扰等特点,为智能交通系统的构建…

Swift-19-基础入门

从本章开始大概用10篇左右文章介绍下Swift语言的基本用法。 简介 Objective-C作为一门比较老的语言, 缺少很多现代语言所具备的高级特性。Swift是目标是比C,C, ObjC更安全可靠,从而减少开发者对在应用运行时出错的代码进行调试的时间成本。本…

github,raw.githubusercontent.com 等网址登陆不上不去的设置方法

目录 提示域名解析错误: 出现的现象: 解决办法:修改host host改完不生效 解决方案1: 解决方案2: 提示域名解析错误: 出现的现象: 登陆github,raw.githubusercontent.com 等网…

Jmeter 接口造10w条用户数据

1、将mysql-connector-java-5.1.22-bin.jar放到D:\apache-jmeter-5.5\lib\ext目录下 2、在测试计划中,添加mysql-connector-java-5.1.22-bin.jar包路径 3、添加-线程组-添加-配置元件-jdbc connection configuration 4、配置jdbc连接参数 设置变量名称:…

pyqt之QNetworkAccessManager

QNetworkAccessManager是Qt自带的一个网络请求库,网上很多说的很模糊,在这总结一下 # coding: utf-8 import json import sys from pathlib import Path from typing import Union from urllib.parse import urlencodefrom PyQt5.QtNetwork import QNetw…