ChatGLM LoRA微调定制AI大模型

ChatGLM LoRA微调定制AI大模型

news/2025/4/26 22:00:01/文章来源:https://blog.csdn.net/qq_19734597/article/details/133068152

一、前言

对于 ChatGLM2-6B 模型基于 PEFT 的特定任务微调实验。

1.1 硬件需求

注：r 为LoRA 维数大小，p 为前缀词表大小，l 为微调层数，ex/s 为每秒训练的样本数。gradient_accumulation_steps 参数设置为 1。上述结果均来自于单个 Tesla V100 GPU，仅供参考。

1.2 微调方法

目前我们实现了针对以下高效微调方法的支持：

LoRA：仅微调低秩适应器。
P-Tuning V2：仅微调前缀编码器。
Freeze ：仅微调后几层的全连接层。

1.3 软件依赖

Python 3.8+, PyTorch 2.0.0
Transformers, Datasets, Accelerate, TRL, PEFT（最低需要 0.3.0.dev0）
protobuf, cpm_kernels, sentencepiece
jieba, rouge_chinese, nltk（用于评估）</

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/84402.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

反射获取类及其父类的所有字段

反射获取类及其父类的所有字段

getFields返回一个Field类型数组，其中包含当前类的public字段，如果此类继承于某个父类，同时包括父类的public字段。其它的proteced和private字段，无论是属于当前类还是父类都不被此方法获取。 getDeclareFields返回一个Field类型…

阅读更多...

vector使用和模拟实现

vector使用和模拟实现

💓博主个人主页:不是笨小孩👀 ⏩专栏分类:数据结构与算法👀 C👀 刷题专栏👀 C语言👀 🚚代码仓库:笨小孩的代码库👀 ⏩社区：不是笨小孩👀 🌹欢迎大…

阅读更多...

记一次clickhouse手动更改分片数异常

记一次clickhouse手动更改分片数异常

背景：clickhouse中之前是1分片1副本，随着数据量增多，想将分片数增多，于是驻场人员手动添加了分片数的节点信息 <clickhouse><clickhouse_remote_servers><feihuang_ck_cluster><sha…

阅读更多...

新增MariaDB数据库管理、支持多版本MySQL数据库共存，1Panel开源面板v1.6.0发布

新增MariaDB数据库管理、支持多版本MySQL数据库共存，1Panel开源面板v1.6.0发布

2023年9月18日，现代化、开源的Linux服务器运维管理面板1Panel正式发布v1.6.0版本。在这个版本中，1Panel新增MariaDB数据库管理；支持多版本MySQL数据库共存；支持定时备份系统快照和应用商店中已安装应用；支持为防火墙…

阅读更多...

人脸识别三部曲

人脸识别三部曲

人脸识别三部曲首先看目录结构图像信息采集采集图片.py模型训练训练模型.py人脸识别人脸识别.py效果首先看目录结构引用文121本 opencv │ 采集图片.py │ 训练模型.py │ 人脸识别.py │ └───trainer │ │ trainer.yml │ └───data │ └──…

阅读更多...

Laravel一些优雅的写法

Laravel一些优雅的写法

1. 新增操作 // 原则，所有服务类只有一个public入口,或者多个public入口，但是他们做都是同一件事情 Class CreateService {// 创建类的入口, 根据dto去新建public function create(Dto $dto){// 先构建model对象, 不要在事务期间构建，减少事务…

阅读更多...

关于时空数据的培训 GAN：实用指南（第 02/3 部分）

关于时空数据的培训 GAN：实用指南（第 02/3 部分）

一、说明在本系列关于训练 GAN 实用指南的第 1 部分中，我们讨论了 a） 鉴别器 （D） 和生成器 （G） 训练之间的不平衡如何导致模式崩溃和由于梯度消失而导致静音学习，以及 b） GAN 对超参…

阅读更多...

3D模型转换工具HOOPS Exchange如何实现OBJ格式轻量化？

3D模型转换工具HOOPS Exchange如何实现OBJ格式轻量化？

什么是OBJ模型轻量化？ OBJ格式是一种常用的三维模型文件格式，通常包含模型的顶点、法线、纹理坐标等信息，但有时候这些信息可能会使模型文件变得较大，不利于网络传输、加载和运行。 OBJ（Object）模型轻量化…

阅读更多...

工厂模式-(简单工厂模式)

工厂模式-(简单工厂模式)

首先看一下设计模式的六大原则设计模式的六大原则 1、开闭原则（Open Close Principle） 开闭原则就是说对扩展开放，对修改关闭。在程序需要进行拓展的时候，不能去修改原有的代码，实现一个热插拔的效果。所以一句话概…

阅读更多...

arthas诊断windows服务模式运行的Java进程

arthas诊断windows服务模式运行的Java进程

arthas诊断windows服务模式运行的Java进程 arthas线上debug非常好用，但是有些场景不能直接使用。如何使用arthas请自行查看官网文档，本文不再赘述！ 1.windows服务运行jar包场景有些情况，我们java项目以windows服务的形式运行在…

阅读更多...

QTC++ day12

QTC++ day12

注册登录界面 widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QIcon> #include <QPushButton> #include <QLineEdit> #include <QLabel> #include <QDebug> #include <QMessageBox>//消息对话框类 #inc…

阅读更多...

算法通过村第九关-二分(中序遍历)黄金笔记|手撕二分

算法通过村第九关-二分(中序遍历)黄金笔记|手撕二分

文章目录前言1. 基本查找2. 二分查找与分治2.1 循环的方式2.2 递归的方式 3. 元素中的重复的二分查找总结前言提示：有些人，远看是灯塔，靠近是悬崖。 --任明信《别人》二分查找是非常重要的算法之一，不仅要掌握，更要…

阅读更多...

halcon算子2、gray_histo

halcon算子2、gray_histo

gray_histo 计算直方图原形：gray_histo(Regions, Image : : : AbsoluteHisto, RelativeHisto) 功能：计算直方图参数：Regions：区域，要计算的区域（在image上的区域） Image ：要计算的…

阅读更多...

Postman应用——Variable变量设置（Global、Environment和Collection）

Postman应用——Variable变量设置（Global、Environment和Collection）

文章目录 Global变量设置Environment变量设置Collection变量设置Global、Environment环境变量预览 Global、Environment和Collection变量使用，点击查看。 Global变量设置全局变量设置，作用域是所有Collection、Folder和Request，全局变量只有…

阅读更多...

Docker网络问题：容器无法访问外部网络

Docker网络问题：容器无法访问外部网络

Docker网络问题：容器无法访问外部网络 😟 Docker网络问题：容器无法访问外部网络 😟摘要 🤔引言 🌐正文 🤓为什么容器无法访问外部网络？ 😕1. 网络配置错误2. 防火墙设置3…

阅读更多...

【智能电表数据接入物联网平台实践】

【智能电表数据接入物联网平台实践】

智能电表数据接入物联网平台实践设备接线准备设备调试代码实现Modbus TCP Client 读取电表数据读取寄存器数据转成32bit Float格式然后使用modbusTCP Client 读取数据使用mqtt协议接入物联网平台最终代码实现设备接线准备设备调试代码实现 Modbus TCP Client 读取电表数…

阅读更多...

pymysql执行非查询语句会自动提交事务，关闭事务自动提交

pymysql执行非查询语句会自动提交事务，关闭事务自动提交

一、前置条件在mysql数据库生成数据： CREATE DATABASE mydatabase;CREATE TABLE Course (CourseID INT PRIMARY KEY,CourseName VARCHAR(100),Instructor VARCHAR(100),Credits INT,StudentID INT,FOREIGN KEY (StudentID) REFERENCES StudentInformation(Studen…

阅读更多...

win10 Baichuan2-7B-Chat-4bits 上部署百川2-7B-对话模型-4bits量化版

win10 Baichuan2-7B-Chat-4bits 上部署百川2-7B-对话模型-4bits量化版

搞了两天才搞清楚跑通好难呢,个人电脑 win10 ,6GB显存个人感觉生成速度很慢,数学能力不怎么行没有ChatGLM2-6B 强,逻辑还行, 要求: 我的部署流程 1.下载模型 ,下载所有文件然后放到新建的model目录 https://huggingface.co/baichuan-inc/Baichuan2-7B-Chat-4bits/tr…

阅读更多...

HarmonyOS之组件的使用

HarmonyOS之组件的使用

一容器 1.1 容器分类 Column表示沿垂直方向布局的容器。Row表示沿水平方向布局的容器。 1.2 主轴和交叉轴主轴：在Column容器中的子组件是按照从上到下的垂直方向布局的，其主轴的方向是垂直方向；在Row容器中的组件是按照从左到右的水平方向…

阅读更多...

怒刷LeetCode的第11天（Java版）

怒刷LeetCode的第11天（Java版）

目录第一题题目来源题目内容解决方法方法一：迭代方法二：递归方法三：指针转向第二题题目来源题目内容解决方法方法一：快慢指针方法二：Arrays类的sort方法方法三：计数器方法四…

阅读更多...

最新文章