百川2大模型微调问题解决

    之前用https://github.com/FlagAlpha/Llama2-Chinese微调过几个模型,总体来说llama2的生态还是比较好的,过程很顺利。微调百川2就没那么顺利了,所以简单做个记录

    1. 数据准备,我的数据是单轮对话,之前微调llama2已经按照sft格式做好txt文件,翻看https://github.com/baichuan-inc/Baichuan2发现用的是json,和我所用数据格式有所出入,训练我还是用一开始用llama2的finetune脚本和参数,按照baichuan2的数据格式调整了代码。不过最后为了兼容llama2,我就把llama2的数据格式和tokenize_function给用在了百川2上,看起来也没啥问题。

    2. 模型选取,用baichuan2-13b-chat作为预训练权重,推理的时候总是头部输出我要的内容,但是输出总是无法停止,就算训完一个epoch也是这样,很怪异,研究半天,不知道所以然,干脆放弃,采用不带chat的baichuan2-13b作为预训练权重,这次很快出结果,只要iter 100次保存下来的模型,输出也是我想要的内容,所以就不换了,暂时用baichuan2-13b。主要是llama2已经跑的很好,我实验也就不求甚解,将就先用baichuan2-13b。在这个过程中"--lora_r 1 --lora_alpha 32 --lora_dropout 0.1"这几个参数,我按照baichuan2仓库里设置了。

    3. 给百川模型的加载统统加上trust_remote_code,不然总是提示你y/N选择,孙悟空都会是烦死了。

    4. 训练模型遇到的错误1: 

AttributeError: 'BaichuanTokenizer' object has no attribute 'sp_model'

        这个错误通过简单回滚transfomers解决python3 -m pip install transformers==4.33.2,另外还有一个错误忘了具体是啥,通过回滚bitsandbytes解决python3 -m pip install bitsandbytes==0.41.0,幸运的是llama2在这两个模块版本下,同样工作。上面的错误,其实也有人说挪下tokenization_baichuan.py里的super的位置,我改了几处这个文件,似乎不起作用,随即放弃这个方案。

    5. ​推理过程遇到的错误2,这个错误也是折腾了我好一会,通过给AutoModelForCausalLM.from_pretrained加上pretraining_tp=1参数解决,先跑通,原理没去深究了。

RuntimeError: mat1 and mat2 shapes cannot be multiplied (1x20 and 9x5120)

     6. 训练还遇到一个内存不足的问题3,google了两把,按照提示加了个环境变量PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:1536,果然就好了,谷歌不欺我也。内存不是真不足,而是碎片化严重,调整max_split_size_mb比降低batch size总是好的。

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.20 GiB (GPU 0; 23.69 GiB total capacity; 20.29 GiB already allocated; 579.94 MiB free; 22.56 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

    7. llama2微调的参数module是q_proj,k_proj,v_proj,o_proj,down_proj,gate_proj,up_proj这些,百川2很奇怪,有个自己的W_pack,把全连接打印了一下,其实还有down_proj,o_proj,up_proj,gate_proj,微调这几个部分,效果也差不多,微调哪些更好哪些更差,暂时就不去比较了,遇到问题,也许可以调整一下。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/408224.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Aspx页面javascript的几个trick

1、一般而言,如果想给aspx页面上的web form control加上一些javascript的特性,可以用Attributes.Add来实现。例如,对TextBox txt,可以:txt.Attributes.Add("onclick", "fcn0();");那么&#xff0c…

ArcGIS 10——地理数据库管理GIS数据

写本文的最初意向是当前正在进行的项目中有实现ESRI版本化数据管理的功能模块,碰到一些棘手的问题,几经周折还是决定系统学习ArcGIS10的帮助文档。(文章摘抄的比较多) 地理数据库是用于保存数据集集合的“容器”。首先了解一下Arc…

阿特拉斯神(一)

Atlas出来很久了,因为用不上,所以没有学习过,今天准备学了,却发现资料虽不少,但是觉得有点乱,还是自己从英文资料循序渐进学吧。说真的没有扎实学过什么,那么就从Atlas开始吧,希望也…

Qt学习笔记(持续更新)

第一个应用程序 #include "widget.h" #include <QApplication> #include<QLabel> int main(int argc, char *argv[]) {//创建qt应用程序对象QApplication a(argc, argv);//创建标签控件QLabel label("你好");//来吧&#xff0c;展示label.sho…

文本框宽度自动适应文本宽度

<html> <head> <title>文本框宽度自动适应文本宽度 </title> </head> <script type"text/javascript"> function changeInputlength(cursor) { var getTextdocument.getElementById("text"); cursor.sizegetText.valu…

安装了一次Linux,哈哈

昨天在宿舍里&#xff0c;舍友在她的机子上装了Redhat&#xff0c;自己在旁边和另一舍友做参谋&#xff0c;哈哈&#xff0c;虽然中间几多挫折&#xff0c;但最终还是把系统装好了&#xff0c;第一次完整的安装Linux&#xff0c;在此记录一下&#xff0c;哈哈…… 现在想…

Ubuntu NFS搭建过程

简介 NFS:是Network FileSystem。最大的作用就是通过网络&#xff0c;让不同的机器、不同的作业系统、可以分享档案。通过将共享目录挂接到本地&#xff0c;就可以像操作本地目录一样去操作共享的目录。在共享中分为服务器和客户端,需要安装的程序也不一样&#xff0c;客户端通…

Unicode简介【转】

Unicode是一种字符编码规范 。先从ASCII说起。ASCII是用来表示英文字符的一种编码规范&#xff0c;每个ASCII字符占用1个字节&#xff08;8bits&#xff09; 因此&#xff0c;ASCII编码可以表示的最大字符数是256&#xff0c;其实英文字符并没有那么多&#xff0c;一般只用前12…

C++17新特性学习笔记

c17最新特性笔记 1.基本语言特性 ​ 这一部分介绍了 C17中新的核心语言特性&#xff0c;但不包括那些专为泛型编程&#xff08;即 template&#xff09;设计的特性。 结构化绑定 结构化绑定允许你用一个对象的元素或对象初始化多个实例(第一眼感觉Python解包很像) 这有一个…

教你如何写框架------用中文构建脚本

框架下载地址&#xff1a; http://files.cnblogs.com/zhangfei/Automation.rar 在看此篇博文前请先理清如下两下博文, 该博文是建立在如下两篇文章的基础上的&#xff1a; http://www.cnblogs.com/zhangfei/p/3456159.htmlhttp://www.cnblogs.com/zhangfei/archive/2012/10/10/…

配置MIME一览

用JSP写WML&#xff1a;Code:<% page contentType"text/vnd.wap.wml; charsetGBK" %> <?xml version"1.0"?> <!DOCTYPE wml PUBLIC "-//WAPFORUM//DTD WML 1.1//EN" "http://www.WAPforum.org/DTD/wml_1.1.xml"> …

滚动条添加事件

1、 <script type"text/javascript"> $(document).ready(function (){ var nScrollHight 0; //滚动距离总长,即750px var nScrollTop 0; //滚动到的当前位置 var nDivHight $("#div1").height(); //即500px …

C++三路比较运算符

左操作数 <> 右操作数 表达式返回一个对象&#xff08;其实是这个std::strong_ordering&#xff09;&#xff0c;使得 若 左操作数 < 右操作数 则 (a <> b) < 0 若 左操作数 > 右操作数 则 (a <> b) > 0 而若 左操作数 和 右操作数 相等/等价…