Windows10上使用llama-recipes(LoRA)来对llama-2-7b做fine-tune

刚刚在Windows10上搭建环境来对llama2做finetune,里面坑还是挺多的,这里把印象中的坑整理了一下以作备忘。

llama-recipes是meta的开源项目,Github地址为:GitHub - facebookresearch/llama-recipes: Examples and recipes for Llama 2 model

llama2同样也是meta的开源LLM模型,因此用此项目做finetune应该是正确的方向;

模型的选择

模型在自然是在huggingface上下载到的,上面的模型很多,因此您也有很多选择。程序加载模型采用了torch因此需要选择带有pytorch-xxx.bin的目录。本人选择的是daryl149/llama-2-7b-chat-hf(daryl149/llama-2-7b-chat-hf · Hugging Face)

数据集选择

默认数据集是samsum_dataset;使用这个数据集的目标是为一段文字做总结。本人的模型微调目标是问答,所以使用了模型提到的另一个数据集:stanford的alpaca_dataset(文本数据21.7 MB)。

数据集请见:Stanford CRFM 

这里我是用项目自带的notebook “quickstart”来一步步执行的,所以我们需要在代码中对数据集进行调整

train_dataset = get_preprocessed_dataset(tokenizer, alpaca_dataset, 'train')

依赖包下载

依赖包下载比较麻烦,这里是坑最多的地方;国内的网速是一方面,类库对Windows系统的支持是另一方面。

国内镜像加速

很庆幸在互联网上找到了这个清华的源,在pip安装的时候可以加上参数:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

torch的下载

我这边经过requirement下载的默认是CPU版本的(😓)

需要卸载并安装GPU版本的,本人目前没有调通CPU版本的程序(从实际角度来说,也是GPU在真实场景下使用概率更高)。如何在安装请参考Start Locally | PyTorch

这里我通过CONDA,装的是CUDA11.8

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

一步步处理缺失的包

这里大概就是缺什么包就装什么包

有一点需要额外关注的,就是程序识别不到GPU

这种情况一是安装了CPU版本的pytorch,在前面提到了解决方法;还有一种可能是bitsandbytes的问题;

在Windows10中,我最后同时安装了bitsandbytes 0.39.0版本和bitsandbytes-Windows 0.37.5版本;

同时参考了这篇文章:win11下bitsandbytes的用法 – yinfupai

我仅仅是将main.py 中的evaluate_cuda_setup() 函数做了修改,如下:

#return binary_name, cudart_path, cuda, cc, cuda_version_string
return "libbitsandbytes_cuda118.dll", None, None, None, None

我安装的cuda版本是11.8,因此做如上修改;

运行程序

在我的机器上运行一个epoch要50多个小时(😓),想要发挥作用还是需要更好的算力支持啊!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/66419.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go几种读取配置文件的方式

比较有名的方案有 使用viper管理配置[1] 支持多种配置文件格式,包括 JSON,TOML,YAML,HECL,envfile,甚至还包括Java properties 支持为配置项设置默认值 可以通过命令行参数覆盖指定的配置项 支持参数别名 viper[2]按照这个优先级(从高到低&am…

数据结构:时间复杂度和空间复杂度计算

1.什么是时间复杂度和空间复杂度? 1.1算法效率 算法效率分析分为两种:第一种是时间效率,第二种是空间效率。时间效率被称为时间复杂度, 而空间效率被称作空间复杂度。 时间复杂度主要衡量的是一个算法的运行速度,而空间…

UE4 显示遮挡物体

SceneDepth是你相机能够看见的物体的深度距离 CustomDepth是你相机包括看不见被遮挡的物体的深度距离 如果CustemDepth比SceneDepth的距离相等,那么就是没有被遮挡的物体,如果被遮挡那么就是CustemDepth比SceneDepth深度距离远,然后再做对应…

【业务功能篇91】微服务-springcloud-多线程-线程池执行顺序

一、线程的实现方式 1. 线程的实现方式 1.1 继承Thread class ThreadDemo01 extends Thread{Overridepublic void run() {System.out.println("当前线程:" Thread.currentThread().getName());} }1.2 实现Runnable接口 class ThreadDemo02 implements Runnable{…

Win7下设置“定时关机”的方法

【Win7下设置定时关机的方法】 ●【所有程序】→【附件】→【系统工具】→【任务计划程序】 ● 右键单击,选择【创建基本任务】,然后在【任务名称】中填自定义名称,如“定时关机” ● 之后,按照下面各图的提示进行“任务触发器”…

在Ubuntu上安装CUDA和cuDNN以及验证安装步骤

在Ubuntu上安装CUDA和cuDNN以及验证安装步骤 本教程详细介绍了如何在Ubuntu操作系统上安装CUDA(NVIDIA的并行计算平台)和cuDNN(深度神经网络库),以及如何验证安装是否成功。通过按照这些步骤操作,您将能够…

QTday4

一、闹钟 头文件 源文件 二、XMind思维导图

EM算法总结(一)

文章目录 前言参数分析 前言 EM算法广泛用于含有隐藏变量的模型的极大似然估计。 参考: 文曲经典:统计学习方法-李航 参数分析 θ [ P ( z 1 ∣ x ) , P ( z 2 ∣ x ) , ⋯ , P ( z m ∣ x ) , P ( y 1 ∣ z 1 , x ) , P ( y 2 ∣ z 1 , x ) , ⋯ , …

Vue框架--理解MVVM

我们知道,MVVM是Model-View-ViewModel的简写。它本质上就是MVC的改进版。我们看看MVVM的模型架构,如下所示: 架构理解与实例

《C和指针》笔记19: 条件操作符

条件操作符接受三个操作数。它也会控制子表达式的求值顺序。下面是它的用法: expression1 ? expression2 : expression3条件操作符的优先级非常低,所以它的各个操作数即使不加括号,一般也不会有问题。但是,为了清楚起见&#xf…

stable diffusion实践操作-重绘

系列文章目录 本文专门开一节写局部重绘相关的内容,在看之前,可以同步关注: stable diffusion实践操作 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 系列文章目录前言一、局…

9.1.tensorRT高级(4)封装系列-自动驾驶案例项目self-driving-道路分割分析

目录 前言1. 道路分割总结 前言 杜老师推出的 tensorRT从零起步高性能部署 课程,之前有看过一遍,但是没有做笔记,很多东西也忘了。这次重新撸一遍,顺便记记笔记。 本次课程学习 tensorRT 高级-自动驾驶案例项目self-driving-道路分…

数据结构学习系列之单向链表的三种删除方式

方式1:删除单向链表头结点后的结点,即头删法,代码如下:示例代码: int delete_link_list_1(node_t *phead){if(NULL phead){printf("入参为NULL\n");return -1;}if(NULL phead->next){printf("链表…

java-初识Servlet,Tomcat,JDBC

文章目录 前言一、ServletServlet 生命周期Servlet 实例Servlet 过滤器 二、TomcatJDBCJDBC连接数据库实例 总结 前言 java入门须知的重要概念/名词/技术 等 一、Servlet Servlet是Java Web开发中的一个核心组件,它是基于Java语言编写的服务器端程序,…

Boa服务器与Cgi简介

Boa是一个单任务的HTTP服务器,Boa只能依次完成用户的请求,而不会fork出新的进程来处理并发连接请求。Boa支持CGI。Boa的设计目标是速度和安全,这很符合嵌入式的需要,他的特点就是可靠性和可移植性。 Boa的作用: 负责h…

Redis 内存淘汰策略详解

Redis 内存淘汰策略详解 一、简介Redis内存管理问题 二、内存淘汰策略1.为什么需要内存淘汰策略2.内存淘汰策略分类(1)noeviction(2)allkeys-lru(3)allkeys-lfu(4)volatile-lru&…

Error: PostCSS plugin autoprefixer requires PostCSS 8 问题解决办法

报错:Error: PostCSS plugin autoprefixer requires PostCSS 8 原因:autoprefixer版本过高 解决方案: 降低autoprefixer版本 执行:npm i postcss-loader autoprefixer8.0.0

Dubbo 应用切换 ZooKeeper 注册中心实例,流量无损迁移

首先思考一个问题:如果 Dubbo 应用使用 ZooKeeper 作为注册中心,现在需要切换到新的 ZooKeeper 实例,如何做到流量无损? 本文提供解决这个问题的一种方案。 场景 有两个基于 Dubbo 的微服务应用,一个是服务提供者&…

降噪音频转录 Krisp: v1.40.7 Crack

主打人工智能降噪服务的初创公司「Krisp」近期宣布推出音频转录功能,能对电话和视频会议进行实时设备转录。该软件还整合的ChatGPT,以便快速总结内容,开放测试版于今天上线。 随着线上会议越来越频繁,会议转录已成为团队工作的重…

6 | 从文本文件中读取单词并输出不重复的单词列表

Transformation 操作 Transformation 操作是用于从一个 RDD(Resilient Distributed Dataset)创建一个新的 RDD,通常是通过对原始 RDD 的元素进行映射、筛选、分组等操作来实现的。Transformation 操作不会立即执行,而是惰性计算,只有在 Action 操作触发时才会真正执行。以…