书生浦语训练营第2期-第4节笔记

一、为什么要微调?

1. 适应特定任务或领域:虽然预训练的模型通常具有广泛的知识和理解能力,但它们可能不完全适应特定任务的需求。通过在特定的数据集上微调模型,可以使模型更好地理解和处理与特定任务或领域相关的数据。

2. 提高性能:微调可以帮助模型在特定任务上表现得更好,如通过调整模型参数以更精确地对任务特有的特征进行建模,从而提高分类准确率、生成的质量或其他性能指标。

3. 节省资源:微调一个已经训练好的模型通常只需要较少的数据和训练周期。

4. 减少数据需求:微调通常需要的数据量比全新训练模型少得多。这对于数据较少的应用场景特别有用,因为即使是小规模的数据集也可能足以通过微调达到良好的效果。

5. 转移学习:微调是一种有效的转移学习策略,允许模型将在一个任务上学到的知识应用到其他类似任务上。这种策略在多任务学习和跨领域应用中尤其重要。

想象一下,你有一个非常棒的自行车,这辆自行车可以在任何地方骑行——山地、城市、海边。这辆自行车就像一个被广泛训练过的模型,能够处理各种各样的环境。但是,现在你需要参加一场特定的山地自行车比赛,这就需要你的自行车在山地环境中表现得更好。

微调就好比是你对自行车进行一些特别的调整,比如换上更适合山地的轮胎,调整齿轮比让它更适合爬坡,这样你的自行车就能在山地比赛中表现得更加出色。你不需要重新制造一辆新自行车,而是在现有的基础上做一些修改,让它更适应山地的特殊条件。

在机器学习中,我们通常有一个已经在很多数据上训练过的模型,它已经非常智能了。但是如果我们想让它在一个特定的任务上表现得更好,我们可以用一些特定任务的数据来“微调”这个模型。这样,模型就会学习这些特定数据的特点,变得更擅长处理与这些数据相关的任务。这就像是给你的自行车根据山地比赛的需要进行调整一样。

二、两种常用微调范式

2.1 增量预训练

        使用场景:让基座模型学习到一些新知识,比如垂类领域的常识。

        训练数据:文章、书籍、代码等。

2.2 指令跟随

        使用场景:让模型学会对话模板吗,根据人类指令进行对话。

        训练数据:高质量的对话、问答数据。

2.3 两者区别

        有一个新来的学生叫小明,他刚转学到你们学校。小明已经会一些基础的数学和英语,但是他的新老师想让他学得更好,更适应这个学校的教学风格。

        1. 增量预训练:小明的数学老师给他安排了一些额外的数学题目练习,这些题目是根据他已经知道的内容,再稍微难一点的。这样做的目的是让小明在他已有的基础上,逐渐适应更高级的数学思维。这个过程可以看作是在小明原来的学习基础上,增加了一些新的知识点,帮助他更好地融入新环境。

        2. 指令跟随:小明的英语老师给了他一个具体的任务,比如写一篇关于“我最喜欢的动物”的英语作文,并且告诉他要使用五种不同的形容词描述这个动物。这个任务要求小明不仅要运用他已经学过的英语知识,还要按照老师的具体指示来完成作业。这就是一个典型的指令跟随的例子,小明需要明确遵守老师的指令来执行任务。

        增量预训练更多的是在已有的知识或技能基础上逐步扩展和深化,而指令跟随则是按照特定的指示来完成任务。这两种方法都是帮助学生(或者AI模型)学习和适应新环境的有效方式,但它们的重点和方法有所不同。

三、一条数据的一生

        为了让LLM能够区分出System、User、Assistant,不同的模型会有不同的模板。

        为了让LLM知道什么时候开始一段话,什么时候结束一段话,实际训练时需要对数据添加起始符(BOS)和结束符(EOS);大多数模型都是使用<s></s> 。

        数据中会有Input和Output,希望模型学会的是Output,而不是Input。训练时只会对Output部分计算Loss。

四、微调方案:LoRA&QLoRA

两者都旨在提高模型的适应性和效率,但在实现方式上有所不同。QLoRA是LoRA的一个扩展,它在降低模型复杂度和提升计算效率方面更进一步,适合于对运行效率有更高要求的场景。

  • 参数数量和模型大小:QLoRA通过量化进一步减小了模型的大小和运行时内存需求,相比于LoRA可以在更低的硬件要求下运行。
  • 计算效率:QLoRA由于采用了量化技术,通常能提供比LoRA更快的推理速度,这使得QLoRA在需要实时处理的应用中尤为有用。
  • 适用场景:虽然两者都适用于资源有限的环境,QLoRA由于更低的资源需求,更适合于边缘设备和移动设备等计算能力更受限的环境。

 五、多模态LLM原理简介

文本单模态

文本+图像多模态

        想象你在玩一个识别物品的游戏。在没有“电子眼”的情况下,如果你问LLM“这个苹果是什么颜色的?”而没有给出图片,它是无法回答的,因为它看不到苹果。但如果LLM有了“电子眼”,它就能看到苹果的图片,然后告诉你“这个苹果是红色的”。

        多模态LLM在训练时,不仅学习了大量的文本数据,还学习了图片和视频数据。学会了如何从图片中提取信息,比如识别出图片中的物品、颜色、动作等,并且能把这些视觉信息和文字信息结合起来进行理解和回答。

        给LLM装上“电子眼”就是让它通过视觉输入增强理解和交流的能力,使它不仅限于文字,还能理解和分析图片或视频中的内容。这样的技术在很多领域都非常有用,比如帮助自动驾驶车辆理解路况,或者帮助医生分析病人的X光片等。

什么类型的电子眼:LLaVA方案简介

  • 使用GPT-4V对图像数据生成描述,以此构建出大量<question text><image> -- <answer text>的数据对。
  • 利用这些数据对,配合文本单模态LLM,训练出一个Image Projector。
  • 所使用的文本单模型LLM和训练出来的Image Projector,统称为LLaVA模型。

 给LLM增加视觉的过程分为:Pretrain、Finetune。

  • Pretrain阶段:使用大量的图片+简单文本(caption,即图片标题)数据对,使LLM理解图像中的普遍特征。该阶段完成后,模型已经有视觉能力了,但是只会给输入的图像”写标题“
  • Finetune阶段:使用图片+复杂文本数据对,来对Pretrain得到的Image Projector进行进一步训练。

六、Xtuner是什么?

是一个高效、灵活且功能齐全的工具包。xtuner/README_zh-CN.md at main · InternLM/xtuner · GitHubAn efficient, flexible and full-featured toolkit for fine-tuning large models (InternLM, Llama, Baichuan, Qwen, ChatGLM) - xtuner/README_zh-CN.md at main · InternLM/xtunericon-default.png?t=N7T8https://github.com/InternLM/xtuner/blob/main/README_zh-CN.md

高效

  • 支持大语言模型 LLM、多模态图文模型 VLM 的预训练及轻量级微调。XTuner 支持在 8GB 显存下微调 7B 模型,同时也支持多节点跨设备微调更大尺度模型(70B+)。
  • 自动分发高性能算子(如 FlashAttention、Triton kernels 等)以加速训练吞吐。
  • 兼容 DeepSpeed ,轻松应用各种 ZeRO 训练优化策略。

灵活

  • 支持多种大语言模型,包括但不限于 InternLM、Mixtral-8x7B、Llama2、ChatGLM、Qwen、Baichuan。
  • 支持多模态图文模型 LLaVA 的预训练与微调。利用 XTuner 训得模型 LLaVA-InternLM2-20B 表现优异。
  • 精心设计的数据管道,兼容任意数据格式,开源数据或自定义数据皆可快速上手。
  • 支持 QLoRA、LoRA、全量参数微调等多种微调算法,支撑用户根据具体需求作出最优选择。

全能

  • 支持增量预训练、指令微调与 Agent 微调。
  • 预定义众多开源对话模版,支持与开源或训练所得模型进行对话。
  • 训练所得模型可无缝接入部署工具库 LMDeploy、大规模评测工具库 OpenCompass 及 VLMEvalKit。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/825741.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【uniapp】微信小程序2024手机号快速验证及无感登录教程(内附代码)

组件&#xff1a;手机号快速验证组件 适用对象&#xff1a;企业/个体 费用&#xff1a;0.03元/次 目录 前言思路前端后端代码无感登录onload事件无感登录方法登录判断后端mini_login2 最后 前言 最近注册了公司&#xff0c;可以注册具有支付能力的小程序了&#xff0c;各种材料…

在Nuxt.js中添加PostCSS自动前缀器

在其他浏览器中&#xff0c;有些 CSS 属性需要带有前缀。如-webkit- | -o- | -ms- 等等 Autoprefixer 是一个 PostCSS 插件&#xff0c;可以将你的CSS代码渲染到浏览器中自动补充厂商前缀&#xff0c;因此你不用担心自己编写的CSS代码有浏览器兼容性问题。 如&#xff1a; .fl…

kaggle咖啡销售分析案例侧重可视化折线图条形图扇形图柱状图

目录 概述 环境依赖 数据描述 代码概述 导包 数据读取 统计缺失值 数据结构概述 描述统计 时间轴数据转换 月交易统计直方图 周交易统计图 小时数据转换 小时折线图 销售关系可视化统计 销售占比扇形图 价格箱线图 各类别多维度条形图统计 商店位置交易量折线…

重磅福利!参与现金红包抽奖活动,赶快行动吧!

文章目录 粉丝福利 粉丝福利 亲爱的朋友们&#xff0c;令人振奋的消息来啦&#xff01;本月&#xff0c;我们特地为大家准备了一份特别的粉丝福利&#xff01;只要您轻轻一点&#xff0c;关注我们的公众号&#xff0c;就有机会抽取现金红包&#xff0c;让您的生活多一份惊喜与喜…

【微信公众平台】扫码登陆

文章目录 前置准备测试号接口配置 带参数二维码登陆获取access token获取Ticket拼装二维码Url编写接口返回二维码接收扫描带参数二维码事件编写登陆轮训接口测试页面 网页授权二维码登陆生成ticket生成授权地址获取QR码静态文件支持编写获取QR码的接口 接收重定向参数轮训登陆接…

游泳耳机哪个牌子好?体验与口碑兼顾的4大游泳耳机汇总!

最近的天气越来越炎热了&#xff0c;许多人选择游泳作为一种既能锻炼身体又能享受清凉的活动。而随着科技的发展&#xff0c;越来越多的运动爱好者希望在游泳时也能享受到音乐的乐趣。因此&#xff0c;游泳耳机应运而生&#xff0c;成为市场上的热门产品。然而&#xff0c;面对…

使用PixVerse使用指定的角色生成视频

PixVerse 是一款可以将文字描述转换为高清视频的AI视频生成工具&#xff0c;它还支持直接生成原神角色的专属动画视频。以下是如何使用PixVerse使用指定的角色生成视频的步骤&#xff1a; 1. 点击PixVerse 网址 访问以下网址&#xff1a;https://app.pixverse.ai/create/vide…

jvm中的垃圾回收器

Jvm中的垃圾回收器 在jvm中&#xff0c;实现了多种垃圾收集器&#xff0c; 包括&#xff1a; 1.串行垃圾收集器 2.并行垃圾收集器 3.CMS&#xff08;并发&#xff09;垃圾收集器 4.G1垃圾收集器 1.串行垃圾回收器 效率低&#xff0c;使用较少 2.并行垃圾回收器 3.并发垃圾回…

软件估算的方法、过程、内容解读(估算指南)

4 估算方法 4.1 基于经验的方法 4.1.1 头脑风暴法 4.1.2 Delphi方法 4.1.2.1 过程图 4.1.2.2 组建评估组 4.1.2.3 系统介绍 4.1.2.4 系统分解与假设 4.1.2.5 设定偏差值 4.1.2.6 个人估计 4.1.2.7 估计结果汇总 4.1.2.8 估计差异讨论 4.1.2.9 结束 4.2 分解的方法…

Brainpan(VulnHub)

Brainpan 1、nmap 2、web渗透 随便看看 目录爆破 使用不同工具&#xff0c;不同字典进行爆破 9999端口分析 10000端口分析 字符串信息中&#xff0c;提示这个程序不能运行在DOS模式下&#xff0c;然后有32个A&#xff0c;还有一行关于复制字节到缓冲区的信息&#xff0c;还有一…

谈谈前端CSS盒模型

前言&#xff1a; 什么是CSS盒模型&#xff1f;盒模型的构造&#xff1f; 在前端开发中&#xff0c;CSS 盒模型是一种非常基础且核心的概念&#xff0c;它描述了文档中的每个元素被框架处理的方式。 ---- 打开浏览器开发者工具&#xff0c;查看Elements右侧下的Styles底部。 …

libVLC Ubuntu编译详解

1.简介 有时候&#xff0c;windows上开发不满足项目需求&#xff0c;需要移植到linux上&#xff0c;不得不自行编译libvlc&#xff0c;编译libvlc相对而言稍微麻烦一点。 我使用的操作系统&#xff1a;Ubuntu20.04 查看系统命令lsb_release -a libvlc版本&#xff1a; 3.0.1…

elment-plus 中 table 左对齐

elment-plus 中 table 左对齐 <el-tablev-loading"loading"class"flex-1 !h-auto":data"roleList":header-cell-style"{text-align: left }":row-style"{ height: 55px }":cell-style"{ text-align: left }"&…

Argus DBM 一款开源的数据库监控工具,无需部署Agent

开箱即用 无需部署Agent&#xff0c;开箱即用。我们使用JDBC直连您的数据库&#xff0c;输入IP端口账户密码即可。 全平台支持 Argus目前支持对Mysql, PostgreSQL, Oracle等数据库类型的监控&#xff0c;我们也会尽快适配其它数据库&#xff0c;致力于监控所有数据库。我们提…

AES 加解密(包含JS、VUE、JAVA、MySQL)工具方法

介绍 AES 是 Advanced Encryption Standard 的缩写&#xff0c;是最常见的对称加密算法。AES 在密码学中又称 Rijndael 加密法&#xff0c;是美国联邦政府采用的一种区块加密标准。这个标准用来替代原先的 DES&#xff0c;已经被多方分析且广为全世界所使用。 基本原理&#…

python 使用 Stable Diffusion API 生成图片示例

python 使用 Stable Diffusion API 生成图片示例 一、前言 在无聊的时候&#xff0c;想瞅一下sd生图遂做了一下 二、具体步骤 1、启动SD的api设置 注意&#xff0c;运行后的api相关功能可以在:http://127.0.0.1:7860/docs 查看 比如这一次我们要的生图的地址就是/sdapi/v1…

华为OD机试 - 结队编程(Java 2024 C卷 100分)

华为OD机试 2024C卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;A卷B卷C卷&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;每一题都有详细的答题思路、详细的代码注释、样例测试…

户外旅行摄影手册,旅游摄影完全攻略

一、资料前言 本套旅游摄影资料&#xff0c;大小295.47M&#xff0c;共有9个文件。 二、资料目录 《川藏线旅游摄影》杨桦.彩印版.pdf 《户外摄影指南》(Essential.Guide.to.Outdoor.photography.amateur)影印版.pdf 《旅行摄影大师班》(英)科尼什.扫描版.PDF 《旅行摄影…

数据结构面试常见问题:数组和链表的区别是什么?

数组 在编程的世界里&#xff0c;数组无疑是最基础的数据结构之一&#xff0c;它像一排整齐的房子&#xff0c;每个房子都有自己的门牌号&#xff0c;我们可以通过这个门牌号直接找到这个房子&#xff0c;无需从头至尾的逐一查找。这个门牌号&#xff0c;就是我们所说的索引&am…

一键下载全自动安装Office全家桶

概述 今天分享一款超级强大的工具软件&#xff0c;该软件实现了一键自动化下载、安装Office全家桶的功能。整套安装流程堪称行云流水&#xff0c;从下载到安装全自动&#xff0c;无需上手操作。只需要安装该工具软件后&#xff0c;点击安装即可。软件会自动识别不同的操作系统架…