『大模型笔记』大型语言模型(LLMs)微调(Fine-tuning)优化研究！

『大模型笔记』大型语言模型(LLMs)微调(Fine-tuning)优化研究！

diannao/2025/4/26 22:27:06/文章来源:https://blog.csdn.net/abc13526222160/article/details/139500684

大型语言模型(LLMs)微调(Fine-tuning)优化研究！

文章目录

一. 摘要
二. 大模型优化技术概述
- 2.1 梯度检查点(Gradient Checkpointing)
- 2.2 低秩适应
- 2.3 DeepSpeed
- 2.4 Flash Attention
三. GPU内存需求的理论分析
- 3.1. 模型状态内存(Model states memory) - 模型参数、梯度、优化器状态
- 3.2. 激活内存(Activation memory)
- 补充材料：ZeRO各阶段介绍和区别
四. 实验
- 4.1. 实验设置
- 4.2. Fine-tuning Large Models
二. 参考文献

大型语言模型微调优化研究：https://arxiv.org/abs/2406.02290

一. 摘要

微调大语言模型是用户用于特定应用的常见选择。然而，微调这些模型是一项艰巨的任务，因为用户必须考虑 资源预算、运行时间、模型大小和上下文长度 等多个因素。一个主要的挑战是微调对内存需求很高，限制了所需硬件内存和可以处理的训练数据上下文长度。在这项工作中，我们对各种微调优化方案进行了详细研究并分享了结果。特别是，我们评估了 梯度检查点（Gradient Checkpointing）、低秩适配（Low Rank Adaptation）、DeepSpeed的零冗余优化器（ZeRO Redundancy Optimizer）和闪存注意力（Flash Attention）。我们重点关注内存和运行时间，考察了不同优化组合在微调阶段对GPU内存使用和执行时间的影响，并提供了优化的最佳默认建议&#

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/23499.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

vscode ctrl+鼠标左键无法跳转

vscode ctrl+鼠标左键无法跳转

打开设置，搜索intel…… 将这个智能感知改成default就可以了，我之前是在disable处。分析了一下，其实跳转功能主要是根据上下文语法分析来实现的，并不是简单得全文匹配，因此需要相关得语法分析工具。那么为什么默认式…

阅读更多...

微软Edge浏览器深度解析：功能、同步、隐私与安全

微软Edge浏览器深度解析：功能、同步、隐私与安全

微软Edge浏览器是微软公司开发的一款网页浏览器，它基于Chromium内核，提供了快速、安全和兼容性良好的网页浏览体验。以下是关于微软Edge浏览器的详细信息和使用指南：微软Edge浏览器的主要特点： 1. 基于Chromium内核：渲染引擎：Chromium内核是基于开源项目Blink的，它…

阅读更多...

可视化数据科学平台在信贷领域应用系列五：零代码可视化建模

可视化数据科学平台在信贷领域应用系列五：零代码可视化建模

信贷风控模型是金融机构风险管理的核心工具，在信贷风险管理工作中扮演着至关重要的角色。随着信贷市场的环境不断变化，信贷业务的风险日趋复杂化和隐蔽化，开发和应用准确高效的信贷风控模型显得尤为重要。信贷风险控制面临着越来越大的挑战和…

阅读更多...

问你为什么选择Kafka，你会怎么回答？

问你为什么选择Kafka，你会怎么回答？

可靠的含义在百度百科的解释是：可以信赖、可以相信、可靠的朋友。那Kafka究竟是不是一个可靠的朋友呢？既然全世界绝大部分高可用系统都有Kafka的支持，Kafka必定有其过人之处，跟着我来分析分析。另外多提一嘴Kafka在GitHub目前已…

阅读更多...

六西格玛培训，带你解锁职场超能力工具！

六西格玛培训，带你解锁职场超能力工具！

当提及六西格玛培训的精髓时，我们不得不提到那些强大而实用的工具，它们如同探险者的指南针，引导我们走向卓越。今天，就让我们一起揭开这些神秘工具的面纱，探寻六西格玛背后的智慧。首先，DMAIC流程是六西格…

阅读更多...

python小游戏：猜数字、猜动物、单词接龙（带界面）

python小游戏：猜数字、猜动物、单词接龙（带界面）

正在学习python的各位童鞋，可以多多找些程序来练练手，从而更快的掌握python编程。这里就为大家找了三个示例小程序：猜数字、猜动物、单词接龙。一、猜数字程序会随机生成一个1到100之间的数字，然后让用户尝试猜测这个数字。用户…

阅读更多...

cesium 漫游

cesium 漫游

token记得换成您自己的！！！ 申请cesium的token 官网【Cesium: The Platform for 3D Geospatial】 <template><div id"cesiumContatiner"></di…

阅读更多...

如何理解敏捷开发和瀑布模型的区别

如何理解敏捷开发和瀑布模型的区别

敏捷开发和瀑布模型是两种不同的软件开发方法，它们在多个方面存在显著的差异。以下是它们之间的主要区别： 开发流程： 瀑布模型：采用线性的开发流程，按照预先规划的顺序依次进行需求分析、设计、编码、测试和维护等环节…

阅读更多...

【蒙特卡洛仿真的corner】

【蒙特卡洛仿真的corner】

蒙特卡洛仿真的corner global variation指的是不同晶圆之间的process的差别 local variation指的是同一个晶圆内的不同管子之间的mismatch smic40ll工艺中，ttg，ssg，sfg，fsg corner只包含mismatch ss，tt，sf&…

阅读更多...

员工离职删除自己做的文件违法么?如何杜绝这种现象？

员工离职删除自己做的文件违法么?如何杜绝这种现象？

员工离职时删除自己做的文件是否违法，需要视情况而定： 如果删除的是个人自己的文件： 在这种情况下，员工删除的是自己制作的、不涉及公司机密或经营数据的个人文件，通常不会被视为违法行为。如果删除的是公司的文件…

阅读更多...

探索 CSV 模块：Python 中 CSV 数据持久化的最佳实践

探索 CSV 模块：Python 中 CSV 数据持久化的最佳实践

🍀 前言博客地址： CSDN：https://blog.csdn.net/powerbiubiu 👋 简介本章节介绍使用 CSV 文件来存储数据，CSV 文件是一种常见的数据格式，可以用来存储和交换表格数据。CSV 文件由一系列的行组成&#x…

阅读更多...

SQL Developer管理RESTful 服务

SQL Developer管理RESTful 服务

RESTful 服务依赖于ORDS（Oracle REST Data Services），所以在进行本实验前，请先确认数据库服务器上的ORDS服务已启动： $ systemctl status ords ● ords.service - Oracle REST Data ServicesLoaded: loaded (/etc/sys…

阅读更多...

小程序canvas的同层渲染这个属性不加，就不会生效！

小程序canvas的同层渲染这个属性不加，就不会生效！

做微信小程序的时候，发现vant-weapp的图表相关的vant再实机上怎么用都有问题（同层渲染失败）。看了官方文档结果说了半天一点用都没有，官方原话是：当前所有原生组件（除 input 组件 focus 状态）均…

阅读更多...

scripts/Makefile.host 分析【fixdep、conf】

scripts/Makefile.host 分析【fixdep、conf】

文章目录 1. 目标 $(obj)/fixdep1.1 cmd_host-csingle函数分析： 2. 目标 $(obj)/conf2.1 cmd_host-cmulti函数分析：2.2 生成 $(obj)/conf.o 文件：2.3 生成 $(obj)/zconf.tab.o 文件： 1 # SPDX-License-Identifier: GPL-2.0 2 …

阅读更多...

C++二级指针的指向与解引用

C++二级指针的指向与解引用

本文算是作者对于二级指针学习的一些总结或者说是刨根问底，如果有表述错误，还请各位大神指正。我们首先定义一个整型a，令a 5，再分别定义指针p和二级指针ptr int a 5; int *p &a; int **ptr &p;我们不妨假设a的地址是…

阅读更多...

云原生周刊：Gateway API v1.1 发布｜ 2024.6.3

云原生周刊：Gateway API v1.1 发布｜ 2024.6.3

开源项目推荐 Grafana Tanka Tanka 是 Grafana 开发的一款用于 Kubernetes 的灵活、可重用和简洁的配置工具,是使用 YAML 进行 Kubernetes 配置的一种替代方案。 pv-migrate pv-migrate 是一个 CLI 工具/kubectl 插件，可以轻松地将一个 Kubernetes PersistentVo…

阅读更多...

23中设计模式之一— — — —命令模式的详细介绍

23中设计模式之一— — — —命令模式的详细介绍

命令模式 Command Pattern讲解概念描述模式结构主要角色模式的UIM类图模式优点模式缺点应用场景实例演示类图代码演示运行结果概念命令模式（别名：动作，事务） 命令模式是一种行为设计模式，将一个请求封装为一个对象…

阅读更多...

【qt】项目移植

【qt】项目移植

项目移植一.前言二.同名问题三.具体操作1.修改文件名2.修改类名3.修改一些不能自动改的名4.修改.ui文件5.删除原来自动生成的ui_xxx.h文件6.修改头文件四.导入项目五.使用导入的项目六.项目建议一.前言终于概率论考完了,有时间了,接着上个项目,我们继续来完成我们的多窗口开…

阅读更多...

【Leetcode Python】

【Leetcode Python】

偷某间房屋时，累积金额等于间隔前两间房的金额加上当前房的金额数；不偷时，累计金额就等于前一间房的金额数。状态转移方程：dp[i] max(dp[i-2]nums[i], dp[i-1]) 并且注意错误点：dp[1]有两间房时，初始值为…

阅读更多...

汽车soa架构介绍

汽车soa架构介绍

SOA 架构的基本概念面向服务的架构（Service-Oriented Architecture，简称 SOA）是一种软件设计和架构风格，近年来在软件开发领域得到了广泛的关注和应用。 SOA 的定义可以概括为：它是一种将应用程序分解为一组松散耦合的服务的架构模式。这些服务通过定义明确的接口进行通…

阅读更多...

最新文章