24GB内存就能跑7B参数大模型？全新训练策略GaLore助你突破内存瓶颈

24GB内存就能跑7B参数大模型？全新训练策略GaLore助你突破内存瓶颈

news/2025/4/26 19:11:51/文章来源:https://blog.csdn.net/qq_19968255/article/details/136579979

训练大型语言模型，内存总是个大问题。

权重啊、优化器状态啊，都得吃内存，而且吃得还不少。

为了省内存，有人就想出了一些招儿，比如低秩适应（LoRA），就是给预训练权重添点儿可训练的低秩矩阵，这样就能少训练点参数，优化器状态也省了。

冻结预训练模型的参数还能加速训练呢，因为只有新模型的参数在更新，其他的都保持不变。

不过啊，这些方法虽然能省内存，但效果可能没全秩权重训练那么好。

因为它们限制了参数搜索的空间，改变了训练的方式，有时候可能还需要全秩热身来启动一下。

最近有人提出了一种新的训练策略，叫梯度低秩投影（GaLore）。

这招儿能让全参数学习更省内存，效果还挺好。

在优化器状态方面，它能减少高达65.5%的内存使用量，而且性能还不打折。在LLaMA 1B和7B架构上都试过了，确实有效果。

现在你可以试试在24GB内存的GPU上预训练那个7B参数的模型了，说不定真的能跑起来哦！

而且还不需要什么模型并行、检查点或卸载策略这些复杂的操作。

这不就是我们梦寐以求的“神器”吗？

不过啊，到底哪种预训练策略最好用呢？咱们一起来聊聊这些策略的使用过程吧。

内容迁移微信公众号：李孟聊AI
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/743527.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

基于YOLOv8深度学习的木薯病害智能诊断与防治系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战

基于YOLOv8深度学习的木薯病害智能诊断与防治系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战

《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~ 👍感谢小伙伴们点赞、关注！ 《------往期经典推…

阅读更多...

将内容写入文件并下载文件

将内容写入文件并下载文件

这里写自定义目录标题 import saveAs from file-saver; // 获取时间年月日时分秒 const getTimeInfo () > {return new Date().toLocaleString().replace(/\//g, ).replace(/:/g, ).replace(/ /g, ) };const getRandom () > {return (Math.random() * 10).toFixed(0);…

阅读更多...

基于C++的一种字符串切分方法及示例代码

基于C++的一种字符串切分方法及示例代码

一、概述在 Java 和 python 中，都有实现字符串切分的方法， 如split() ，使用起来较为方便，但是在标准的 C 中，却没有内置的 split() 方法。我们可以使用标准库中的一些函数和方法来实现字符串的切分，这里…

阅读更多...

Android 实现子线程主线程切换

Android 实现子线程主线程切换

Android 子线程切换到主线程在 Android 开发中，我们经常需要在子线程中执行一些耗时操作，例如网络请求或者数据库操作。然而，由于 Android 的主线程（也称为 UI 线程）负责处理用户交互和更新界面，所以我们不…

阅读更多...

【Java系列】OOM 时，JVM 堆栈信息保存和分析

【Java系列】OOM 时，JVM 堆栈信息保存和分析

一、前言在日常开发中，即使代码写得再谨慎，免不了还是会发生各种意外的事件，比如服务器内存突然飙高，又或者发生内存溢出(OOM)。当发生这种情况时，我们怎么去排查，怎么去分析原因呢？ 一般遇到…

阅读更多...

前端开发小技巧【Vue篇】 - 样式穿透 + 绑定变量

前端开发小技巧【Vue篇】 - 样式穿透 + 绑定变量

前言样式穿透 Vue都是通过深度选择器来样式穿透的。当我们在写项目的时候，经常会导入第三方库，有些特殊的情况，就是在导入第三方库后，呈现的样式并不是我们想要的样式，所以我们需要对第三方的样式进行修改&#xff1…

阅读更多...

Java毕业设计基于SSM jsp房屋租赁系统房屋出租系统

Java毕业设计基于SSM jsp房屋租赁系统房屋出租系统

Java毕业设计基于SSM jsp房屋租赁系统房屋出租系统 SSM jsp 房屋租赁系统房屋出租系统功能介绍用户：首页图片轮播搜索登录注册新闻公告新闻公告详情装修广告热门房源房源详情合租整租商业办公普通民宅酒店式公寓全部房源留言交流发布帖子模…

阅读更多...

Linux下platform设备信息代码框架实现

Linux下platform设备信息代码框架实现

一. 简介前面一篇文章简单学习了Linux内核中 platform设备代码。文章地址如下： Linux内核中platform设备简介-CSDN博客本文来学习如何编写 platform设备代码框架，为了后面学习 Linux下platform驱动开发。二. Linux下platform设备信息代码框架实现…

阅读更多...

汽车大灯罩汽车尾灯罩破裂裂纹破损破洞掉角崩角等问题能修复吗？怎么修复？

汽车大灯罩汽车尾灯罩破裂裂纹破损破洞掉角崩角等问题能修复吗？怎么修复？

汽车大灯汽车尾灯破裂裂纹破损破洞掉角崩角等问题是一定可以修复的。汽车灯罩的修复方法取决于灯罩的破损程度和材质。以下是一些常见的汽车灯罩修复方法： 肥皂水清洗：如果灯罩只是轻微模糊或发黄，可以使用肥皂水进行清洗。将肥皂水涂抹在…

阅读更多...

opencv-python连通域分割connectedComponents

opencv-python连通域分割connectedComponents

文章目录连通域简介绘图代码函数说明连通域简介所谓连通域，即Connected Component，是一组彼此相连的像素点的集合，这些像素点彼此之间可以假设一条互相链接的路径，路径上所有像素的灰度一致，或者符合某个特定的条件…

阅读更多...

今天就简单的说一下前端的游戏逻辑 if else,之前的抖音接入小游戏先缓存,最近太忙,先写一些简单的

今天就简单的说一下前端的游戏逻辑 if else,之前的抖音接入小游戏先缓存,最近太忙,先写一些简单的

比如在 cocos creator 组件 label private label:cc.Label null 然后你有一个逻辑是.如果赋值(就是服务器下发的数据给你,你就显示)如果不下发你前端就判断为空,那么按照以前的逻辑你肯定会这样子写: //假设服务器下发的数据就是 let serverNum 666; //通常的写法是下面这…

阅读更多...

【软考高项】四、信息化发展之数字中国

【软考高项】四、信息化发展之数字中国

1、数字经济定义：从本质上看，数字经济是一种新的技术经济范式，它建立在信息与通信技术的重大突破的基础上，以数字技术与实体经济融合驱动的产业梯次转型和经济创新发展的主引擎，在基础设施、生产要素、产业结构和治理…

阅读更多...

selenium自动化测试读取csv数据

selenium自动化测试读取csv数据

1.定义读取数据： configFile py文件： class Config: #从read.csv文件中读取个人客户号 def GETKHH_GR(self):fileopen(D:\Pythonproject\read.csv,encodingUTF-8)khhReadercsv.reader(file)# print(list(khhReader))return .join(random.choice(list(…

阅读更多...

Day32：安全开发-JavaEE应用Servlet路由技术JDBCMybatis数据库生命周期

Day32：安全开发-JavaEE应用Servlet路由技术JDBCMybatis数据库生命周期

目录 JavaEE-HTTP-Servlet&路由&周期 JavaEE-数据库-JDBC&Mybatis&库思维导图 Java知识点： 功能：数据库操作，文件操作，序列化数据，身份验证，框架开发，第三方库使用等. 框架…

阅读更多...

安装VMWare

安装VMWare

下载VMware软件（已提供给大家） 2．解压压缩文件 3.解压后文件夹中的内容 4.双击.exe进行VMware安装出现的第一个界面 5.点击下一步，出现以下界面 6.勾选我接受复选框，然后点击“下一步”。 7.后面几步都是点击“下一步”…

阅读更多...

精品基于Uniapp+ssm英语学习交流平台小程序打卡计划备忘录

精品基于Uniapp+ssm英语学习交流平台小程序打卡计划备忘录

《[含文档PPT源码等]精品微信小程序基于Uniappssm英语学习交流平台小程序》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程、包运行成功！ 软件开发环境及开发工具： 开发语言：Java 后台框架：ssm 安卓框…

阅读更多...

深度学习：推动可持续发展与社会责任的创新引擎！

深度学习：推动可持续发展与社会责任的创新引擎！

随着科技的飞速发展和全球化的推进，可持续发展和社会责任逐渐成为各个领域关注的焦点。深度学习作为人工智能的重要分支，在可持续发展和社会责任方面发挥着越来越重要的作用。本文旨在探讨深度学习在环境保护、资源利用、犯罪预防和残障人士辅助等领域的…

阅读更多...

第 5 章 ROS常用组件-rosbag(自学二刷笔记)

第 5 章 ROS常用组件-rosbag(自学二刷笔记)

重要参考： 课程链接:https://www.bilibili.com/video/BV1Ci4y1L7ZZ 讲义链接:Introduction Autolabor-ROS机器人入门课程《ROS理论与实践》零基础教程 5.2.1 rosbag使用_命令行需求: ROS 内置的乌龟案例并操作，操作过程中使用 rosbag 录制&#xf…

阅读更多...

从零开始学习深度学习库-2：反向传播

从零开始学习深度学习库-2：反向传播

欢迎来到本系列的第二篇文章，我们将从头开始构建一个深度学习库。本博客系列的代码可以在这个Github仓库中找到。上一篇文章在上一篇文章中（链接见这里），我们实现了线性层和常见的激活函数，并成功构建了神经网络的…

阅读更多...

前端学习笔记 | WebAPIs（DOM+BOM）

前端学习笔记 | WebAPIs（DOM+BOM）

一、作用和分类 1、基本概念作用：使用JS去操作HTML和浏览器分类：DOM（文档对象模型）和BOM（浏览器对象模型） html的标签JS的DOM对象 2、获取DOM对象-参数必须加引号 （1）选择匹配的第…

阅读更多...

最新文章