深度学习系列58:大模型训练和压缩

1. 大模型训练

1.1数据并行

在这里插入图片描述

1.2 模型并行

在这里插入图片描述
在这里插入图片描述

1.3 ZeRO

在这里插入图片描述

1.4 流水线并行

在这里插入图片描述

1.5 混合精度训练

在这里插入图片描述

在这里插入图片描述

1.6 offloading

把梯度放在cpu上保存和计算
在这里插入图片描述

1.7 overlapping

提前传输数据
在这里插入图片描述

1.8 checkpointing

中间线性层不保存,反向传播时再次重新计算
在这里插入图片描述

1.9 使用BMtrain

在这里插入图片描述

2. 大模型压缩

2.1 知识蒸馏

在这里插入图片描述

2.2 模型剪枝

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 模型量化

在这里插入图片描述

2.4 weight sharing

不同层使用同样的层进行计算
在这里插入图片描述

2.5 low-rank approximation

在这里插入图片描述
在这里插入图片描述

2.6 BMCook软件

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/687859.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蝶阀、球阀、阀门百科

一、D71X是蝶阀的型号其中D 就代表了蝶阀,7 代表是对夹式链接,1代表这个蝶阀是中线结构,x就是密封面材质为橡胶。结合起来D71X表示的就是手柄对夹中线蝶阀。 二、J41H-100C型号字母含义介绍 J41H-100C型号是德特森阀门常用的高压截止阀型号字母代表的意思是: J——代表阀门类…

windows下Oracle 11g的安装和配置教程的详细步骤

#### 1、下载Oracle软件 访问Oracle官方网站或者Oracle下载中心。在下载页面中找到适用于您操作系统的Oracle 11g软件。根据您的需求选择合适的版本,如“Oracle Database 11g Release 2 Express Edition for Windows x64”。点击下载并接受相关许可协议。 2、安装…

MCU中断控制

目录 一、中断相关基础知识 1、NVIC:嵌套向量中断控制器 2、可屏蔽中断和不可屏蔽中断的区别 3、中断优先级 4、常见特殊中断 二、中断相关寄存器 三、中断使用步骤: 一、中断相关基础知识 1、NVIC:嵌套向量中断控制器 (1) 它是内核的…

LVS/DR配置

实验环境: servera作为lvs服务器 serverc,serverd作为web服务器 一.配置serverc,serverd 对两台服务器做相同配置: 1.安装nginx服务:yum install nginx -y2.切换到nginx根目录cd /usr/share/nginx/html/3.将原来的index.html备份mv index.html index.html.bak4.输出…

Windows Server 2012 评估版和Windows Server 2019 评估版 升级为正式版(工作v笔记v分享)

Windows Server 2012 评估版和Windows Server 2019 评估版是微软提供的试用版本,可以免费下载和使用一段时间。当使用评估版时,可以在适当的时候将其升级为正式版,以便继续使用并享受完整的功能。 要将评估版升级为正式版,可以按…

基于ArcGIS Pro SDK的MVVM架构

示例结果展示 文件夹创建 相对于原始C#,少了Command文件夹里的类。该文件中的RelayCommand使用 ArcGIS.Desktop.Framework Properties属性配置,主要用于设置执行程序路径(自带文件夹) DarkImages用于存放深色图片(自…

Rust 学习笔记 - 流程控制 与 Range 类型

前言 任何一门编程语言几乎都脱离不了:变量、基本类型、函数、注释、循环、条件判断,这是一门编程语言的语法基础,只有当掌握这些基础语法及概念才能更好的学习 Rust。 条件判断 if 表达式 if 语句在其他语言中很常见,这里不再…

面试经典150题【1-10】

文章目录 面试经典150题【1-10】88. 合并两个有序数组27.移除元素26.删除有序数组中的重复项80.删除有序数组中的重复项II169.多数元素189.轮转数组121.买卖股票的最佳时机1122. 买卖股票的最佳时机 II55.跳跃游戏![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/ff…

nvm安装配置环境

前言 对于前端开发人员来说,多个项目可能用的不同的node版本,如何方便快速的转换版本,nvm版本管理工具的出现,解决这个问题。 实战 1. 搜索nvm版本,我用的1.1.2,下载后直接安装。 2.在d盘建立nvm空文件…

uniapp H5唤起手机App 中间下载页

我这里直接是打开中间下载页,在下载页判断手机是否已存在App,有则唤起App,没有则可点击下载按钮下载app。 唤起App的关键语句是:window.location.href scheme Scheme链接格式样式: [scheme]://[host]/[path]?[que…

蓝桥杯:C++队列、优先队列、链表

C普通队列 算法竞赛中一般用静态数组来模拟队列,或者使用STL queue。使用C的STL queue时,由于不用自己管理队列,因此代码很简洁。队列的部分操作如下。 C优先队列 很多算法需要用到一种特殊的队列:优先队列。它的特点是最优数据…

Android下SF合成流程重学习之onMessageInvalidate

Android下SF合成流程重学习之onMessageInvalidate 引言 虽然看了很多关于Android Graphics图形栈的文章和博客,但是都没有形成自己的知识点。每次学习了,仅仅是学习了而已,没有形成自己的知识体系,这次趁着有时间,这次…

pyhton在办公方面的应用

好久没发文了,转眼已经2024年了,我的电脑已经八岁了,近来状况频发,为防止它哪天突然嘎嘣,我多年搜集的资料付诸东流,故决定把资料备份一下这些代码有的是原创,有的是借鉴了其他博主的文章&#…

Python算法100例-1.7 最佳存款方案

完整源代码项目地址,关注博主私信’源代码’后可获取 1.问题描述2.问题分析3.算法设计4.完整的程序 1.问题描述 假设银行一年整存零取的月息为0.63%。现在某人手中有一笔钱,他打算在今后5年中的每年年底取出1000元,到第5年时刚…

民安智库如何做新品上市满意度调研

新品上市满意度调研是一种重要的市场研究方法,它通过收集和分析消费者对新产品的态度、购买意愿和满意度等方面的数据,帮助企业了解消费者的需求和期望,发现新产品的问题和不足,从而为产品改进提供有力的数据支持。下面将详细介绍…

什么是生产排产管理系统?哪个最好用?

阅读本文,你将了解:一、生产排产管理系统是什么;二、生产排产管理系统的功能;三、盘点五款好用的生产排产管理系统;四、生产排产管理系统的优势。 一、生产排产管理系统是什么 生产排产,也叫生产计划排程…

智能车竞赛详细介绍

一、引言 随着科技的飞速发展,智能车辆已成为当今研究的热点之一。智能车竞赛作为一项集科技、创新和竞技于一体的活动,为广大学子提供了一个展示才华、交流学习的平台。本文将对智能车竞赛进行详细介绍,包括竞赛背景、目标、赛程安排、技术…

【c++每天一题】跳跃游戏

题目 给你一个非负整数数组 nums ,你最初位于数组的 第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。 判断你是否能够到达最后一个下标,如果可以,返回 true ;否则,返回 false 。 示例 1&#xff1…

人机工程学和人机交互理论:智能座舱设计

hello家人们...本人熟悉PS、Xd、Ai、Sketch、Figma、墨刀、即时设计、mastergo、Pixso等行业设计软件以及前端开发等技能,拥有10年的UI经验,我们可以通过关注评论私信交流以帮助到您解决UI工作中的烦恼!谢谢 人机工程学与人机交互理论&#x…

元宇宙专题:元宇宙概念娱乐应用场景案例研究报告 - 体验驱动篇

今天分享的是元宇宙系列深度研究报告:《元宇宙专题:元宇宙概念娱乐应用场景案例研究报告 - 体验驱动篇》。 (报告出品方:艾瑞咨询) 报告共计:51页 避免刻舟求剑地探索元宇宙概念产品 对于任何一个宏大而…