大模型压缩-LoRAP

这里写目录标题

  • 1.多头注意力和FFN的权重分布
  • 2 多头矩阵的低秩分解
  • FFN无梯度通道剪枝

这篇文章 1期望找到一个“剪枝+低秩分解”的路子,使结构化剪枝达到非结构化剪枝的性能。

1.多头注意力和FFN的权重分布

在这里插入图片描述

Fig. 1.1 多头注意力权重矩阵

从Fig.1.1可以看出多头注意力机制的qkvo矩阵表现出了稀疏性。
在这里插入图片描述

Fig. 1.2 FFN权重矩阵

然而从Fig.1.2可以看出FFN的 W u p W_{up} Wup, W d o w n W_{down} Wdown, W g a t e W_{gate} Wgate就没有这种表现。所以这篇文章指出用低秩分解来压缩多头注意力矩阵,用结构化剪枝来压缩FFN矩阵。

2 多头矩阵的低秩分解

对于一个权重 W i j W_{ij} Wij,用对应的输入激活 X X X ℓ 2 \ell_2 2范数来评估其重要度,用式1来表示
x d i n = ( ∥ X 1 ∥ 2 , ∥ X 2 ∥ 2 , ⋯ , ∥ X d i n ∥ 2 ) (1) \mathbf{x}_{d_{in}}=(\|\mathbf{X}_{1}\|_{2},\|\mathbf{X}_{2}\|_{2},\cdots,\|\mathbf{X}_{d_{in}}\|_{2})\tag{1} xdin=(X12,X22,,Xdin2)(1)
式中, ∥ X 1 ∥ j \|\mathbf{X}_{1}\|_{j} X1j表示 W : , j W_{:,j} W:,j的重要度。用式2表示其损失,
min ⁡ L , R ∑ i , j ( W i j − ( L R ) i j ) 2 ∥ X j ∥ 2 (2) \min_{\mathbf{L},\mathbf{R}} \sum_{i,j}(W_{ij}-(\mathbf{LR})_{ij})^2\|\mathbf{X}_j\|_2\tag{2} L,Rmini,j(Wij(LR)ij)2Xj2(2)
把重要度分数定义为对角线矩阵 D = d i a g ( x d i n ) \mathbf{D} = \mathrm{diag}(\mathbf{x}_{d_{in}}) D=diag(xdin),由公式2可变为公式3
min ⁡ L , R ∥ W D − L R D ∥ 2 (3) \min_{\mathbf{L},\mathbf{R}}\|\mathbf{WD}-\mathbf{LRD}\|_2\tag{3} L,RminWDLRD2(3)
W D \mathbf{WD} WD进行SVD分解,得到 S V D ( W D ) = U Σ V SVD(\mathbf{WD})=U\Sigma V SVD(WD)=UΣV,令 L = U Σ , R = V D − 1 \mathbf{L} = \mathbf{U}\boldsymbol{\Sigma},\mathbf{R} = \mathbf{V}\mathbf{D}^{-1} L=UΣ,R=VD1,为了压缩矩阵,保留权重矩阵 L \mathbf{L} L, R \mathbf{R} R的前 l l l r r r个分量,得到 L r = U r Σ r , R r = V r D − 1 \mathbf{L}_r=\mathbf{U}_r\mathbf{\Sigma}_r,\mathbf{R}_r=\mathbf{V}_r\mathbf{D}^{-1} Lr=UrΣr,Rr=VrD1,在实验中,论文选择将75%的参数分配给 W v W_v Wv W o W_o Wo矩阵,而将剩下的25%分配给 W q W_q Wq W k W_k Wk矩阵,参数来自对不同矩阵不同压缩比下模型的性能如Fig.2.1。
在这里插入图片描述

Fig. 2.1 不同矩阵不同压缩比下模型的性能

FFN无梯度通道剪枝

ℓ 2 \ell_2 2范数 W i , : W_{i,:} Wi,:来评估矩阵第 i i i行的重要度,用公式4表示
Φ ( W i , : ) = ∥ I ( W i , 1 ) , I ( W i , 2 ) , ⋯ , I ( W i , d i n ) ∥ 2 (4) \Phi(\mathbf{W}_{i,:})=\|I(W_{i,1}),I(W_{i,2}),\cdots,I(W_{i,d_{in}})\|_{2}\tag{4} Φ(Wi,:)=I(Wi,1),I(Wi,2),,I(Wi,din)2(4)
接下来考虑神经元之间的依赖关系,例如,在修剪下矩阵 W d o w n W_{down} Wdown的第 i i i个输入信道时,应对门矩阵 W g a t e W_{gate} Wgate和上矩阵 W u p W_{up} Wup中相应的输出信道进行相应的修剪。用公式5表示之间的依赖
W i g r o u p = { W i , : u p , W i , : g a t e , W : , i d o w n } (5) \mathbf{W}_i^{group}=\{\mathbf{W}_{i,:}^{up},\mathbf{W}_{i,:}^{gate},\mathbf{W}_{:,i}^{down}\}\tag{5} Wigroup={Wi,:up,Wi,:gate,W:,idown}(5)
由此评价某一有依赖关系的结构的重要度
C i g r o u p = Φ ( W i , : u p ) + Φ ( W i , : g a t e ) + Φ ( W : , i d o w n ) (6) C_{i}^{group}=\Phi(\mathbf{W}_{i,:}^{up})+\Phi(\mathbf{W}_{i,:}^{gate})+\Phi(\mathbf{W}_{:,i}^{down})\tag{6} Cigroup=Φ(Wi,:up)+Φ(Wi,:gate)+Φ(W:,idown)(6)
作者发现最不重要的1%的参数在模型性能中起着至关重要的作用。所以剪枝要把最不重要的和最重要的保留,由公式6给出剪枝原则
W i g r o u p = { W i g r o u p , i f C i g r o u p i n t o p ( p r ∗ 100 − 1 ) % , W i g r o u p , i f C i g r o u p i n m i n 1 % , 0. o t h e r w i s e . (6) \mathbf{W}_{i}^{group}=\begin{cases}\mathbf{W}_{i}^{group},&\mathrm{if} C_{i}^{group} \mathrm{in} \mathrm{top}(p_{r}*100-1)\%,\\\mathbf{W}_{i}^{group},&\mathrm{if} C_{i}^{group} \mathrm{in} \mathrm{min} 1\% ,\\0.&\mathrm{otherwise}.\end{cases}\tag{6} Wigroup= Wigroup,Wigroup,0.ifCigroupintop(pr1001)%,ifCigroupinmin1%,otherwise.(6)


  1. LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/863864.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

清华大学世界排名:2025QS世界大学排名第20名

近日,国际高等教育研究机构QS Quacquarelli Symonds正式发布了2025QS世界大学排名,其中麻省理工学院连续第13年蝉联榜首,北京大学排名由去年的全球第17上升至全球第14名,清华大学位列2025QS世界大学排名第20名,以下是查…

2024.6.30周报

目录 摘要 ABSTRACT 一、文献阅读 一、题目 二、摘要 三、模型架构 四、文章解读 一、Introduction 二、创新点 三、RBM 四、贪心算法 五、实验 六、结论 二、代码复现 总结 摘要 本周我阅读了一篇题目为Generative Pre-Trained Physics-Informed Neural Netwo…

ThreadPoolExecutor 线程回收时机详解

个人博客 ThreadPoolExecutor 线程回收时机详解 | iwts’s blog 总集 想要完整了解下ThreadPoolExecutor?可以参考: 基于源码详解ThreadPoolExecutor实现原理 | iwts’s blog Worker-工作线程管理 线程池设计了内部类Worker,主要是用来…

点餐|外卖订餐小程序|基于微信小程序的外卖订餐系统设计与实现(源码+数据库+文档)

点餐|外卖订餐小程序目录 目录 基于微信小程序的外卖订餐系统设计与实现 一、前言 二、系统功能设计 三、系统实现 1、用户微信端功能模块 2、管理员服务端功能模块 3、商家务端功能模块 四、数据库设计 1、实体ER图 五、核心代码 六、论文参考 七、最新计算机毕设…

重生奇迹MU 正确获取金币的方式

在游戏中,需要消耗大量的金币来购买红药等物品。因此,如何快速赚取金币也成为玩家关注的问题。您知道有哪些方法可以快速地获得金币吗? 一、哪个地图上是最适合打金币的很关键 在选择打钱的地方时,不能盲目行动,需要…

【C++开发必备工具】Dependency Walker与Dependencies

Dependency Walker 与 Dependencies 1. Dependency Walker1.1 功能特点1.2 使用方法1.3 注意事项 2. Dependencies2.1 功能特点2.2 使用方法2.3 注意事项 3. 总结 1. Dependency Walker Dependency Walker 是一个免费软件工具,用于查看 Windows 应用程序的模块&…

[数据集][目标检测]婴儿状态睡觉哭泣检测数据集VOC+YOLO格式7109张3类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):7109 标注数量(xml文件个数):7109 标注数量(txt文件个数):7109 标注…

leetCode.96. 不同的二叉搜索树

leetCode.96. 不同的二叉搜索树 题目思路 代码 // 方法一:直接用卡特兰数就行 // 方法二:递归方法 class Solution { public:int numTrees(int n) {// 这里把 i当成整个结点,j当成左子树最左侧结点,并一次当根节点尝试// f[ i ] f[ j - 1…

基于Java的会员制医疗预约服务管理信息系统

你好呀,我是计算机学姐码农小野!如果有相关需求,可以私信联系我。 开发语言:Java 数据库:MySQL 技术:Java技术ssm框架,结合JSPM工作流引擎 工具:IDEA/Eclipse、Navicat、Maven …

10大内网安全管理系统!企业内网安全必备系统

内网安全管理系统对于维护企业网络安全至关重要,它们帮助监控、管理内部网络资源,防止数据泄露和安全威胁。以下是十款知名的内网安全管理系统。 1. 安企神终端安全管理系统 详细介绍: 安企神是针对企业内网安全需求设计的一款综合管理系统&…

记一次windows 资源管理器 explorer.exe无限重启(桌面2秒一直刷新)问题的排查

一. 现象 进入锁屏界面一切正常,输入密码进入桌面后,开始无限刷新,无法正常操作,任务栏也不显示。CtrlAltDel 打开任务管理器,可见windows资源管理器进程时而出现,时而消失。进入安全模式一切正常。window…

kubernetes中使用Helm搭建Redis集群

1. 环境要求 首先需要有kubernetes集群环境,搭建kubernetes集群可以使用kubeSphere、kubespray等工具安装集群。其次要安装helm,并且添加了可用的Chart仓库 2. 确认合适的Chart包 helm官网上搜索redis 找到Star数多的Chart包,一类是redis包…

乐鑫 Matter 技术体验日|快速落地 Matter 产品,引领智能家居生态新发展

随着 Matter 协议的推广和普及,智能家居行业正迎来新的发展机遇,众多厂商纷纷投身于 Matter 产品的研发与验证。然而,开发者普遍面临技术门槛高、认证流程繁琐、生产管理复杂等诸多挑战。 乐鑫信息科技 (688018.SH) 凭借深厚的研发实力与行…

Gin框架基础

1、一个简单的Gin示例 下载并安装Gin: go get -u github.com/gin-gonic/gin1.1 一个简单的例子 package mainimport ("net/http""github.com/gin-gonic/gin" )func main() {// 创建一个默认的路由引擎r : gin.Default()// 当客户端以GET方式访问 /hello…

常见Web认证方式对比

认证是一个在用户或者设备在访问一个受限的系统时,鉴定用户凭据的过程,即确认“你是谁”的问题。最常见的认证用户的方式是通过用户名和密码的形式进行校验,目前存在多种校验方式,本文将对其进行一个简单的对比,使得大…

160相交链表

解法1: public class Solution {public ListNode getIntersectionNode(ListNode headA, ListNode headB) {// 定义两个指针。// 获得两个链表的长度,将较长的链表先用指针移动到和短链表一样的长度。// 再一个个比较ListNode l1 headA, l2 headB;int …

在我们的大数据平台(XSailbaot)上进行企业级数据建模的思路

1. 背景 笔者所在的公司是差不多二十年前搞CIM(公共信息模型的)起家的。当时公司的前辈搞了基于CIS协议的模型服务器、数据服务器、模式编辑器等,形成了一套基于公共信息模型建模的平台系统。其中可视化建模,建好了模式类以后&am…

Kotlin中对空的很多处理

代码图片直观效果 逐行解释Kotlin中对空的各种情况的使用 private fun testNull() {val flag 1var name: String? nullvar user: User? // 有警告, 因为下面的赋值可以和这一行定义合并var zhangUser: User? User()var wangUser: User User() // 提示Explicitly given t…

AttGAN实验复现 2024

AttnGAN 代码复现 2024 文章目录 AttnGAN 代码复现 2024简介环境python 依赖数据集TrainingPre-train DAMSMTrain AttnGAN SamplingB_VALIDATION 为 False (默认)B_VALIDATION 为 True 参考博客 简介 论文地址: https://arxiv.org/pdf/1711.10485.pdf 代码 python…

C++: 如何用C语言实现C++的虚函数机制?

前言 在 googletest的源码中,看到gtest-matchers.h 中实现的MatcherBase 类自定义了一个 VTable,这种设计实现了一种类似于C虚函数的机制。C中的虚函数机制实质上就是通过这种方式实现的,本文用c语言自定义虚函数表VTable实现了一下virtual的…