Straightforward Layer-wise Pruning for More Efficient Visual Adaptation

对于模型中冗余的参数,一个常见的方法是通过结构化剪枝方法减少参数容量。例如,基于幅度值和基于梯度的剪枝方法。尽管这些方法在传统训练上通用性,本文关注的PETL迁移有两个不可避免的问题:

  1. 显著增加了模型存储负担。由于不同的下游数据,剪枝方法设置的剪枝率不同,导致不同数据集的不同网络结构,这导致这些不同结构大的存储空间。
  2. 模型精度的损失。剪枝冗余参数从网络中的预训练参数,这不与下游数据集直接相关。可训练参数需要适应剪枝的新结构,实验中表明这阻碍了模型精度恢复。

本文方法

这里首先介绍广泛使用的维度约简算法,t-SNE和聚类算法标准,轮廓系数索引(silhouette coefficient index)。给定d维度的输入特征集合 X = { x 1 , x 2 , … , x n } X=\{x_{1},x_{2},\ldots,x_{n}\} X={x1,x2,,xn},t-SNE计算s维度嵌入集合,定义为 $Y={y_{1},y_{2},\ldots,y_{n}$,满足 s ≪ d s\ll d sd。t-SNE计算 x i x_{i} xi x j x_{j} xj 之间相似度的公式为以下的联合概率 p i j = p i ∣ j + p j ∣ i 2 n p_{ij}=\frac{p_{i|j}+p_{j|i}}{2n} pij=2npij+pji
其中

p i ∣ j = exp ⁡ ( − ∣ ∣ x i − x j ∣ ∣ 2 / 2 σ i 2 ) ∑ k ≠ i exp ⁡ ( − ∣ ∣ x i − x k ∣ ∣ 2 / 2 σ i 2 ) p_{i|j}=\frac{\exp(-||x_{i}-x_{j}||^{2}/2\sigma_{i}^{2})}{\sum_{k\neq i}\exp(-||x_{i}-x_{k}||^{2}/2\sigma_{i}^{2})} pij=k=iexp(∣∣xixk2/2σi2)exp(∣∣xixj2/2σi2)

基于上述 X X X Y Y Y 的联合分布 P P P Q Q Q,t-SNE通过梯度下降优化 P P P Q Q Q 之间KL散度。

轮廓系数索引

给定聚类结果集合 X = { x 1 , x 2 , … , x n } X=\{x_{1},x_{2},\ldots,x_{n}\} X={x1,x2,,xn},对于每一点 x i x_{i} xi,定义 a i a_{i} ai 是在这疑惧类剩下点和 x i x_{i} xi 平均距离。 b ( i ) b(i) b(i) 是在最近聚类的所有点到 x i x_{i} xi 平均距离。定义轮廓系数索引为

s ˉ = 1 n ∑ i = 1 n b ( i ) − a ( i ) max ⁡ ( a ( i , b ( i ) \bar{s}=\frac{1}{n}\sum_{i=1}^{n}\frac{b(i)-a(i)}{\max(a(i,b(i)} sˉ=n1i=1nmax(a(i,b(i)b(i)a(i)

基于特征视角的逐层剪枝

先前研究已经显示较低的层捕捉一般特征,较高的层关注于特定特征。基于此理解和PETL冻结预训练网络参数的限制,本文提出了一个假设:当存在下游数据分布和预训练数据分布显著差异时,由PETL迁移的较深的层将包含大量的冗余参数。本文目标是动态识别并剪枝这些冗余参数。后续关键评价指标需要满足:

  • 维持PETL迁移模型相同存储参数数量
  • 不需要额外训练预测冗余参数

不增加存储参数数量

考虑一个PETL迁移的N层ViT模型,定义每层预训练参数为 W P i W_{P}^{i} WPi,定义每层新引入的参数为 W A i , j W_{A}^{i,j} WAi,j,头参数为 W H j W_{H}^{j} WHj,由SLS预测的剪枝层索引为 I n d e x j Index_{j} Indexj。对于层级别的剪枝方法,在K个下游数据集的存储的参数量 S S S
S = ∑ j = 1 K ∑ i = 1 I n d e x j ( W P i + W A i , j ) + ∑ j = 1 K W H j S=\sum_{j=1}^{K}\sum_{i=1}^{Index_{j}}(W_{P}^{i}+W_{A}^{i,j})+\sum_{j=1}^{K}W_{H}^{j} S=j=1Ki=1Indexj(WPi+WAi,j)+j=1KWHj
显然剪枝层数量不会超过网络层的范围。

S ≤ ∑ j = 1 K ∑ i = 1 N ( W P i + W A i , j ) + ∑ j = 1 K W H j = K ∑ i = 1 N W P i + ∑ j = 1 N ∑ i = 1 N W A i , j + ∑ j = 1 K W H j S\leq \sum_{j=1}^{K}\sum_{i=1}^{N}(W_{P}^{i}+W_{A}^{i,j})+\sum_{j=1}^{K}W_{H}^{j}=K\sum_{i=1}^{N}W_{P}^{i}+\sum_{j=1}^{N}\sum_{i=1}^{N}W_{A}^{i,j}+\sum_{j=1}^{K}W_{H}^{j} Sj=1Ki=1N(WPi+WAi,j)+j=1KWHj=Ki=1NWPi+j=1Ni=1NWAi,j+j=1KWHj
对于存储的参数,每一层的参数 W P i W_{P}^{i} WPi 是可以再次使用的,因此满足:
S ≤ ∑ i = 1 N W P i + ∑ j = 1 N ∑ i = 1 N W A i , j + ∑ j = 1 K W H j S\leq \sum_{i=1}^{N}W_{P}^{i}+\sum_{j=1}^{N}\sum_{i=1}^{N}W_{A}^{i,j}+\sum_{j=1}^{K}W_{H}^{j} Si=1NWPi+j=1Ni=1NWAi,j+j=1KWHj

基于从每层的中间特征做剪枝决策

本文提出使用约简维度特征的聚类度评估层特征。该方法没有引入额外的监督训练。

给定输入 X X X,ViT模型将其通过补丁嵌入曾嵌入d维度潜在空间获得 e 0 e_{0} e0 e 0 e_{0} e0 与CLS令牌连接作为模型输入。ViT模型backbone前向过程可以描述为:
[ x i , e i ] = L i ( [ x i − 1 , e i − 1 ] ) [x_{i},e_{i}]=L_{i}([x_{i-1},e_{i-1}]) [xi,ei]=Li([xi1,ei1])

本文提出特征评估模块(FEM)评估从层 L i L_{i} Li 的特征。FEM从层 L i L_{i} Li 的输出获得CLS令牌 x i x_{i} xi 表示当前特征。之后使用t-SNE算法约简 x i x_{i} xi x i ′ x_{i}^{\prime} xi。通过结合当前输入的标签,获得 p p p 类别的聚类结果。之后获得对应 C C C a ( i ) a(i) a(i) b ( i ) b(i) b(i),最后是当前层的特征评估 S C _ i n d e x i SC\_index_{i} SC_indexi

对于N层的模型,定义 α \alpha α 是控制SLS剪枝度的超参数。在当前数据集的对于剪枝层的阈值 T T T 定义为:

T = α × S C _ I n d e x N T=\alpha\times SC\_Index_{N} T=α×SC_IndexN

在模型剪枝过程中,从最高层往下。当第i层特征的评估 S C _ I n d e x i SC\_Index_{i} SC_Indexi 小于T,停止遍历并剪枝从i+2到N的层。核心思想是当第 i层评估与最终层特征评估差距小于一个特定阈值,分类头不再能有效区分当前特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/59294.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微服务架构面试内容整理-服务拆分的原则

服务拆分是微服务架构设计的关键步骤,以下是一些常见的拆分原则: 1. 单一职责原则 每个微服务应只负责一项特定的业务功能或领域,确保服务的简单性和易于理解。 2. 业务能力驱动 根据业务能力或功能进行拆分,确保每个服务能够独立实现特定的业务价值。<

022集——统计多条线的总长度(CAD—C#二次开发入门)

如下图所示&#xff0c;选择多条线并统计长度&#xff1a; c#中不包含直接获取curve曲线长度 属性&#xff0c;需用如下方法&#xff1a;curve.GetDistanceAtParameter(item.EndParam) 附部分代码如下&#xff1a; using Autodesk.AutoCAD.ApplicationServices; using Autode…

W5100S-EVB-Pico2评估板介绍

目录 1 简介 2 硬件资源 2.1 硬件规格 2.2 引脚定义 2.3 工作条件 3 参考资料 3.1 RP2350数据手册 3.2 W5100S数据手册 3.3 原理图 原理图 & 物料清单 & Gerber 文件 3.4 尺寸图&#xff08;单位&#xff1a;mm&#xff09; 3.5 参考例程 认证 CE FCC …

【Python】自然语言处理神器:NLTK库初探与文本处理案例

自然语言处理神器&#xff1a;NLTK库初探与文本处理案例 在自然语言处理&#xff08;NLP&#xff09;领域&#xff0c;Python 的 NLTK&#xff08;Natural Language Toolkit&#xff0c;自然语言工具包&#xff09;被广泛认为是入门级和应用级的强大工具之一。无论是处理文本、…

从放弃985计科保研到秋招进大厂,我是怎么做的?【秋招经验分享】

从放弃985计科保研到秋招进大厂&#xff0c;我是怎么做的 先来介绍一下我自己&#xff0c;bg为985计算机本科&#xff0c;我在放弃了计科保研以后&#xff0c;成功拿到了美团等大厂研发岗的offer。目前秋招已经接近尾声了&#xff0c;我想记录一下这段时间的秋招感悟和经验&…

STM32F103C8T6学习笔记4--模拟旋转编码器的按键中断

1、实验内容 通过旋转编码器正反转来计数&#xff0c;由对应的GPIO产生中断。但是我在Proteus里面没有找到相关的EC11旋转编码器元件&#xff0c;暂时通过电路模拟的方式实现。 S1按下引脚PB0产生低电平信号&#xff0c;触发中断&#xff0c;计数值减一。 S2按下引脚PB1产生低…

宝顶白芽,慢生活的味觉盛宴

在快节奏的生活中&#xff0c;人们愈发向往那种悠然自得、返璞归真的生活方式。白茶&#xff0c;以其独特的韵味和清雅的风格&#xff0c;成为了现代人追求心灵宁静与生活品质的象征。而在众多白茶之中&#xff0c;竹叶青茶业出品的宝顶白芽以其甘甜醇爽的特质&#xff0c;成为…

23.智能停车计费系统(基于springboot和vue的Java项目)

目录 1.系统的受众说明 2 相关概念和技术介绍 2.1 JAVA技术介绍 2.2 SpringBoot框架 2.3B/S架构 2.4 MySQL数据库 3 系统需求分析 3.1 问题定义 3.2 可行性分析 3.3系统用例分析 3.4 系统流程分析 3.4.1 登录流程 3.4.2 添加信息流程 3.4.3 删除信息流程 4…

C语言学习,标准库<locale.h>

<locale.h> 是 C 标准库中的一个头文件&#xff0c; 提供了本地化&#xff08;Localization&#xff09;和国际化&#xff08;Internationalization&#xff09;的支持。它提供了一组函数和宏来设置或查询程序的本地化信息&#xff0c;例如日期、时间、货币、数字格式等。…

Chrome 130 版本开发者工具(DevTools)更新内容

Chrome 130 版本开发者工具&#xff08;DevTools&#xff09;更新内容 一、网络&#xff08;Network&#xff09;面板更新 1. 重新定义网络过滤器 网络面板获新增了一些过滤条件&#xff0c;这些过滤条件是根据反馈重新设计的&#xff0c;特定于类型的过滤条件保持不变&…

清华双臂机器人扩散大模型RDT:先预训练后微调,支持语言、图像、动作多种输入(1B参数)

前言 通过上文介绍的GR2&#xff0c;我们看到了视频生成模型在机器人训练中的应用 无独有偶&#xff0c;和GR2差不多一个时期出来的清华RDT&#xff0c;其模型架构便基于视频生成架构DiT改造而成(当然&#xff0c;该清华团队其实也在DiT之前推出了U-ViT&#xff0c;具体下文会…

leetcode动态规划(二十六)-最长重复子数组

题目 718.最长重复子数组 给两个整数数组 nums1 和 nums2 &#xff0c;返回 两个数组中 公共的 、长度最长的子数组的长度 。 示例 1&#xff1a; 输入&#xff1a;nums1 [1,2,3,2,1], nums2 [3,2,1,4,7] 输出&#xff1a;3 解释&#xff1a;长度最长的公共子数组是 [3,2,…

万彪离职,荣耀CEO赵明豪赌AI手机胜算几何?

"荣耀新的远方在哪里&#xff1f;" 作者 | 米 卢 编辑 | 卢旭成 10月30日晚&#xff0c;荣耀在深圳国际会展中心发布了AI旗舰手机mogic7系列&#xff0c;这意味着终于能真正独立操盘荣耀的CEO赵明&#xff0c;开始压上全部身家&#xff0c;豪赌AI手机。 赵明说&…

SpringBoot在线教育系统:集成第三方服务

5系统详细实现 5.1 普通管理员管理 管理员可以对普通管理员账号信息进行添加修改删除操作。具体界面的展示如图5.1所示。 图5.1 普通管理员管理界面 5.2 课程管理员管理 管理员可以对课程管理员进行添加修改删除操作。具体界面如图5.2所示。 图5.2 课程管理员管理界面 5.3 …

uni-app - - - - - 钉钉小程序 uni.showToast回调函数不执行问题(PC端钉钉小程序 接口API回调函数不执行)

uni-app - - - - - 钉钉小程序 uni.showToast回调函数不执行问题 1. 问题描述2. 解决办法 使用钉钉提供的api 1. 问题描述 使用uni-app开发小程序&#xff0c;移动端钉钉小程序使用没问题&#xff0c;但是在PC端钉钉小程序却发现一些逻辑没有执行。经过后端接口日志查询&#…

六、Go语言快速入门之数组和切片

文章目录 数组和切片数组:one: 数组初始化:two: 数组的遍历:three: 多维数组:four: 将数组传递给函数 切片(Slice):one: 切片的初始化:star: new和make区别 :two: 切片的使用:three: 将切片传递给函数:four: 多维切片:four: Bytes包:four: 切片和垃圾回收 &#x1f4c5; 2024年…

HFSS 3D Layout中Design setting各个选项的解释

从HFSS 3D LAYOUT菜单中&#xff0c;选择Design Settings打开窗口&#xff0c;会有六个选项&#xff1a;DC Extrapolation, Nexxim Options, Export S Parameters, Lossy Dielectrics, HFSS Meshing Method, and HFSS Adaptive Mesh. DC Extrapolation 直流外推 直流外推分为标…

ArcGIS Pro SDK (二十一)渲染

ArcGIS Pro SDK (二十一)渲染 文章目录 ArcGIS Pro SDK (二十一)渲染1 定义唯一值呈现器定义2 为最新观测值设置唯一值渲染器3 为先前的观测值设置唯一值渲染器4 设置简单的渲染器以绘制轨迹线5 检查先前的观测值和轨道线可见性6 使轨迹线和先前的观测点可见7 检索当前观测…

大模型备案安全评估报告编写说明

一、语料安全评估 (一)评估内容 1.文本训练语料规模 训练语料存储规模&#xff0c;按文本格式存储时的语料大小。 训练语料数量&#xff0c;按词元(Token)计数。 2.各类型语料规模 训练语料中的中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。 3.训练语料…

Shiro权限刷新

一、权限刷新的需求背景 在实际应用中&#xff0c;用户的权限可能会因为多种原因而发生变化&#xff0c;如用户角色的调整、权限的授予或撤销等。如果系统不能及时地反映这些变化&#xff0c;就可能导致安全漏洞或功能受限。因此&#xff0c;Shiro框架提供了权限刷新的机制&am…