轻量化/高效扩散模型文献综述

🎀个人主页: https://zhangxiaoshu.blog.csdn.net
📢欢迎大家:关注🔍+点赞👍+评论📝+收藏⭐️,如有错误敬请指正!
💕未来很长,值得我们全力奔赴更美好的生活!

前言

近年来,计算机科学领域的生成式扩散模型迅猛发展,成为人工智能领域的热门研究方向。这一类模型,如GPT系列,以其强大的语言理解和生成能力,成功地应用于自然语言处理、文本生成、机器翻译等多个领域。然而,随着模型规模的不断扩大和任务复杂性的提高,扩散模型在实时推理上面临着巨大的计算量挑战。本文主要介绍了应对这一挑战近年来的一些经典工作。


文章目录

  • 前言
  • 1. Faster Diffusion
  • 2. Moblie Diffusion
  • 3. Q-Diffusion
  • 4. LWTDM
  • 5. ADD
  • 6. ProDiff
  • 总结


尽管生成式扩散模型在各种任务中取得显著成果,但其复杂的计算结构导致了实时推理性能的下降。特别是在资源受限的环境下,例如移动设备或边缘计算平台,模型的大规模参数和计算需求限制了其广泛应用的可能性。为了解决这一问题,研究者们纷纷投入精力,探索扩散模型的压缩方法或寻求更高效的采样策略,以在保持模型性能的同时降低计算开销。

在这一背景下,模型压缩技术成为研究的焦点之一,旨在通过减少模型的参数数量和计算需求来提高实时推理性能。同时,研究人员也在探索更高效的采样方法,以加速生成式扩散模型的推理过程。这一领域的创新和进步将为将生成式扩散模型应用于实际场景提供更为可行和可持续的解决方案。随着技术的不断演进,人们对于解决扩散模型实时推理性能问题的努力将继续推动人工智能领域的发展。

1. Faster Diffusion

  • 论文:Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion Models(南开/哈工大-2023)
  • 代码:https://github.com/hutaiHang/Faster-Diffusion

扩散模型中的一个关键组件是用于噪声预测的UNet。虽然一些研究已经探讨了UNet解码器的基本特性,但其编码器在很大程度上仍然未被深入研究。在这项工作中,对UNet编码器的首次全面研究。作者对编码器特征进行了经验分析,并为关于推理过程中它们的变化的重要问题提供了见解。

具体而言,作者发现编码器特征变化较为平缓,而解码器特征在不同时间步之间表现出显著的变化。这一发现启发作者在某些相邻时间步骤省略编码器,并在解码器中循环重复使用先前时间步骤的编码器特征。从而引入了一个简单而有效的编码器传播方案,以加速扩散采样用于各种任务。能够在某些相邻时间步骤并行执行解码器。此外,引入了一种先验噪声注入方法,以改善生成图像的纹理细节。除了标准的文本到图像任务,作者还在其他任务上验证了方法:文本到视频,个性化生成和参考引导生成。在不使用任何知识蒸馏技术的情况下,此方法方法分别将Stable Diffusion(SD)和DeepFloyd-IF模型的采样加速了41%和24%,同时保持了高质量的生成性能。

在这里插入图片描述

2. Moblie Diffusion

  • 论文:MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices(谷歌—2023)

在移动设备上部署大规模文本到图像扩散模型受到其庞大的模型大小和慢速推理的阻碍。在本文中,作者提出了MobileDiffusion,这是一种通过在架构和采样技术方面进行广泛优化而获得的高效文本到图像扩散模型。对模型架构设计进行了全面的审查,以减少冗余,增强计算效率,并最小化模型的参数数量,同时保持图像生成质量。此外,在MobileDiffusion上采用了蒸馏和扩散-GAN微调技术,分别实现了8步和1步的推理。通过定量和定性的实证研究,我们展示了所提出技术的有效性。MobileDiffusion在移动设备上为生成一个512×512的图像实现了卓越的次秒级推理速度,创立了一个新的技术水平。

在这里插入图片描述

3. Q-Diffusion

  • 论文:Q-Diffusion: Quantizing Diffusion Models(伯克利-2023 ICCV)

扩散模型通过使用深度神经网络进行迭代噪声估计,在图像合成方面取得了巨大成功。然而,噪声估计模型的慢推理速度、高内存消耗和计算强度阻碍了扩散模型的有效应用。尽管后训练量化(PTQ)被认为是其他任务的首选压缩方法,但它不能直接在扩散模型上使用。
作者提出了一种新颖的PTQ方法,专门针对扩散模型的独特多时间步流水线和模型架构,通过压缩噪声估计网络来加速生成过程。首先作者确定扩散模型量化的关键困难在于多个时间步长上噪声估计网络输出分布的变化,以及噪声估计网络内的快捷层呈双峰激活分布。通过时间步感知校准和分裂快捷量化来解决这些挑战。实验证明,提出的方法能够在没有训练的情况下将全精度的无条件扩散模型量化为4位,同时保持相当的性能(与传统PTQ相比,FID变化最多为2.34,而传统PTQ则超过100)。此方法还可应用于文本引导的图像生成,首次以4位权重运行稳定的扩散模型,保持高生成质量。
在这里插入图片描述

4. LWTDM

  • 论文:Efficient Remote Sensing Image Super-Resolution via Lightweight Diffusion Models(自动化所—GRSL 2023)
  • 代码:https://github.com/Suanmd/LWTDM

随着扩散模型的出现,图像生成经历了重大的进步。在超分辨率任务中,扩散模型在生成更真实样本方面超过了基于GAN的方法。然而,这些模型也伴随着显著的成本:去噪网络依赖于庞大的U-Net,使其在高分辨率图像上计算密集,而扩散模型中的大量采样步骤导致推理时间延长。这种复杂性限制了它们在遥感中的应用,因为在这些场景中对高分辨率图像的需求很高。

为了解决这个问题,作者提出了一种轻量级的扩散模型,LWTDM,它简化了去噪网络,并通过基于交叉注意力的编码器-解码器架构有效地整合了条件信息。此外,LWTDM作为一个创新模型,引入了来自去噪扩散隐式模型(DDIM)的加速采样技术。这种整合涉及对采样步骤的精心选择,以确保生成图像的质量。实验证实,LWTDM在精度和感知质量之间取得了良好的平衡,而其更快的推理速度使其适用于具有特定要求的多样遥感场景。
在这里插入图片描述

5. ADD

  • 论文:Adversarial Diffusion Distillation(Stability AI—2023)

对抗性扩散蒸馏(ADD),一种新颖的训练方法,可以在仅1-4步内高效地对大规模基础图像扩散模型进行采样,同时保持高图像质量。作者使用得分蒸馏来利用大规模现成的图像扩散模型作为教师信号,结合对抗损失,以确保即使在一到两个采样步骤的低阶段,图像仍具有高保真度。文中分析显示,模型在单步中明显优于现有的少步方法(GAN、潜在一致性模型),并在仅四步的情况下达到了最先进的扩散模型(SDXL)的性能。ADD是第一个通过基础模型解锁单步、实时图像合成的方法。
在这里插入图片描述

6. ProDiff

  • 论文:ProDiff: Progressive Fast Diffusion Model for High-Quality Text-to-Speech(浙江大学-2022 MM)

去噪扩散概率模型(DDPMs)最近在许多生成任务中取得了领先的性能。然而,由于继承的迭代采样过程成本,它们在文本转语音部署中的应用受到了阻碍。通过对扩散模型参数化的初步研究,作者发现以前的基于梯度的TTS模型需要数百或数千次迭代才能保证高样本质量,这对于加速采样构成了挑战。

在这项工作中,作者提出了ProDiff,一种用于高质量文本转语音的渐进快速扩散模型。与以往估计数据密度梯度的工作不同,ProDiff通过直接预测干净数据来参数化去噪模型,以避免在加速采样中出现明显的质量降级。为了解决减少扩散迭代次数带来的模型收敛挑战,ProDiff通过知识蒸馏减少目标站点上的数据方差。具体而言,去噪模型使用N步DDIM教师生成的梅尔频谱图作为训练目标,并将该行为提炼到一个具有N/2步的新模型中。因此,它允许TTS模型进行精确的预测,并进一步将采样时间减少数个数量级。

实验评估表明,ProDiff只需2次迭代即可合成高保真度的梅尔频谱图,同时保持与使用数百步的最先进模型相竞争的样本质量和多样性。ProDiff在单个NVIDIA 2080Ti GPU上实现了24倍于实时的采样速度,使扩散模型首次实际应用于文本转语音合成部署。文中广泛消融研究表明,ProDiff中的每个设计都是有效的,并进一步展示ProDiff可以轻松扩展到多说话人设置。
在这里插入图片描述


总结

文中有不对的地方欢迎指正。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/633337.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

适合进阶学习的 机器学习 开源项目(可快速下载)

目录 开源项目合集[>> 开源的机器学习平台:mlflow/mlflow](https://gitcode.com/mlflow/mlflow)[>> 机器学习路线图:mrdbourke/machine-learning-roadmap](https://gitcode.com/mrdbourke/machine-learning-roadmap)[>> 机器学习理论和…

5. UE5 RPG使用GAS技能系统

之前也介绍过GAS的使用: UE 5 GAS Gameplay Ability System UE 5 GAS 在项目中处理AttributeSet相关 UE 5 GAS 在项目中通过数据初始化 基础的讲解这里不再诉说,有兴趣的可以翻我之前的博客。 接下来,在RPG游戏中实现GAS系统的使用。 GAS系统…

16.鸿蒙HarmonyOS App(JAVA)滑块组件Slider与评级组件Rating

16.鸿蒙HarmonyOS App(JAVA)滑块组件Slider与评级组件Rating ability_main.xml <?xml version"1.0" encoding"utf-8"?> <DirectionalLayoutxmlns:ohos"http://schemas.huawei.com/res/ohos"ohos:height"match_parent"oh…

redis数据安全(三)数据持久化 AOF

接上一篇RDB&#xff0c;本篇看下Redis数据持久化的第二种方式AOF。 目录 一、AOF原理 1、写入机制&#xff1a; 2、缓冲机制&#xff1a; 3、重写机制 &#xff1a; 4、运行流程 二、AOF文件配置 1、开启AOF&#xff1a; 2、自动触发AOF重写 3、重写规则&#xff1…

unity面试题

一&#xff1a;什么是协同程序&#xff1f; 在主线程运行的同时开启另一段逻辑处理&#xff0c;来协助当前程序的执行&#xff0c;协程很像多线程&#xff0c;但是不是多线程&#xff0c;Unity的协程实在每帧结束之后去检测yield的条件是否满足。 二&#xff1a;Unity3d中的碰…

vue基于Spring Boot共享单车租赁报修信息系统

共享单车信息系统分为二个部分&#xff0c;即管理员和用户。该系统是根据用户的实际需求开发的&#xff0c;贴近生活。从管理员处获得的指定账号和密码可用于进入系统和使用相关的系统应用程序。管理员拥有最大的权限&#xff0c;其次是用户。管理员一般负责整个系统的运行维护…

redis cluster搭建

准备服务器和端口号 IP 地址端口号路径192.168.0.2016001/app/redis-5.0.14/redis-6001192.168.0.2016002/app/redis-5.0.14/redis-6002192.168.0.2026001/app/redis-5.0.14/redis-6001192.168.0.2036002/app/redis-5.0.14/redis-6002192.168.0.2036001/app/redis-5.0.14/redi…

查看神经网络中间层特征矩阵及卷积核参数

可视化feature maps以及kernel weights&#xff0c;使用alexnet模型进行演示。 1. 查看中间层特征矩阵 alexnet模型&#xff0c;修改了向前传播 import torch from torch import nn from torch.nn import functional as F# 对花图像数据进行分类 class AlexNet(nn.Module):d…

Spring Boot整合MyBatis-Plus

引言 在现代软件开发中&#xff0c;我们经常需要处理大量的数据。为了有效地管理这些数据&#xff0c;我们需要使用一些强大的框架。其中&#xff0c;Spring Boot和MyBatis-Plus是两个非常流行的框架。Spring Boot是一个基于Spring的开源Java框架&#xff0c;可以用于创建独立…

[一]ffmpeg音视频解码

[一]ffmpeg音视频解码 一.编译ffmpeg1.安装vmware虚拟机2.vmware虚拟机安装linux操作系统3.安装ftp和fshell软件4.在Ubuntu&#xff08;Linux&#xff09;中编译Android平台的FFmpeg&#xff08; arm和x86 &#xff09;5.解压FFmpeg6.Android编译脚本&#xff08;1&#xff09;…

vue+elementui实现12个日历平铺,初始化工作日,并且可点击

<template><div class"app-container"><el-form :model"queryParams" ref"queryForm" size"small" :inline"true"><el-form-item label"年份" prop"holidayYear"><el-date-…

can数据记录仪自带软件LKMaster——自动化测试篇

LKMaster上位机软件是由南京来可电子发布的CAN&CANFD综合测试分析软件&#xff0c;支持报文收发、数据分析、协议解析、历史回放、文件格式转换、参数配置、记录文件管理、脚本编辑、自动化测试等强大的功能。支持J1939、CANOPEN、J1939BMS、自定义解析&#xff0c;支持曲线…

redis原理(四)redis命令

目录 一、字符串命令&#xff1a; 二、列表命令&#xff1a; 三、集合命令&#xff1a; 四、散列命令&#xff1a; 五、有序集合命令&#xff1a; 六、redis发布与订阅命令&#xff1a; 七、事务命令 八、其他命令 1、排序&#xff1a;SORT 2、键的过期时间&#xff…

【MATLAB源码-第118期】基于matlab的蜘蛛猴优化算法(SMO)无人机三维路径规划,输出做短路径图和适应度曲线。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 蜘蛛猴优化算法&#xff08;Spider Monkey Optimization, SMO&#xff09;是一种灵感来源于蜘蛛猴觅食行为的群体智能优化算法。蜘蛛猴是一种生活在南美洲热带雨林中的灵长类动物&#xff0c;它们在寻找食物时展现出的社会行…

Cleanmymac for mac 4.14.7无弹窗注册版

Cleanmymac for mac是一款先进的、集所有功能于一身的实用系统清理工具&#xff0c;删除系统缓存文件 , 多余的应用程序语言包 , 它能帮助保持您的Mac保持清洁。只需两个简单的点击&#xff0c;就可以删除无用的文件&#xff0c;以节省您宝贵的磁盘空间。 对于很多喜爱摄影朋友…

[HTML]Web前端开发技术14(HTML5、CSS3、JavaScript )鼠标经过图片显示大图 网页标题:表格标签的综合应用——喵喵画网页

希望你开心&#xff0c;希望你健康&#xff0c;希望你幸福&#xff0c;希望你点赞&#xff01; 最后的最后&#xff0c;关注喵&#xff0c;关注喵&#xff0c;关注喵&#xff0c;佬佬会看到更多有趣的博客哦&#xff01;&#xff01;&#xff01; 喵喵喵&#xff0c;你对我真的…

day13 CSS3动画(animation)

CSS3 keyframes 规则 keyframes 规则是创建动画&#xff0c;在该规则内指定一个 CSS 样式和动画将逐步从目前的样式更改为新的样式。 animation&#xff1a;所有动画属性的简写属性。 animation-name&#xff1a;规定 keyframes 动画的名称。 animation-duration&#xff1…

云原生演进中的AI算力高效使用

0 1 云原生技术的普及与发展 云原生技术是一种基于容器技术的轻量级、高可用的应用架构&#xff0c;具有弹性扩展、快速部署、统一管理等特点。随着企业对敏捷开发和快速迭代的需求不断增加&#xff0c;云原生技术的普及与发展已成为不可逆转的趋势。 图1. 云原生技术发展之路…

电商平台spu和sku的完整设计

一、关于数据库表的设计 1、商品属性表 比如一个衣服有颜色、尺码、款式这个叫属性表 -- ------------------------ -- 商品属性表 -- ------------------------ DROP TABLE IF EXISTS attribute; CREATE TABLE attribute (id int(11) NOT NULL PRIMARY KEY AUTO_INCREMENT CO…

HCIA-H12-811题目解析(12)

1、如图所示&#xff0c; 关于OSPF的拓扑和配置&#xff0c;下列说法中正确的是&#xff1f; 2、如图所示&#xff0c;私有网络中有一台web服务器需要向公网用户提供HTTP服务&#xff0c;因此网络管理员需要在网关路由器RTA上配置NAT以实现需求&#xff0c;则下面配置中能满足…