DiffusionGAN ——最快的小波扩散模型应用研究

介绍

扩散模型最近出现并迅速发展,吸引了许多研究人员的兴趣。这些模型能从随机的噪声输入生成高质量的图像。在图像生成任务中,它们的表现尤其优于最先进的生成模型(GANs)。扩散模型可以灵活地处理各种条件输入,从而实现广泛的应用,如文本到图像的生成、图像到图像的转换和图像复原。这在基于人工智能的数字艺术和其他领域有着潜在的应用前景。

扩散模型具有巨大的潜力,但其非常缓慢的估算速度使其无法像 GAN 那样被广泛采用。基本的扩散模型需要几分钟才能获得所需的输出质量。为了缩短估算时间,人们进行了许多研究,但即使是最快的算法也需要数秒才能生成一幅 32 x 32 的图像;通过将扩散模型与 GAN 相结合,DiffusionGAN 极大地改善了估算时间,但它仍然不适合大型或复杂的应用。不适合实时应用。

为了用于实时应用,本评论文章提出了一种名为小波扩散(WaveletDiffusion)的新扩散方法。它使用离散小波变换将输入转换为低频和高频分量,从而将输入压缩了四倍,大大缩短了推理时间。此外,还提出了一种小波专用生成器,以更有效地利用小波特征并保持输出质量。实验结果证实,小波扩散在扩散模型中速度最快,同时还能保持较高的图像质量。
论文地址:https://arxiv.org/abs/2211.16152
源码地址:https://github.com/vinairesearch/wavediff

建议方法

基于小波的扩散方案

在这里插入图片描述

图 1.小波扩散方案。

在本文中,输入图像被分解成四个小波子带,并将其作为单一对象串联到扩散过程中(如图 1 所示)。这种模型在小波频谱而非原始图像空间上运行。因此,该模型可以利用高频信息为生成的图像添加更多细节。另一方面,小波子带比原始图像小四倍,这大大降低了采样过程的计算复杂度。

本文的方法基于 DDGAN 模型,输入是小波变换的四个小波子带。给定一个输入图像 x∈R 3 × H × W,将其分解为低子带和高子带,然后进一步串联形成矩阵 y∈R 12 × H 2 × W 2。该输入通过第一线性层投射到基础通道 D 上,与 DDGAN 相比,不会改变网络的宽度。因此,大多数网络的空间维度减少了四个,从而大大减少了计算量。

学习的损失函数

敌对损失

与 DDGAN 类似,它也是通过对抗性损失来优化生成器和判别器:

・重建损失和总体损失函数

除了上述敌对损失外,还增加了一个重建项,以防止频率信息的损失,并保持小波子带的一致性。这就是生成的图像与其地面实况之间的 L1 损失。

生成器的总体目标是对抗损失和重建损失的下一个线性组合:

其中,λ 是加权超参数。经过一定数量的采样步骤后,就能得到估计的去噪子带 y’0。最终图像可通过小波逆变换恢复:x’0 = IWT(y’0)。

包含小波的发电机

图 2:包含小波的发生器概览。

图 2 显示了拟议的小波嵌入生成器的结构。拟议的生成器采用 UNet 结构,包含 M 个下采样块和 M 个上采样块。相同分辨率的块之间也有跳转连接。不过,使用的是频率敏感块,而不是通常的下采样和上采样运算符。最低分辨率采用频率瓶颈块,以更好地关注低频和高频成分。

最后,利用小波下采样层引入频率残差连接,将原始信号 Y 纳入编码器的不同特征金字塔中。这里,Y 代表输入图像,Fi 代表 Y 的第 i 个中间特征图。

频率感知下采样和上采样模块

传统方法在下采样和上采样过程中使用模糊核来减少混叠伪影。本文则利用小波变换的固有特性,更好地进行上采样和下采样(如图 3 所示)。

这增强了这些操作对高频信息的识别能力。具体来说,下采样块接收输入特征 Fi、电位 z 和时间嵌入 t 的元组,并通过一系列层处理,返回下采样特征和高频子带。这些返回的子带可作为额外的输入,在上采样块中根据频率线索对特征进行上采样。

图 3. 频率感知下采样和上采样模块概览。

试验

数据集

实验在 32 x 32 CIFAR-10、64 x 64 STL-10 和 256 x 256 CelebA-HQ 及 LSUN-Church 数据集上进行。此外,还在 CelebA-HQ (512 和 1024) 高分辨率图像上进行了实验,以验证天安方法在高分辨率下的有效性。

估值指数

图像质量以弗雷谢特起始距离(FID)衡量,样本多样性以召回率(Recall)衡量;与 DDGAN 一样,FID 和召回率以 50 000 个生成样本计算。估算速度通过 300 次试验的平均推理时间来衡量,批量大小为 100。高分辨率图像(如 CelebA-HQ 512 x 512)的推理时间也是根据 25 个样本的批次计算得出的。

实验结果

图 4:Celeba 总部的发电实例

图 5:LSUN 中的生成示例。

在这里插入图片描述

表 1.CIFAR 的比较10

表 2. Celeba 总部的比较

表 3.LSUN 的比较

表 1、表 2 和表 3 列出了针对每个数据集与典型生成模型(如 VAE、GAN 和扩散模型)的比较结果。与VAESOTA或最强模型相比,所提出的方法在所有评价指标上都明显优于VAESOTA。特别是,图像质量的 FID 比VAE高出四倍多。

与GAN 的SOTA 相比,估计速度基本持平,图像质量也更高。在多样性方面,它在所有情况下都比GAN高 10%。

与 Diffusion模型和 DDGAN 相比,所提出的方法是Diffusion模型中估计速度最快的。特别是,它比 Diffusion的 SOTA快 500 多倍。图像质量和多样性也是最高的,在某些情况下比扩散模型的 SOTA高出1~2 个百分点。在所有评估指标上,它也都优于早期的DDGAN研究。

包含小波的发电机的有效性

我们在 CelebA-HQ 256×256 上测试了所提议的生成器每个单独组件的有效性。在这里,完整模型包括残差连接、上采样、下采样块和瓶颈块。如表 4 所示,每个部分都对模型的性能产生了积极影响。通过应用所有三个建议的组件,达到了 5.94 的最佳性能。然而,性能的提高在估算速度方面付出了较小的代价。

表 4.包含小波的发电机的有效性

生成一张图像的运行时间

此外,正如在实际应用中所预期的那样,所提出的方法在单幅图像中显示出极佳的速度。表 5 显示了时间和关键参数。所提出的方法能够在短短 0.1 秒内生成最大 1024 x 1024 的图像,这是第一个达到接近实时性能的扩散模型。

图 5.使用我们的完整模型对每个基准集生成的单幅图像进行估计所需的时间

结论

本研究引入了一种名为小波扩散的新扩散模型,该模型在图像质量和采样率方面都表现出色。通过将小波变换纳入图像和特征空间,所提出的方法达到了扩散模型中最先进的执行速度,缩小了与 GAN 中 SOTA 的差距,并获得了与 StyleGAN2 和其他扩散模型几乎相当的图像生成质量。此外,与基线 DDGAN 相比,所提方法的收敛速度更快,从而证实了所提框架的高效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/4974.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

meterpreter运行run getgui -e报错

meterpreter运行run getgui -e报错 meterpreter > run getgui -e [!] Meterpreter scripts are deprecated. Try post/windows/manage/enable_rdp. [!] Example: run post/windows/manage/enable_rdp OPTIONvalue [...] [-] The specified meterpreter session script cou…

【C++第三阶段】list容器排序

以下内容仅为当前认识,可能有不足之处,欢迎讨论! 文章目录 构造函数赋值和交换大小操作插入和删除数据存取反转和排序排序案例 list容器在STL中是双向循环链表。 如图所示,每一个节点三个域,前向指针域,后…

用户中心(上)

文章目录 企业做项目流程需求分析技术选型计划初始化项目数据库设计登录/注册⽤户管理(仅管理员可⻅) 初始化项目⼀、前端初始化1.下载nodejs2.Ant Design Pro相关问题1.前端项目启动时报错、无法启动?2.如何初始化前端项目?为什么…

vue 模板字符串

1.模板字符串换行问题 white-space: pre-wrap; 2. 鼠标移入 显示提示框 点击手动隐藏 myChart.on("mouseover", function (params) {myChart.dispatchAction({type: "downplay",}); }); tooltip: {show: true, //是否显示提示框组件,包括…

机器人实验室CNRS-AIST JRL, IRL介绍

一、背景 作为搞机器人方向的学生,必须时常关注国际上顶尖实验室的研究成果,以免自己做的方向out,除了大家耳熟能详的Boston Dynamics,还有许多非常厉害的机器人实验室值得我们关注,如日本的CNRS-AIST JRL, IRL实验室…

spring cache(一)介绍

一、介绍 1、背景 项目中使用最多的缓存技术就是Redis,用Redis就可以实现了,为什么需要使用spring cache? 先看下我们使用缓存步骤: (1)查寻缓存中是否存在数据,如果存在则直接返回结果 (2&#xff09…

虚函数表与虚函数表指针

虚函数表与虚函数表是用来实现多态的,每一个类只有一个虚函数表 静态多态:函数重载(编译期确定) 动态多态:虚函数(运行期确定) 虚函数表的创建时机: 生成时间: 编译期…

生活服务推出品牌实惠团购,覆盖五一假期“吃喝玩乐”多场景

4月26日,抖音生活服务平台上线“跟着大牌过五一”活动会场,携手22家连锁品牌商家,于“五一”前推出优价团购和时令新品,覆盖“吃喝玩乐”多重购物需求,助力假期消费。同时,伴随各地涌现的文旅热潮&#xff…

SAP-ABAP-创建数据元素-02

事物码:SE11 三种数据对象,此处选择‘数据元素’ 基本类型:可以使用预定义或者域,下面一预定义为例,维护数据类型CHAR和长度10 点击字段标签,维护长度和描述, 激活,那么这个数据元素…

JavaSE-14笔记【反射机制(+2024新)】

文章目录 1.反射机制概述2.获取Class的四种方式3.通过反射机制实例化对象*4.反射机制结合配置文件灵活实例化对象*5.java.lang.reflect.Field5.1反编译类中的所有字段/属性5.2 通过反射机制给属性赋值* 6.java.lang.reflect.Method6.1反编译类中的所有方法6.2 通过反射机制调用…

变革 Perplexica:AI驱动的问答搜索引擎

Perplexica是一个开源的人工智能搜索工具,也可以说是一款人工智能搜索引擎,它深入互联网以找到答案。受Perplexity AI启发,它是一个开源选择,不仅可以搜索网络,还能理解您的问题。它使用先进的机器学习算法&#xff0c…

什么是环比折年率

环比折年率是月度(或季度)统计中一个十分重要的统计指标,由环比增速推算得到,用于反映经济的发展速度与趋势变化。环比折年率与同比增速相比具有对趋势变化灵敏度高的优点,在统计分析、趋势预测等领域有着广泛应用。 …

Docker-容器的前世今生

文章目录 Docker为什么产生?硬件虚拟化硬件虚拟化解决的问题硬件虚拟化定义硬件虚拟化技术虚拟机的优点虚拟机的缺点 操作系统虚拟化即容器容器化解决的问题容器化定义容器化技术历史 容器和虚拟机对比 Docker的发展历史Docker架构客户端服务端仓库Registry Docker重…

Linux工具篇 之 vim概念 操作 及基础指令讲解

学校不大 创造神话 讲桌两旁 陨落的王 临时抱佛脚 佛踹我一脚 书山有路勤为径 游戏玩的很起劲 想要计算机学的好,我的博客列表是个宝 –❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀-正文开始-❀–❀–❀–❀–❀–❀–❀–❀…

这份详细的智慧校园建设方案,赶紧收藏

高等教育信息化是促进高等教育改革创新和提高质量的有效途径,是教育信息化发展的创新前沿。进一步加强基础设施和信息资源建设,重点推进信息技术与高等教育的深度融合,能促进教育内容、教学手段和方法现代化,创新人才培养、科研组…

渗透之sql注入---实战1

本期的sql注入实战在:BUUCTF在线评测 (buuoj.cn) 该网站上进行。 启动靶机: 1.进来后搜索web1 2.点击【SWPU2019】Web1启动靶机。 3.进来之后在此界面进行注入。 开始注入: 1.找注入点: 我们输入1 后查看广告详情发现报错&a…

我用suno做了人生中第一首歌

前几周AI已经杀入音乐制作领域,Suno正式发布V3音乐生成模型,被业界誉为AI音乐的"ChatGPT"时刻。 借此机会,我也生成了人生中第一首歌,下面是歌词和对应的音频。 歌词: [Verse] 烽火连天万里霜 英雄豪杰赴…

03-JAVA设计模式-解析器模式

解释器模式 什么是解析器模式 在Java中,解释器模式(Interpreter Pattern)是一种行为设计模式,它给定一个语言,定义它的文法的一种表示,并定义一个解释器,该解释器使用该表示来解释语言中的句子…

Linux提权--SUID提权内核漏洞本地用户提权

免责声明:本文仅做技术交流与学习,请不要乱搞破坏... 目录 SUID提权 漏洞成因 提权过程: 手工命令探针: 参考利用: 脚本探针: LinEnum.sh traitor linuxprivchecker等等... Linux命令的利用: find命令 利用nc反弹 利用python反弹--棱角 内核漏洞本地用…

电磁兼容(EMC):生产的ESD防护要点及措施

目录 1. 接地和连接系统 2. 操作员及工作区域 3. 地板 4. 座椅 5. 防静电车间 早期电子产品出现质量问题有80%的问题都是生产过程静电所引起的。随着ESD的管理程序系统的普及,ESD问题相当减小很多。例如当今的S20.20静电控制程序产生于IBM内部审核和控制系统。…