文本引导I2I迈向统一!北大王选所提出FCDiffusion:端到端适用于各种图像转换任务

文章链接:https://arxiv.org/pdf/2407.03006
github地址:https://github.com/XiangGao1102/FCDiffusion

最近,大规模的文本到图像(T2I)扩散模型在图像到图像(I2I)转换中展现出强大的能力,允许通过用户提供的文本提示进行开放域的图像转换。本文提出了频率控制的扩散模型(FCDiffusion),一种基于扩散的端到端框架,从频域的角度提供了文本引导的I2I的创新解决方案。该框架的核心是一个基于离散余弦变换(DCT)的特征空间频域过滤模块,它在DCT域中过滤源图像的潜在特征,产生不同DCT频谱带的过滤图像特征,作为预训练的潜在扩散模型的不同控制信号。揭示了不同DCT频谱带的控制信号在源图像和T2I生成图像之间建立了不同的关联(如风格、结构、布局、轮廓等),从而实现了强调不同I2I关联的多样化I2I应用,包括风格引导的内容创作、图像语义操控、图像场景转换和图像风格转换。与相关方法不同,FCDiffusion建立了一个统一的文本引导I2I框架,通过在推理时切换不同的频率控制分支,适用于各种图像转换任务。通过大量定性和定量实验展示了FCDiffusion在文本引导I2I中的有效性和优越性。

频率控制扩散模型(FCDiffusion)用于文本引导的图像到图像(I2I)转换。FCDiffusion 基本上采用了ControlNet范式,该范式训练一个网络来控制预训练潜在扩散模型(Latent Diffusion Model)的文本到图像(T2I)去噪采样过程,其中控制信号是源图像的频域滤波潜在特征,这些特征带有一定的离散余弦变换(DCT)光谱带。在控制信号的条件下,模型通过配对的文本提示信息训练以重建源图像潜在特征中被移除的光谱成分。在推理时,可以通过填充任意编辑文本提示的信息来翻译源图像中缺失的DCT光谱区域。

如上图1所示,模型可以在不同频率控制模式下灵活处理各种I2I应用场景。

FCDiffusion的优点有三点

  • 通过应用不同的DCT滤波器构建相应的控制信号,适用于多种I2I任务;

  • 它集成了多个可扩展的频率控制分支,允许在单一模型内灵活切换不同的I2I应用;

  • 其学习目标简洁,对计算资源需求低,推理速度高效,并且在I2I视觉质量上具有竞争力。

方法

如下图2(a)所示,FCDiffusion基本上由三个组件组成:

  • 预训练的LDM(Latent Diffusion Model)

  • 频率过滤模块(FFM,Frequency Filtering Module)

  • 频率控制网络(FCNet,FreqControlNet)。

预训练的LDM使用一个强大的自动编码器将源图像 压缩为紧凑的潜在表示 ,即 ,,其中 ,。一个DDPM在特征空间中训练,以从高斯分布中恢复 ,条件是配对的文本提示 :

其中, 表示采样的时间步, 是时间步 时的噪声特征, 是去噪 U-Net,它以 、时间步 和文本嵌入 作为输入,并输出在前向扩散过程中采样的高斯噪声的估计, 是 OpenCLIP 转换器文本编码器。

为了将 LDM 从文本到图像生成适配为文本引导的 I2I(图像到图像转换),构建了一个频率过滤模块(FFM),以在频域(DCT 频谱)中过滤源图像 的编码图像特征 ,过滤后的图像特征 作为控制信号,通过频率控制网络(FCNet)控制 LDM 的反向去噪采样过程。FCNet 接收包含 的部分频谱成分(某个 DCT 频谱带)的控制信号 ,并优化以引导 LDM 使用来自 的部分频谱信息和来自 的文本信息重建 。从频域的角度来看,FCNet 的训练可以看作是通过配对的文本提示 恢复 的移除频谱成分的过程。

频率过滤模块

如上图2(b)所示,在 FFM 中,首先应用channel-wise 2D DCT 将源域潜在特征 转换为频域对应特征 :

分别是 和 的第 个通道,。索引 表示空间域中的二维坐标,而 表示 DCT 频域中的二维坐标。在二维 DCT 频谱中,坐标较小的元素(靠近左上角原点)编码低频信息,而坐标较大的元素(靠近右下角)对应高频分量。如在介绍部分总结的那样,DCT 域中的不同频谱带编码了不同的图像视觉属性,因此可以用作条件指导,以控制不同的 I2I 关联。因此,手动设计了四个 DCT 滤波器(即 DCT 掩码),分别用于小通频、低通频、中通频和高通频域过滤,具体如下所述:

这些 DCT 滤波器分别提取仅包含微频率、低频率、中频率和高频率频谱带的 DCT 特征,通过与 直接相乘实现:

其中 。最后,使用二维逆离散余弦变换(2D IDCT)将过滤后的 DCT 特征 转换回空间域,作为最终的控制信号 :

其中 和 分别是 和 的第 个通道,。通过微通频、低通频、中通频和高通频 DCT 过滤提取的控制信号 分别控制生成图像与源图像之间的风格、风格与结构、布局和轮廓一致性,从而允许多样化的 I2I 应用场景,强调不同的 I2I 关联。

从经验上看,观察到微通频过滤后的控制信号可能仍然包含一些图像结构信息,因此仍会在某种程度上限制生成图像的全局结构。为了消除结构约束并实现纯风格控制,提出并附加了一个等频扰动操作到微通频过滤分支的末端。在推理时,如图2(c)所示,该操作首先按频率水平(通过在 DCT 频谱中二维坐标的和量化)对 DCT 分量进行分组,然后在每组内对 DCT 元素进行扰动。等频扰动在不改变总体能量分布的情况下随机扰动 DCT 频谱,有助于消除源图像对生成图像的空间结构影响,同时保持 I2I 风格关联。

FCNet 结构细节

在每个时间步 ,FCNet 以当前的去噪结果 、控制信号 和文本嵌入 作为输入,并输出多尺度特征图,引导预训练的 LDM 重建 。借鉴 ControlNet (Zhang and Agrawala 2023),FCNet 是 LDM U-Net 编码器的一个可训练副本。如前面图 2(d) 所示,FCNet 中的每个 U-Net 块包含一个结合了时间嵌入的 ResBlock、一个自注意力块和一个结合了文本嵌入的交叉注意力块。FCNet 中的每个 ResBlock 有四个并行副本,分别对应于 FFM 中的四个 DCT 过滤分支。如图 2(e) 所示,这里也使用了 ControlNet 中提出的零卷积,用于平滑地将特征注入预训练的 LDM。同样,每个零卷积也有四个并行副本,分别对应于四个 DCT 过滤分支。

学习目标和训练细节

FCDiffusion是完全可微且端到端可训练的。目标是使用仅承载 部分 DCT 频谱带的控制信号 以及配对的文本提示 来重建源图像的潜在特征 。这相当于最小化以下条件噪声回归损失:

FCNet 是整个框架中唯一可训练的模块,其初始化来源于预训练的 LDM,除了额外的零卷积部分。在训练阶段,冻结 FCNet 中的所有自注意力和交叉注意力层,仅微调 ResBlock 和零卷积。观察到,冻结和共享注意力层可以减少可训练参数,而不会降低生成性能。本文的模型包含四个频率控制分支,分别由 [Mask∗, ResGroup∗, ZeroGroup∗] 组成,其中 ∗∈{mini, low, mid, high}。ResGroup∗ 表示参数组,包括与 DCT 过滤器 Mask∗ 对应的 FCNet 中所有 ResBlock∗ 复制品,ZeroGroup∗ 也是如此。这四个频率控制分支分别进行精细调节,并可以在推断时灵活切换,以适应不同的图像到图像应用场景。值得一提的是,模型中的控制分支可伸缩且可插拔,即通过设计相应的 DCT 滤波器并分配额外的 ResGroup 和 ZeroGroup 进行微调,可以简单实现更多的图像到图像控制效果。

实验

实验设置

在FCDiffusion中使用 Stable Diffusion v2-1-base 作为预训练的 LDM,并使用包含 625K 图像文本对的 LAION-Aesthetics 6.5+ 数据集作为数据集。将数据集随机分成训练集和测试集,比例为 9:1。在 512×512 的图像分辨率下进行训练,即 。将初始学习率设定为 。模型中的每个频率控制分支分别使用批量大小为 4,在单个 RTX 3090 Ti GPU 上进行 100K 次迭代的精细调节。在推断时,FCDiffusion 可以通过在不同频率控制分支之间切换,灵活适应各种图像到图像的应用场景。本文中所有结果均使用 DDIM 采样器生成,采样步骤为 50 步。

定性分析

如下图 3 所示,FCDiffusion通过在不同频率控制分支之间切换,在多种图像到图像的场景中产生高质量的结果。在微频率控制下,转换图像仅保留原始风格信息,没有源图像的结构约束,从而实现了基于风格的内容创建应用,即根据文本提示重新创建任何图像内容而不改变图像风格。在低频率控制下,生成图像保留了源图像的风格和空间结构,适合进行源图像的小规模编辑,即图像语义操作。在高频率控制下,转换图像在物体轮廓上与源图像保持一致,对风格外观的约束较少,允许根据文本提示操控图像风格,即图像风格转换。此外,还实现了图像场景转换的应用,其中唯一的图像到图像关联是图像布局,因此使用中频率控制来绕过源图像在低频率风格和高频率轮廓方面的约束。

实验结果比较

在下图 4 中,在一些具有挑战性的图像到图像转换示例上,定性比较了FCDiffusion与相关先进方法。为了简洁起见,将 Prompt-to-Prompt 方法简写为 Pro2Pro,InstructPix2Pix 简写为 insPix2Pix,Plug-and-Play 简写为 PAP。在图像语义操作方面,Pro2Pro、insPix2Pix 和 PAP 在生成语义上忠实的结果方面能力较弱,尽管在风格外观和空间结构上具有较高的一致性。Text2LIVE 的结果存在严重的伪影。VQCLIP 和 DiffuseIT 未能保留源图像的原始风格分布。在风格引导内容创建方面,Pro2Pro 难以生成与文本提示相符的图像内容。insPix2Pix 的结果在内容语义上更符合文本提示,但在风格保留方面相对较弱。其他方法要么未能生成忠实的内容,要么未能保持原始的风格外观。对于图像风格转换,VQCLIP 的结果展现出根据文本指导的准确风格分布,但失去了源图像的原始轮廓信息。相反,Text2LIVE 在保留图像轮廓方面做得很好,但未能精确根据文本提示转换图像风格。其他方法要么未能保持轮廓一致性,要么未能忠实地转换图像风格。

此外,还与不同噪声强度的 SDEdit 进行了比较(显示在括号中)。SDEdit(0.5) 基本上可以保留源图像的空间结构,但在图像语义操作方面在保持风格外观方面效果较差,为风格引导内容创建创建了结构不变的内容,并且在图像风格转换方面改变了足够的图像风格。对于较大的噪声强度,SDEdit(0.85) 的结果由于与源图像的弱连接,在所有图像到图像任务中失去了相应的关联。相比之下,FCDiffusion在所有图像到图像应用中有效地实现了所需的高质量性能。

如下图 5 所示,基于本文方法的低频率控制,FCDiffusion 可以处理图像语义操作,不仅能够处理狭窄的语义差距,还能处理源图像与目标文本提示之间的大语义差异。转换的图像可以在语义上与文本保持一致,并同时保留源图像的原始“风格+结构”,即使目标文本与源图像在语义上不相关。

消融研究

从以下四个方面对本文的模型设计进行了消融研究:

  • 注入时间嵌入到FCNet的必要性;

  • 注入文本嵌入到FCNet的必要性;

  • Equifrequency Shuffle操作在消除源图像与转换图像之间空间结构相关性中的有效性;

  • 频率带范围对文本引导的图像到图像转换的影响。

通过删除所有包含时间嵌入的层来进行第一项研究。对于第二项研究,在训练期间不修改交叉注意力层,而是向FCNet输入空文本。如下图 6 中定性显示的那样,从FCNet中删除时间嵌入注入会导致图像转换结果不稳定,出现明显的噪声和伪影,这表明FCNet学习为LDM提供时间相关的引导特征是重要的。

此外,从FCNet中删除文本嵌入注入也会导致质量较低的图像结果,这表明文本信息对于FCNet在向LDM提供更精细控制方面是有用的。第三项研究的示例结果显示在下图 7 中,没有Equifrequency Shuffle进行的风格引导内容创建结果仍然在全局结构上与源图像相似,而使用Equifrequency Shuffle进行的结果在空间结构上与源图像更加分离,这证明了该操作在风格引导内容创建任务中解耦空间结构方面的有效性。

对于最后一项研究,在低频率控制下,定性比较了在不同低通滤波阈值(即提取的低频谱带的带宽变化)下实现的图像语义操作结果。如下图 9 所示的结果显示,阈值越高,转换图像越接近源图像。直观地说,提高低通滤波阈值会导致控制信号C承载更宽的源图像潜在特征的DCT谱带。因此,保留的源图像信息增加,转换图像更接近源图像。相反,降低低通滤波阈值会导致控制信号C中源图像的谱信息减少。在这种情况下,保留的源图像信息较少,因此转换图像与源图像的相似性较低。

定量评估

对于定量评估,针对每个图像到图像的应用场景进行了200次文本引导的图像转换,并计算了文本-图像相似性分数和图像到图像结构距离的平均值。文本-图像相似性分数用于衡量转换图像与目标文本提示的准确度(即文本保真度),使用CLIP余弦相似度作为度量标准。图像到图像结构距离旨在衡量源图像与转换图像之间的空间结构差异,使用DINO-ViT自相似性距离作为度量标准。相应地,定义图像到图像结构相似性为1减去结构距禒。

对于图像语义操作和图像风格转换任务,方法期望在文本保真度和图像到图像结构相似性上都能达到高分。尽管这两个指标存在矛盾,FCDiffusion在下图 8(a) 和 8(b) 中却取得了最佳的结果,显示出在文本保真度和结构相似性之间的最佳平衡。对于风格引导内容创建任务,方法被鼓励生成在内容描述上符合文本提示的空间结构分离的图像转换结果。因此,在这种情况下,希望高文本保真度和低结构相似性(即大结构距离)。如图 8(c) 所示,FCDiffusion在这两个方面都取得了竞争性能。尽管在此任务中,SDEdit(0.85) 和 VQGAN-CLIP 比FCDiffusion更靠近图 8(a) 和图 8(b) 的右上角位置,但这两种方法在前两个应用中的结构相似性非常低,这些应用偏好图像到图像结构一致性,如图 8(a) 和图 8(b) 所示。

进一步通过计算单个512×512图像转换的平均运行时间,比较了FCDiffusion与相关文本引导的图像到图像方法在推理速度上的差异。在NVIDIA RTX 3090 Ti GPU上评估的不同方法的结果报告如表 1 所示。基于CLIP的方法,如VQCLIP、DiffuseIT和Text2LIVE,由于需要在线优化过程驱动的CLIP损失来操作带文本的图像,因此速度显著较慢。基于反演的方法,如Prompt-to-Prompt和Plug-and-Play,大部分时间花费在DDIM反演(将源图像反演到高斯噪声空间的扩散轨迹)和DDIM重构(从反转的噪声特征重构源图像的去噪轨迹)上,使得图像转换仍然耗时。相反,FCDiffusion和insPix2Pix在推理速度上具有显著优势,因为它们不涉及任何反演或在线优化过程。

结论与讨论

本文从新颖的频域视角提出了一种文本引导的图像到图像(I2I)解决方案。所提出的模型,FCDiffusion,将预训练的文本到图像生成模型扩展到了文本引导的I2I领域,通过在DCT域中过滤源图像特征并利用带有不同DCT频谱带的过滤图像特征来控制潜在扩散模型的反向扩散过程。本文的方法可以解释为学习如何利用配对文本提示的文本信息填补源图像潜在特征的DCT频谱中移除的频谱成分。通过设计不同模式的DCT滤波器以及分配和训练相应的控制分支,本文的方法实现了对源图像到文本引导生成图像的多样化控制效果,包括通过迷你频率控制实现的风格引导内容创建,通过低频控制实现的图像语义操作,通过中频控制实现的图像场景转换,以及通过高频控制实现的图像风格转换,其中源图像和转换图像在图像风格、图像风格和结构、图像布局以及图像轮廓方面存在相关性。

本文的方法在推理时间和生成质量方面均具有优势,通过在推理时在不同控制分支之间进行切换,有效地适应多样化的I2I任务。尽管在多样性方面具有优势,FCDiffusion在设计新的DCT滤波器时仍需要分配和训练新的频率控制分支,这在某种程度上限制了其灵活性和效率。未来的工作中,将探索无需训练和即插即用的频谱带控制机制,使得在推理时可以插入任意的DCT滤波器,从而实现连续的控制效果。

参考文献

[1] Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/44054.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能汽车网络安全笔记

汽车五大域 动力底盘、车身控制、智能座舱、智能网联和高级辅助驾驶五大域 国外汽车安全法规标准 汽车网络安全管理体系(CSMS) CSMS指的是管理汽车的网络威胁和风险,并保护车辆免受网络攻击的组织过程和管理系统 安全验证和安全测试 8…

使用Vue实现前后端分离 spring框架返回json数据中文乱码

SpringBoot返回的中文显示???的问题_spring boot response 中文????-CSDN博客 引入js的script标签到底是放在head还是body中_html页面中用<script>标签引入js代码,该标签放在<head>标签中和放在<body>标签-CSDN博客 vue.js 的问答 - SegmentFault 思…

ChatTTS使用

ChatTTS是一款适用于日常对话的生成式语音模型。 克隆仓库 git clone https://github.com/2noise/ChatTTS cd ChatTTS 使用 conda 安装 conda create -n chattts conda activate chattts pip install -r requirements.txt 安装完成后运行 下载模型并运行 python exampl…

java中方法的使用

方法的使用 方法的概念什么是方法方法定义方法的调用过程实参和形参的关系 方法重载为什么需要方法重载方法重载的概念方法签名 递归递归的概念递归过程分析递归练习 方法的概念 什么是方法 方法就是一个代码片段&#xff0c;类似于C语言的函数。 方法存在的意义&#xff1a;…

算法金 | 12 个最佳 Python 代码片段,帮我完成工作自动化,香~

​大侠幸会幸会&#xff0c;我是日更万日 算法金&#xff1b;0 基础跨行转算法&#xff0c;国内外多个算法比赛 Top&#xff1b;放弃 BAT Offer&#xff0c;成功上岸 AI 研究院 Leader&#xff1b; Python是一种多功能的编程语言&#xff0c;它提供了各种功能和库来有效地自动化…

Centos7 被停用!如何利用 Ora2Pg 将 Oracle 迁移至 IvorySQL?

在过去的社区讨论中&#xff0c;想要使用或正在使用IvorySQL的社区用户&#xff0c;经常问到Oracle 如何迁移到 IvorySQL 中&#xff0c;而且近期随着 Centos7 官方已经停止维护&#xff0c;这一变动促使了很多将 Oracle 部署在 Centos7 上的 Oracle 用户&#xff0c;开始准备 …

树莓派采集系统

树莓派&#xff08;Raspberry Pi&#xff09;是一款非常受欢迎的小型单板计算机&#xff0c;因其低成本、低功耗以及丰富的I/O接口&#xff0c;非常适合用来搭建数据采集系统。无论是环境监测、智能家居、工业自动化&#xff0c;还是科学实验&#xff0c;树莓派都能胜任。以下是…

机器学习笔记:初始化0的问题

1 前言 假设我们有这样的两个模型&#xff1a; 第一个是逻辑回归 第二个是神经网络 他们的损失函数都是交叉熵 sigmoid函数的导数&#xff1a; 他们能不能用0初始化呢&#xff1f; 2 逻辑回归 2.1 求偏导 2.1.1 结论 2.1.2 L对a的偏导 2.1.3 对w1&#xff0c;w2求偏导 w2同…

【组件库】element-plus组件库

文章目录 0. 启动项目1. gc.sh 新增组件2. 本地验证(组件注册的方式)3. 官方文档修改3-1. 左侧菜单3-2 . 配置md文档3-3. 代码问题:文档修改----------------------------------------------4. 将naiveui的split 分割组件【 复制、迁移】到 element-ui-plus组件库4.1 naiveu…

FastReport 指定sql,修改数据源 ( 非DataSet修改 )

FastReport 指定sql&#xff0c;修改数据源&#xff0c;非DataSet修改 介绍报告文件&#xff1a; codetest.frx 文件核心代码&#xff1a;&#xff08;扩展&#xff09;小结一下&#xff1a; 介绍 在FastReport中&#xff0c;经常会遇到需要给 sql 加条件的情况。 &#xff0…

爆破器材期刊

《爆破器材》简介   《爆破器材》自1958年创刊以来&#xff0c;深受广大读者喜爱&#xff0c;是中国兵工学会主办的中央级技术刊物&#xff0c;在国内外公开发行&#xff0c;近几年已发行到10个国家和地区。《爆破器材》杂志被美国著名检索机构《化学文摘》&#xff08;CA&a…

XTuner 微调 LLM:1.8B, 部署

扫码立刻参与白嫖A100&#xff0c;书生大模型微调部署学习活动。亲测有效 内容来源&#xff1a;Tutorial/xtuner/personal_assistant_document.md at camp2 InternLM/Tutorial GitHubLLM Tutorial. Contribute to InternLM/Tutorial development by creating an account on G…

设计无缝体验:交互设计流程全解析

完整的产品交互设计流程是什么&#xff1f;完整的产品交互设计流程包括研究用户需求、指定信息架构、制作产品原型、进行用户测试和实时发布产品。交互设计就是从人与产品之间的关系入手&#xff0c;通过产品设计来满足大众的日常需求。随着网络技术的流行&#xff0c;产品交互…

工业机床CNC设备如何上云?

工业机床CNC设备如何上云&#xff1f; 工业机床的计算机数控&#xff08;CNC&#xff09;设备实现远程监控数据上云&#xff0c;是现代制造业智能化转型的关键一环。这一过程不仅能够实时监测设备状态、优化生产流程&#xff0c;还能通过大数据分析提升生产效率与产品质量&…

Java包装类简单认识泛型

1 包装类 在 Java 中&#xff0c;由于基本类型不是继承自 Object &#xff0c;为了在泛型代码中可以支持基本类型&#xff0c; Java 给每个基本类型都对应了 一个包装类型。 例如我们之前的基本数据类型和包装类。 1. 装箱和拆箱 2.自动装箱和自动拆箱 2.泛型 1.什么是泛型 …

【C++项目】从零实现一个在线编译器

前言 身为一名程序员&#xff0c;想必大家都有接触过像leetcode这样的刷题网站&#xff0c;不知你们在刷题的过程中是否思考过一个问题&#xff1a;它们是如何实现在线编译运行的功能。如果你对此感到好奇&#xff0c;那么本文将一步步带你来实现一个简易在线编译器。 项目概…

vue3+antdv仿百度网盘样式文件夹管理组件

实现&#xff1a; 默认进入页面时&#xff0c;文件夹全选&#xff1b;文件夹状态&#xff0c;以及文件夹内的文件选择状态&#xff0c;与组件联动文件夹数量&#xff0c;根据后端数据动态生成 实现思路&#xff1a; 将后端数据存到vuex中&#xff0c;增加&#xff08;多选框…

LAMP万字详解(概念、构建步骤)

目录 LAMP Apache 起源 主要特点 软件版本 编译安装httpd服务器 编译安装的优点 操作步骤 准备工作 编译 安装 优化执行路径 添加服务 守护进程 配置httpd 查看 Web 站点的访问情况 虚拟主机 类型 部署基于域名的虚拟主机 为虚拟主机提供域名解析&#xff…

机器人三定律及伦理分析

全世界的机器人定律并没有一个统一的标准或体系&#xff0c;但是在科学文献中&#xff0c;最广为人知的是由科幻小说家阿西莫夫提出的“机器人三定律”。本文将以这些定律为基础&#xff0c;分析现有的机器人伦理和实际应用中的问题&#xff0c;给出若干实例&#xff0c;并对相…

EPSON LQ80KF II驱动 打印机 0x00000003e3

1.添加打印机 2.按名次选择共享打印机,输入共享打印机ip 3.选择创建新端口 4.选择打印机驱动