DenseDiffusion:Dense Text-to-Image Generation with Attention Modulation

1 研究目的

该文献的研究目的主要是:

探讨一种更为广泛的调制方法,通过设计多个正则化项来优化图像合成过程中的空间控制。论文的大致思想是,在现有的基于数据驱动的图像合成系统基础上,通过引入更复杂的调制策略,实现对文本描述和空间控制更为精确的图像合成。

在研究中,作者发现了以下问题:

现有的文本到图像扩散模型很难在给定密集字幕的情况下合成逼真的图像,并且倾向于省略或混合不同对象的视觉特征。其中每个文本提示为特定图像区域提供详细的描述,用户很难仅使用文本提示精确控制生成图像的场景布局。有些模型提供了对图像布局的控制,但它们通常需要每次重新训练新的控制类型或增加推理时间。

为了解决这些问题,作者提出了一种新的方法:

提出了 DenseDiffusion,这是一种无需训练的方法,它采用预训练的文本到图像模型来处理这种密集的字幕,同时提供对场景布局的控制。

  • 首先分析了生成的图像布局与预训练模型的中间注意图之间的关系,以表明生成的图像的布局与自我注意和交叉注意图显著相关,但专注于空间控制而不是图像编辑的图像合成。
  • 接下来,基于这一观察,动态根据布局条件调节中间注意力图,开发了一种注意力调制方法,根据布局引导对象出现在特定区域。不需要额外的微调或数据集
  • 进一步提出考虑原始注意力分数的值范围并根据每个片段的面积调整调制程度。

该方法基于自注意力和交叉注意力映射,通过实时调制中间注意力映射来适应布局条件。

此外,作者还考虑了原始注意力得分的值范围,并根据每个区域的面积调整调制的程度。

这种方法旨在更准确地反映文本和布局条件,从而提高图像合成的质量和灵活性

2 方法介绍

2.1 前期介绍

2.1.1 注意力分数分析

通过分析稳定扩散产生的16 × 16注意图来展示类似的趋势。

随着图像生成的进行,注意力图往往类似于上面的图像布局。

  • 在 (a) 中,可视化了“sloth”和“beer”的交叉注意力图。感兴趣的对象用蓝色和黄色的边界框概述。
  • 在 (b) 中,展示了自注意力层中红框中标记的标记键注意力图。
  • 由于时间步 t 接近零,属于同一对象的标记更仔细地通信,影响图像布局。

匹配键和未匹配键的注意力分数分析。首先,YOLOv7检测对象边界框。

  • 在交叉注意力层的上下文中,如果键的文本标记与框的类标签匹配,定义一个匹配键。
  • 在自注意力层中,框内的图像标记有资格作为匹配的键。
  • 在这两个层中,匹配的键始终比不匹配的键具有更高的平均值和最大注意力值;属于同一对象的查询键对在生成过程中往往具有更大的分数。

为什么要进行匹配键和为匹配键的注意力分数分析?

      其目的主要是为了探究和解释在自注意力层和交叉注意力层中,注意力机制是如何运作的,以及这种机制如何影响图像的生成过程。

首先,匹配键和未匹配键的区分是基于查询-键对是否属于同一对象。在注意力机制中,每个查询都会与所有的键进行匹配,计算得到一个注意力分数,这个分数决定了在生成新特征时,应该给予哪些键(即哪些位置或特征)多大的权重。

对于匹配键,即查询和键属于同一对象的情况,理论上,它们之间的注意力分数应该更高,因为模型需要确保同一对象内的信息能够得到有效传播和整合。

对于未匹配键,即查询和键属于不同对象的情况,注意力分数可能相对较低,以避免不同对象之间的特征混淆。

通过对比匹配键和未匹配键的注意力分数,可以验证模型的注意力机制是否按照预期工作。

  • 如果匹配键的分数显著高于未匹配键,那么说明模型能够有效地识别和整合同一对象内的信息。
  • 如果两者分数相差不大,或者未匹配键的分数过高,可能意味着模型在处理不同对象时存在混淆,需要进一步优化。

此外,这种分析还有助于理解模型在生成过程中的不同阶段如何利用注意力机制的

  • 早期阶段,模型可能更注重位置和对象的基本形状,
  • 后期阶段,可能更注重细节和纹理。

通过比较不同阶段的注意力分数,可以揭示模型在生成过程中的这种变化趋势。

2.1.2 注意力层

注意层是稳定扩散的构建块之一,它根据注意图A∈R|query|×|keys|更新中间特征,定义如下:

其中 Q 和 K 是查询和键值,每个值都从中间特征和上下文特征映射。这里 d 表示键和查询特征的长度。

  • 自注意力层中,中间特征也用作上下文特征,允许我们通过连接不同区域的图像标记来合成全局连贯的结构。
  • 交叉注意力层更新以文本特征为条件,这些特征使用 CLIP 文本编码器从输入文本标题 c 编码。

2.2 布局引导注意调制

上述的注意力图的分析结果促使作者干预生成过程调制原始分数以更好地反映文本和布局条件。具体来说,我们将注意力图调制如下:

引入了矩阵 Mpos、Mneg ∈ R|query|×|keys|来考虑原始值范围,旨在保留预训练模型的生成能力。为了进一步根据每个对象的大小调整调制程度,计算矩阵S∈R|query|×|keys|,表示每个图像查询标记的段面积。

其中每个段\left ( c_{n} ,m_{n}\right )描述单个区域,如上图所示。

这里c_{n}是全文标题c的非重叠部分

m_{n}表示表示表示每个区域的二值映射

A是注意力图

A'是调制后的注意力图

给定输入条件,我们动态调制所有注意力层的注意力图,以便 c_{n}描述的对象可以在相应的区域m_{n}中生成。为了保持预训练模型的生成能力,作者设计了调制来考虑原始值范围和每个片段的面积。

2.2.1 交叉注意力层注意调制

在交叉注意力层中,根据文本特征更新中间图像特征,这些特征构建对象的外观和布局。它们反映的程度和位置由  图像标记和文本标记  之间的注意力分数决定。因此,我们修改了交叉注意力图,以根据其相应的布局条件 m_{n}在特定区域中聚合某些文本特征

2.2.2 自我注意力层注意调制

自注意力层允许中间特征相互交互以创建全局连贯的结果。

注意力调制旨在限制不同段标记之间的通信,从而防止不同对象特征的混合。具体来说,增加了同一段中标记的注意力分数,并将其减少到不同段中的标记的注意力得分来实现其目的。

这样做可以使得自注意力层更好地反映文本和布局条件,使得属于同一对象的图像标记对在自注意力层中展现出更高的得分。

2.2.3 值范围自适应注意调制

由于作者的方法改变了原始的去噪过程,它可能会破坏预训练模型的图像质量。

为了减轻这种风险,根据原始注意力分数的范围调制值。

计算以下矩阵来识别每个查询的最大值和最小值,确保调制值保持在原始范围附近。因此,调整与原始值和最大值(对于正对)或最小值(对于负对)之间的差异成正比

2.2.4掩码区自适应注意调制

当段之间存在较大的面积差异时,观察到明显的质量下降。

具体来说,如果一个段的面积比其他段小得多,我们的方法可能无法生成逼真的图像。

为了解决这个问题,使用等式 2 中的矩阵 Sin 来根据每个片段的面积自动调整调制程度:增加小段的程度并减少大段。为了计算矩阵 S,首先计算每个查询标记所属的掩码的面积百分比,然后沿键轴复制值。

什么是段之间的面积差异大?

在图像处理、计算机视觉或相关领域中,经常需要将图像划分为不同的区域或段(segments),这些段可以基于颜色、纹理、形状等特征进行区分。

这些段可能代表了图像中的不同对象、部分或场景。当这些段之间的面积存在显著差异时,即有的段面积很大,而有的段面积很小,就可能对后续的图像处理任务产生不利影响。

2.2.5 实施细节

  • 使用在LAION数据集上训练的稳定扩散
  • 在实验中,只对初始去噪步骤 (t = 1 ∼ 0.7) 应用注意力调制,因为观察到除了这一点之外没有明显的改进。
  • 为了进一步提高方法的有效性,将文本特征的部分替换为每个文本段c_{n} 的单独编码部分。当文本标题包含多个密切相关的对象(例如微波和烤箱)时,这种策略特别有用。

3 评估

3.1 评估设置

3.1.1 评估指标

根据两个标准评估每种方法:文本提示的保真度与布局条件对齐

对于文本提示:

  •  CLIP-Score ,它测量输入文本特征和生成的图像特征之间的距离,
  • 使用 YOLOv7 的 SOA-I 分数来检查所描述的对象是否存在于生成的图像中。

对于布局对齐方面:

  • 比较了YOLOv7预测的分割图相对于给定布局条件的IoU分数。
  • 进一步评估了裁剪对象图像(Local CLIP-score)上的CLIP-scores,以检查生成的对象是否遵循详细的描述。

由于  可组合扩散   和   结构扩散  不采用布局条件,因此将它们排除以进行公平比较。

3.1.2 数据集

作者策划了一个新的评估数据集,其中包含每个片段的详细描述。

具体来说,从 MS-COCO 验证集中选择具有两个或多个独特对象的 250 个样本。然后用从标题中提取的短语手动替换每个分割图的类标签;例如,“狗”到“黑白狗”。为每个标题生成四个随机图像,导致评估中使用的每个基线有 1,000 张图像。

3.1.3 用户研究

使用 Amazon Mechanical Turk 进行用户研究。

对于每个任务,向用户展示两组 4 张图像以及相同的输入条件。他们被要求根据以下任一标准选择更好的集合:对文本条件的保真度,同时反映关键对象的详细说明或对布局条件的保真度,并准确描述对象。

以随机顺序呈现每一对,并从唯一用户那里收集三个评级。

3.2 实验结果

3.2.1 文本条件保真度的评估

在该图 4 中,将 DenseDiffusion 与使用密集字幕生成的图像的所有基线进行比较。

虽然基线方法有时会省略文本标题中描述的一个或多个对象,但作者的结果更忠实于文本和布局条件。特别是,与 SD-Pwww 的比较突出了我们的无训练调制方法的有效性。

 SD-Pwww 和作者的方法 DenseDiffusion 支持分割图进行布局控制。

文本条件保真度的定量评估结果。

我们将我们的方法与各种无训练方法进行比较,这些方法旨在在使用密集字幕时提高预训练的稳定扩散的保真度。由于 eDiffi 模型没有公开,使用在稳定扩散 (SD-Pww) 上实现的 Pwww 进行了实验。

由于LAION和MS-COCO之间的域差距,SOA-I似乎与人类评估结果松散相关,分别用于训练稳定扩散和YOLOv7。有趣的是,当推理方法与原始方法的变化太大时,性能往往会受到显着影响,如可组合扩散的情况所示。

3.2.2 布局条件保真度的评估

为了评估布局条件的保真度,只与 SD-Pww 的结果进行比较,SD-Pww 是唯一可以控制图像布局的基线。

可以看一下表和图,得到DenseDiffusion 大大优于 SD-Pwww。S

D-Pww不仅不能忠实地反映布局条件,而且倾向于混合不同的对象特征或省略关键对象。特别是,IoU 分数的显着差异表明 DenseDiffusion 在反映布局条件方面更有效。

表 3:布局条件保真度的定量评估结果。我们只与 SD-Pww进行比较,因为它是使用分割图的唯一基线。

3.2.3 与布局条件的模型比较

为了突出DenseDiffusion 即使在无训练方法的情况下也能有效,我们进一步与 MAS 和 SpaText 进行了比较,它们都是使用布局条件训练的文本到图像模型。

MAS 使用标记化的语义分割图作为附加条件

SpaText 根据布局条件微调具有空间飞溅的 CLIP 图像特征的稳定扩散。由于这些模型没有公开,我们使用原始 SpaText 论文中呈现的示例。

下图 5 显示 DenseDiffusion 可以相对反映布局条件,甚至优于不同概念的 MAS。

图 6 显示,作者的方法可以很好地响应通过改变给定文本条件的一部分创建的各种条件,例如对象类型或图像样式,同时保持原始布局条件。

3.3 消融实验

下面评估DenseDiffusion中使用的每个组件:

(a)交叉注意层的注意调制

(b)自我注意层的注意调制

(c)值范围自适应注意调制

(d)掩码区域自适应注意调制

我们首先展示了我们在图7中消融研究的视觉结果。同一行中的所有图像都是从相同的初始噪声图生成的。

  • w/o (a) 和 w/o (b) 列所示,交叉注意力层和自注意力层中的注意力调制对于满足文本和布局条件至关重要。
  • w/o (c) 列中的图像表明,值范围自适应调制进一步提高了方法对给定条件的保真度。
  • w/o (d) 列,该方法遵循条件,但产生纹理单调的图像。

结果表明,除了组件 (d) 之外,每个组件的删除都会导致所有指标分数显着下降。

关于组件 (d),将此异常解释为消融方法创建单调背景的倾向的结果,如图 7 所示。虽然它看起来可能与真实图像相距甚远,但分割模型更容易预测分割图。因此,它有助于在与布局条件相关的指标上获得良好的分数,但它并不总是满足文本条件。

4 优点

  • 提出的 DenseDiffusion,是一种无需训练的方法,可以将预训练的文本到图像模型的保真度提高到密集字幕,并实现图像布局控制。
  • 考虑值范围和段大小显着提高了我们的注意力调制方法。
  • DenseDiffusion的无训练方法提供了与专门为此任务训练的现有模型相当的布局控制。

5 限制

DenseDiffusion 有几个限制。

  • 首先,作者的方法高度依赖于其基础模型的容量,稳定扩散。如图 8a 所示,如果 Stable Diffusion 无法产生它们本身,作者的方法无法产生某些对象,例如 jugling 熊。
  • 其次,作者的方法难以处理具有薄结构的细粒度输入掩码,因为自注意力层和交叉注意力层都相当粗糙。如图 8b 所示,作者的方法未能遵循段条件的精细细节,例如叶子的形状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/2074.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pip下载包opencv出错(报错failed building wheel for opencv-python解决方法)

文章目录 1 报错2 原因3 解决方法参考 1 报错 ERROR: Could not build wheels for opencv-python, which is required to install pypr2 原因 版本不兼容的问题,当使用pip install opencv-python命令安装的是最新版本,当前python版本不支持。需要安装当前版本pyth…

认识产品经理

一、合格的产品经理 1、什么是产品 解决某个问题的东西,称为产品 键盘可以打字,想喝水了可以用水壶,在超市想找一款扫把会有导购员服务 产品有颜色、大小等等区别,也有有形和无形的区别 2、什么是产品经理 想清楚怎么设计产品…

Leetcode - 周赛394

目录 一,3120. 统计特殊字母的数量 I 二,3121. 统计特殊字母的数量 II 三,3122. 使矩阵满足条件的最少操作次数 四,3123. 最短路径中的边 一,3120. 统计特殊字母的数量 I 本题就是统计有多少个字母的大小写同时出现…

Kimi Chat四大更新详细解读!模型能力提升,支持语音输入输出!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识…

SpringBoot集成Sharding-JDBC实现主从同步

SpringBoot集成Sharding-JDBC实现主从同步 1.mysql主从配置2.application.properties文件配置3.测试3.1 查询数据3.2 添加数据 1.mysql主从配置 详细内容请参考上一篇文章:MySQL8.0以上实现主从同步配置 2.application.properties文件配置 # ShardingSphere conf…

阿斯达年代记怎么下载 阿斯达年代记三强争霸下载教程

阿斯达年代记怎么下载 阿斯达年代记三强争霸下载教程 阿斯达年代记是一款三国争霸类型的游戏,在游戏中大家可以体验到三权争霸的刺激场景,在战场中大家不仅可以体验到体验到文化交织还可以感受到战场的残酷,本期小编将会给大家带来阿斯达年代…

基于vue+node+mysql的视频校对系统

一、登录注册:包括登录,注册,忘记密码,验证码等常用点。 二、用户管理:包括用户的增删改查 三、权限管理(请增加这个权限:任务分配——只有管理者才能发布和删除任务;管理员设置。 四…

R语言绘制动态网络图Network教程WGCNA

今天分享的笔记是使用NetworkD3对WGCNA的共表达网络进行可视化,创建交互式动态网络图,展示基因之间的相互关系,可以用于转录组或者其他调控网络展示。 加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同…

MQTT服务器EMQX的安装和使用(Windows)

一、下载地址: 下载 EMQX 二、安装环境: Windows Server2016 16G 500G 三、启动服务: 下载文件解压后放入以下目录(注意,目录名一定是英文,否则会造成启动不成功!)&#xff1a…

mybatis与mybatisplus

mybatis 基本使用 整合springboot 1.添加依赖 2.添加配置 spring:# 数据源相关配置datasource:username: rootpassword: 123456driver-class-name: com.mysql.cj.jdbc.Driver#时区必须配置否则报错,注意数据库名切换为自己的数据库名称url: jdbc:mysql://127.0.0.1/ithei…

论文略读:OpenGraph: Towards Open Graph Foundation Models

arxiv 2023 1 intro Graph大模型希望OpenGraph能够捕捉通用的拓扑结构模式,对测试数据进行Zero-shot预测 仅通过前向传播过程,就可以对测试图数据进行高效的特征提取和准确预测模型的训练过程在完全不同的图数据上进行,在训练阶段不接触测试…

【2024年5月备考新增】】软考极限冲刺 《项目质量管理1》

1 知识点 1.1 质量成本 一致性成本 项目花费资金规避失败 预防成本:(打造某种高质量产品) 培训文件过程设备完成时间评估成本:(评估成本) 测试破坏性试验损失检查非一致性成本 项目前后花费的资金(由于失败) 内部失败成本:(项目中发现的失败) 返工报废外部失败成本:…

windows安装nc命令的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

(mac)Prometheus监控之Node_exporter(CPU、内存、磁盘、网络等)

完整步骤 1.启动 Prometheus 普罗米修斯 prometheus --config.file/usr/local/etc/prometheus.yml 浏览器访问 http://localhost:9090/targets 2.启动Node_exporter node_exporter 访问:http://localhost:9100 3.启动grafana brew services start grafana 访问…

力扣146. LRU 缓存

Problem: 146. LRU 缓存 文章目录 题目描述思路复杂度Code 题目描述 思路 主要说明大致思路,具体实现看代码。 1.为了实现题目中的O(1)时间复杂度的get与put方法,我们利用哈希表和双链表的结合,将key作为键,对应的链表的节点作为…

2024年前端技术发展趋势

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

如何用idm下载迅雷文件 idm怎么安装到浏览器 idm怎么设置中文

如果不是vip用户使用迅雷下载数据文件,其下载速度是很慢的,有的时候还会被限速,所以很多小伙们就开始使用idm下载迅雷文件,idm这款软件最大的优势就是下载速度快,还有就是具备网页捕获功能,能够下载网页上的…

ESD+显示模组

ESD测试是指对消费电子设备进行静电放电测试,通常用于检查设备是否具有防静电能力,以及在正常使用过程中是否容易受到静电干扰,通过进行ESD测试,可以评估设备的抗静电能力,并采取相应的措施以提高设备的耐静电性能。 E…

小米汽车超级工厂智能物流

导语 大家好,我是智能仓储物流技术研习社的社长,老K。专注分享智能仓储物流技术、智能制造等内容。 小米汽车超级工厂以其先进的智能物流系统,标志着汽车制造业在智能化和自动化方面迈出了重要一步。该工厂采用物联网(IoT)技术,实…

架构师系列-MYSQL调优(五)- JOIN、in及exists优化

JOIN算法原理 JOIN 是 MySQL 用来进行联表操作的,用来匹配两个表的数据,筛选并合并出符合我们要求的结果集。JOIN 操作有多种方式,取决于最终数据的合并效果。常用连接方式的有以下几种: 驱动表的定义 什么是驱动表 ? 多表关联查询时,第一…