通过注意力调节实现更好的文本到图像生成对齐

近年来,生成性AI技术在众多领域取得了前所未有的进步。大规模预训练模型的出现激发了各种下游任务中的新应用。这在文本到图像生成领域尤为明显,例如Stable Diffusion、DALL-E 2和Imagen等模型已经显著展示了它们的能力。尽管如此,复杂提示中包含多个实体和复杂属性时会出现挑战。生成的图像质量下降,导致实体泄露和属性不对齐等问题。目前,大多数最先进模型使用预训练的语言模型对提示进行编码,然后将文本嵌入集成到注意力模块中,其中高斯噪声扩散到最终生成的图像中。然而,最近的研究已经确定,与次优生成图像相关的许多问题与注意力机制的缺陷密切相关。

扩散模型在各种内容生成领域取得了显著的成功,其核心概念是通过输入提示引导的扩散过程,在潜在空间中从噪声迭代重建图像。现有的基于扩散的图像生成模型在大规模数据集上训练,并且与以前的方法相比,性能有了显著提高。然而,在处理复杂输入提示时,这些生成模型的保真度往往无法得到保证。最近,基于扩散的文本到视频模型Sora被公布,展示了在生成高保真度、长时间、高分辨率视频方面的强能力。实验结果在各种对齐场景中表明此模型以最小的额外计算成本实现了更好的图像-文本对齐。

方法

研究团队提出了一种创新的注意力控制机制,旨在改善文本到图像生成任务中的实体对齐和属性分配问题。这种方法不需要额外的训练过程,通过调整自注意力和交叉注意力模块来实现对生成模型的精细控制。

自注意力温度控制
自注意力温度控制是一种调整模型在生成图像时如何分配注意力的机制。在文本到图像的生成任务中,自注意力层允许模型的每个部分(或称为补丁)评估与其他部分的关系,从而确定在生成图像时如何相互影响。然而,如果没有适当的控制,补丁可能会对周围较大区域内的其他补丁产生高响应值,这可能导致生成的图像中对象的边界不清晰或对象特征混淆。

在图2中,自注意力温度控制的效果通过对比展示了。在没有温度控制的情况下(图2a),一个特定的补丁可能对多个其他补丁有较高的注意力值,这在自注意力图中表现为一个较广泛的高响应区域。这种广泛的注意力分布可能导致模型在生成图像时无法精确区分各个实体,比如无法明确区分“一个男孩”和“一个女孩”的边界,导致图像中出现实体融合或特征错误。

为了解决这个问题,研究者引入了温度控制机制(如图2c所示)。通过调整一个超参数τ,即温度,改变了自注意力层中softmax函数的尺度。温度控制的数学表达式如下:

通过这种温度操作,增强了相关性较强的补丁之间的高注意力值,同时抑制了不相关补丁之间的低注意力值。这使得每个补丁能够与高度相关的补丁组合在一起,从而产生更加真实的轮廓。在图2c中,应用温度控制后,补丁只与周围较小区域内的补丁相对应,这有助于在最终生成的图像中构建正确的轮廓。需要注意的是,由于自注意力控制直接改变了补丁之间的关系,这种控制必须是精确和适度的;否则,它可能会影响到最终图像的整体内容。温度操作应用于扩散模型自注意力层的早期生成阶段。

对象聚焦的掩蔽机制
接下来,引入了一种对象聚焦的掩蔽机制来解决属性不对齐的问题。对象聚焦的掩蔽机制是为了提高文本到图像生成任务的准确性而设计的一种创新方法。这种方法特别针对于解决当文本提示中包含多个不同对象时,模型在生成图像的过程中可能出现的对象边界不清晰或对象特征混淆的问题。

在传统的生成模型中,由于补丁之间的注意力分布可能过于分散,导致生成的图像无法准确反映文本提示中的各个独立对象及其属性。为了克服这一难题,研究团队采用了句法解析技术来分析文本提示,识别出其中的所有实体和属性。这一步骤是基础,因为它帮助理解了文本提示的结构和语义内容。

基于句法解析的结果,研究团队为图像中的每个补丁指定了最有可能对应的实体组。在生成过程中,研究团队为每个补丁创建了一个掩蔽,这个掩蔽确保补丁只关注与它指定的实体组相关的信息。这意味着,如果一个补丁通过句法分析被确定与“一个男孩”这一实体相关,那么在生成过程中,这个补丁的注意力将主要集中于与“一个男孩”相关的特征,而不是其他不相关的对象或属性。

通过这种方式,研究团队有效地过滤了补丁需要处理的信息,减少了无关信息的干扰。这不仅提高了对象的边界清晰度,还减少了属性错误分配的风险。例如,如果文本提示中提到“一个戴帽子的年轻男孩”,我们的掩蔽机制将确保与“年轻男孩”相关的补丁不会错误地生成与“帽子”无关的特征,比如将帽子错误地分配给图像中的其他对象。

掩蔽机制还考虑了全局信息,如图像的布局和动作等。这意味着即使在关注特定实体的同时,模型也能够保持对整体场景的一致性和连贯性,从而生成结构合理、符合文本描述的图像。

对象聚焦的掩蔽机制通过精确控制补丁的注意力焦点,显著提升了模型对文本提示中多个对象和属性的处理能力,从而在生成图像时实现了更高的准确性和真实性。这种方法在处理复杂提示时尤其有效,能够生成更加细致和符合预期的图像结果。

阶段性动态重新加权机制

阶段性动态重新加权机制是为了进一步提升文本到图像生成任务中属性对齐的准确性而设计的一种策略。这种机制的核心思想是,在图像生成过程的不同阶段,模型应该关注不同类型的信息:在早期阶段关注全局信息,如整体布局;而在中后期则逐渐转移到对象的具体细节。

在扩散模型的早期阶段,图像的大体结构和布局是首先需要确定的。随着生成过程的进行,模型需要逐渐细化这些结构,填充具体的对象特征。为了适应这种阶段性的信息关注需求,研究团队设计了两种权重控制曲线:一种针对全局信息,另一种针对实例细节。

全局信息的权重控制曲线会随着时间步的增加而逐渐减小。这意味着在生成过程的早期,模型会更加关注文本提示中的全局信息,如场景的布局和整体结构。随着时间的推进,这种关注会逐渐减弱,为对象细节的生成让出空间。

相对地,实例细节的权重控制曲线则随着时间步的增加而逐渐增大。这确保了在生成过程的中后期,模型会更多地关注文本提示中的具体对象和它们的属性,如颜色、形状和大小等。这种权重的增加帮助模型在图像的细节层面上实现更高的准确性和丰富性。

通过这种动态的权重调整,模型能够在正确的时间关注正确的信息,从而在生成的图像中实现更好的实体和背景区分。这种机制使得生成的图像不仅在宏观上结构合理,也在微观上细节丰富,更贴近文本提示的描述。

在实际应用中,这种阶段性动态重新加权机制可以通过调整自注意力和交叉注意力层中的权重来实现。通过精心设计的权重控制曲线,模型在生成过程中的每一步都能够适应性地调整其关注焦点,确保生成的图像在不同阶段都能够与文本提示保持高度一致。

Fig. 3比较了原始模型与创新方法在时间步30时的交叉注意力图。给定的文本提示是“一个男孩在一个女孩前面”,通过这个例子,我们可以直观地看到两种方法在处理对象对齐方面的差异。

在原始模型中,扩散过程中的交叉注意力图,其中某些token(例如“男孩”和“女孩”)的语义信息在整个图像中扩散。这种扩散可能导致生成的图像中对象的界限模糊,对象特征混淆,最终导致对齐效果差。例如,如果“女孩”的语义信息扩散到了整个图像,模型可能无法确定女孩的具体位置,导致生成的图像中女孩的形象不清晰或者与背景或其他对象混合。

相比之下,对象聚焦掩蔽机制和阶段性动态重新加权机制后的交叉注意力图与实体相对应的token信息变得更加集中。这意味着每个对象的语义信息被更精确地定位在图像中的相应区域,从而改善了对象的对齐和整体图像的生成质量。

通过对象聚焦掩蔽机制,确保了每个补丁主要关注与它最相关的实体组,减少了与其他对象的无关信息的干扰。阶段性动态重新加权机制进一步确保了在生成过程的不同阶段,模型能够适当地关注全局信息和细节信息。在早期阶段,模型可能更关注于整体布局,而在后期阶段,则更多地关注于对象的具体特征。

实验

本研究中采用了无需训练的注意力控制机制,旨在改善文本到图像生成任务中的实体泄露和属性不对齐问题。使用了COCO2014验证集作为评估数据,并选取了最新的Stable Diffusion XL 1.0作为基线模型,与本模型进行比较。

定性分析 通过视觉检查生成图像与文本提示的对齐程度。如图5所示,展示了Stable Diffusion、Structured Diffusion以及创新方法的生成结果。可以观察到,现有模型在处理涉及多个对象和属性的复杂提示时仍然存在挑战。例如,在数字对齐方面,现有模型常常无法准确复现提示中指定的数量,如在图5的第一和第四列中,与提示相比,生成的长颈鹿和鸟的数量明显过多。而本方法能够减少这类数值错误的发生,如图5的(i)(l)所示。

定量分析 使用FID(Fréchet Inception Distance)、CLIP Score和ImageReward等指标来评估生成图像的质量。FID用于衡量生成图像与真实图像之间的分布差异,CLIP Score基于CLIP模型评估图像与文本的一致性,而ImageReward则是学习并评估人类对生成图像的偏好。实验结果表明,本模型在这些指标上都取得了更好的成绩,表明生成的图像与输入提示的对齐度更高,图像质量也更优。

在Fig. 6中,我们可以看到随着CFG规模的增加,FID和CLIP分数如何变化。FID分数衡量的是生成图像与真实图像分布之间的差异,而CLIP分数则衡量生成图像与输入文本提示的一致性。理想情况下,我们希望FID分数越低越好,CLIP分数越高越好,这表示生成图像不仅与真实图像相似,而且与输入的文本提示也高度一致。

Table 1提供了创新方法与现有方法在定量评估上的比较结果,包括FID、CLIP Score和ImageReward三个指标。本方法在这些指标上与Stable Diffusion XL和Structured Diffusion进行了对比,这些指标共同衡量了生成图像的质量与输入文本提示的对齐程度。

具体来说,FID分数衡量生成图像与真实图像集合之间的分布差异,分数越低表示生成图像与真实图像越相似。CLIP Score评估生成图像与文本描述的匹配度,分数越高表示匹配度越好。ImageReward则是基于人类偏好的学习评估指标。

在Table 1中,我们可以看到,与Stable Diffusion XL和Structured Diffusion相比,本方法在FID分数上略高,但与真实图像(Ground-Truth)相比仍具有竞争力,这表明本模型在图像质量上有所提升。在CLIP Score上,本方法与Stable Diffusion XL得分相近,均高于Structured Diffusion,显示出在图像与文本对齐方面的优势。这些结果证明了本方法在改善文本到图像生成任务中的有效性,尤其是在提升图像质量和文本对齐方面。

半人工评估 除了定量指标,还设计了半人工评估来更细致地考察模型在特定对齐任务上的表现。随机选取了50个提示,并使用基线模型和我们的模型生成图像。然后,利用GPT-4生成与这些图像相关的一系列问题,从不同角度评估图像的对齐性能,包括颜色、内容、数量、表面/纹理、时间和位置对齐。通过人工检查这些问题,发现本模型在所有对齐任务上都取得了优于基线模型的结果。

Table 2在论文中展示了半人工评估的结果,这些结果是基于GPT-4生成的问题对不同模型生成的图像进行评估的准确性。在这个表中,研究人员手动检查并修订了基于GPT-4答案的比较结果,以确定每种模型在各种对齐任务上的表现。

具体来说,Table 2列出了以下几种类型的对齐任务,并为每种任务提供了不同模型的性能百分比(准确率):

  1. 颜色对齐(Color Alignment):评估图像中指定对象的颜色是否与文本提示中的颜色准确生成。
  2. 内容对齐(Context Alignment):检查图像中的场景、对象和角色动作是否与文本提示一致。
  3. 数量对齐(Numerical Alignment):验证图像是否准确地表示了文本提示中指定的不同对象的数量。
  4. 表面/纹理对齐(Surface/Texture Alignment):判断生成的对象是否具有与文本提示描述一致的纹理。
  5. 时间对齐(Time Alignment):确认图像中呈现的环境时间是否与文本提示中描述的时间相匹配。
  6. 位置对齐(Location):评估图像中生成的环境设置和空间关系是否与文本提示一致。

表中列出了几种模型的名称,包括基线模型(如Stable Diffusion XL和Structured Diffusion)和本模型(即采用新提出的注意力控制机制的模型)。每种模型在上述任务上的表现会以百分比形式展示,百分比越高,表示模型在该对齐任务上的准确率越高,生成的图像与文本提示的一致性越好。

消融研究  通过消融研究深入探讨了自注意力控制策略、对象聚焦掩蔽机制和动态重新加权策略这三种组件对模型性能的影响。

研究团队首先单独测试了自注意力控制策略。这一策略通过调整自注意力层中的温度参数,优化了补丁间的注意力分布。结果显示,即使只使用这一策略,模型的FID和CLIP Score也比基线模型有所改善,这表明自注意力控制在提升图像质量和文本对齐方面起到了积极作用。

接着,单独评估了对象聚焦掩蔽机制。这一机制通过句法解析确定文本提示中的实体,并为每个补丁创建掩蔽,以集中注意力于相关实体。消融研究的结果显示,对象聚焦掩蔽机制同样在单独使用时提升了模型性能,减少了属性不对齐和实体泄露的问题。

当单独应用动态重新加权策略时,效果并不理想。动态重新加权策略根据生成过程的不同阶段调整不同语义组成部分的权重。在没有掩蔽机制配合的情况下,这一策略可能会无意中增强了不必要的注意力分布,导致生成效果不佳。

当将这三个组件结合起来使用时,模型的性能得到了显著提升。这表明这些组件之间存在互补关系,通过协同作用,能够有效地提升模型的整体性能。结合使用时,自注意力控制和对象聚焦掩蔽机制能够确保注意力的准确分配,而动态重新加权策略则在这一基础上进一步优化了不同阶段的注意力重点。

以上表格展示了不同配置下的FID和CLIP Score,清晰地呈现了每种组件以及它们组合使用时对模型性能的具体影响。

结论

在本文中,我们提出了一种无需训练的阶段性注意力控制机制。我们在自注意力模块中集成了新颖的温度控制,并在交叉注意力模块中进行了阶段特定的掩蔽控制。这些注意力控制使模型能够更有效地将图像补丁塑造成连贯的对象,并显著缓解实体融合和不对齐的问题。在我们的实验中,我们使用现有的基准指标和针对不同对齐场景量身定制的半人工评估来评估我们的模型。实验结果证明了我们的模型在对齐聚焦的图像生成任务中的鲁棒性和有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/15099.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

appium篇-windows桌面自动化(一)[环境配置]

1、windows版本:win10 2、winSdk版本 Windows SDK and emulator archive | Microsoft Developer 3、winAppDriver版本 1.2.99 Releases microsoft/WinAppDriver (github.com) ################ 4、python版本 Python 3.9.13 ############### 5、appium版本 Re…

hubilder Android模拟器华为手机连接不上

APP真机测试注意点: 1. 同一个局域网下 2. 手机连接USB模式(华为选择USB配置:音频来源) ,开发者模式 3. 实在不行重启HBuilderX再运行真机 可是卡在了“正在安装手机端HBuilder调试基座...” 就没反应了?&…

【高时效通路】

一 高时效通路 1.1 pathchdumper 实时数据拉取、实时数据处理、5分钟微批dump来加速时效性,具体来说: 实时数据拉取(Fetcher):基于Databus Fetcher基建,直接对接F0层实时拉取最新数据,保证该…

Springboot整合Minio对象存储超级详细讲解以及配置搭建

windows环境下搭建minio步骤 1.从minio官网进行查看详细信息 地址:https://min.io/里面有详细的配置信息搭建成功之后如下如所示:用户名密码默认情况下为 username:minioadmin password:minioadmin2.搭建成功之后的访问 地址&…

vue项目实战 - 如果高效的实现防抖和节流

在Vue项目中,处理高频事件的优化至关重要,直接影响用户体验和应用性能。防抖(Debounce)和节流(Throttle)是两种常用且有效的方法,可以控制事件触发频率,减少不必要的资源消耗。如何在…

SEO优化,小白程序员如何做SEO优化流量从0到1

原文链接:SEO优化,小白程序员如何做SEO优化流量从0到1 1、SEO是什么? SEO即:搜索引擎优化(Search Engine Optimization),是一种通过优化网站结构、内容和外部链接等因素,提高网站在搜索引擎中的自然排名&…

DeepDriving | CUDA编程-03:线程层级

本文来源公众号“DeepDriving”,仅用于学术分享,侵权删,干货满满。 原文链接:CUDA编程-03:线程层级 DeepDriving | CUDA编程-01: 搭建CUDA编程环境-CSDN博客 DeepDriving | CUDA编程-02: 初识CUDA编程-C…

Linux之共享内存mmap用法实例(六十三)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

外卖霸王餐返利外卖会员卡小程序开发

外卖霸王餐返利外卖会员卡小程序开发 "社交电商赋能下的外卖返利小程序"是专为商家与用户双赢而设计的创新平台。 以下是其开发方案的详细步骤: 一、需求梳理:首先,我们需要明确小程序的核心功能和特色。包括设定活动类型、返利…

【Docker】Linux 系统(CentOS 7)安装 Docker

文章目录 对 VMware 软件的建议官方说明文档Docker安装卸载旧版本docker设置仓库开始安装 docker 引擎最新版 Docker 安装指定版本 Docker 安装(特殊需求使用) 启动 Docker查看 Docker 版本查看 Docker 镜像设置 Docker 开机自启动 验证开机启动是否生效…

自定义原生小程序顶部及获取胶囊信息

需求:我需要将某个文字或者按钮放置在小程序顶部位置 思路:根据获取到的顶部信息来定义我需要放的这个元素样式 * 这里我是定义某个指定页面 json:给指定页面的json中添加自定义设置 "navigationStyle": "custom" JS&am…

新时代AI浪潮下,程序员和产品经理如何入局AIGC领域?

当下,AI浪潮席卷全球,AIGC大模型技术已经成为当今技术领域的一个重要趋势,对于产品经理来说,掌握这项技术不仅能够增强他们的职业技能,还能在竞争激烈的职场中脱颖而出。 为什么呢? 把握AI时代的机遇 AI技…

StringMVC

目录 一,MVC定义 二,SpringMVC的基本使用 2.1建立连接 - RequestMapping("/...") ​编辑 2.2请求 1.传递单个参数 2.传递多个参数 3.传递对象 4.参数重命名 5.传递数组 6. 传递集合 7.传递JSON数据 8. 获取url中数据 9. 传递文…

python数据类型之元组、集合和字典

目录 0.三者主要作用 1.元组 元组特点 创建元组 元组解包 可变和不可变元素元组 2.集合 集合特点 创建集合 集合元素要求 集合方法 访问与修改 子集和超集 相等性判断 集合运算 不可变集合 3.字典 字典特点 字典创建和常见操作 字典内置方法 pprin模块 0.…

k8s——Pod详解

一、Pod基础概念 1.1 Pod定义 Pod是kubernetes中最小的资源管理组件,Pod也是最小化运行容器化应用的资源对象。一个Pod代表着集群中运行的一个进程。kubernetes中其他大多数组件都是围绕着Pod来进行支撑和扩展Pod功能的,例如,用于管理Pod运行…

Java进阶学习笔记7——权限修饰符

什么是权限修饰符? 就是用来限制类中的成员(成员变量、成员方法、构造器、代码块....)能够被访问的范围。 protected使用的比较少,但是程序员还是要阅读代码,看官方文档是怎么写的,都会接触到protected修饰…

性能测试场景的设计方法

引用:根据2008年Aberdeen Group的研究报告,对于Web网站,1秒的页面加载延迟相当于少了11%的PV(page view),相当于降低了16%的顾客满意度。如果从金钱的角度计算,就意味着:如果一个网站…

「探讨」:什么是网络审计?好用的网络审计系统推荐【图文详解】

网络是企业运营、政府管理、个人生活不可或缺的基础设施。 然而网络安全问题却日益凸显,数据泄露、网络攻击、欺诈行为等风险日益严重。 一、网络审计的定义 网络审计,又称信息技术审计或电子审计,是指审计人员运用专业技能和工具&#xff…

实战之快速完成 ChatGLM3-6B 在 GPU-8G的 INT4 量化和本地部署

ChatGLM3 (ChatGLM3-6B) 项目地址 https://github.com/THUDM/ChatGLM3大模型是很吃CPU和显卡的,所以,要不有一个好的CPU,要不有一块好的显卡,显卡尽量13G,内存基本要32GB。 清华大模型分为三种(ChatGLM3-6B-Base&…

“大数据建模、分析、挖掘技术应用研修班”的通知!

随着2015年9月国务院发布了《关于印发促进大数据发展行动纲要的通知》,各类型数据呈现出了指数级增长,数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几个数量级,企业有了能够轻松访问和分析数据以提高性能的新机会&am…