文本到图像的革新:自动化Prompt优化的UF-FGTG框架

在文本到图像合成领域,已经能够由文本描述直接生成图像。然而,尽管这一技术带来了无限的可能性,它仍然面临着一个关键挑战:如何设计出能够引导模型生成高质量图像的提示(prompts)。尤其是对于初学者而言,他们可能缺乏必要的经验和对关键词的熟悉度,难以手动输入能够满足模型要求的提示,而且用户输入的提示和模型训练时使用的提示之间存在差异。这种用户输入的提示与模型偏好的提示之间存在的差异,常常导致生成的图像与预期效果有所偏差。

针对这一问题,来自复旦大学和同济大学的研究团队构建了一个新颖的粗粒度-细粒度提示数据集(Coarse-Fine Granularity Prompts dataset, CFP),并在此基础上,提出了一个用户友好的细粒度文本生成框架(User-Friendly Fine-Grained Text Generation framework, UF-FGTG),旨在自动化地优化提示,使其更贴合模型的偏好。通过这一框架不仅提高了图像的生成质量,还增加了结果的多样性,使得即使是初学者也能够轻松地生成符合个人需求的图像。

(a) 展示了在文本到图像训练数据集中的提示词长分布与新手用户提供的提示之间存在不一致性,导致模型优选的提示与新手用户提示之间的错位
(b) 展示了所提出的 UF-FGTG 不断重写提示,使用户可以根据他们的需求选择感兴趣的结果,直到满意为止

用户友好的细粒度文本生成框架

UF-FGTG框架的核心是提示细化器(Prompt Refiner),它由细粒度文本编码器(Fine-Grained Text Encoder)和文本解码器(Text Decoder)组成。这个框架的目的是将用户输入的粗粒度提示转换为模型偏好的细粒度提示。在训练过程中,框架利用与图像相关的损失函数来指导文本生成,确保生成的提示能够引导模型生成高质量的图像。为了增加生成结果的多样性,研究者们还引入了一个自适应特征提取模块(Adaptive Feature Extraction Module)。

用户友好的细粒度文本生成框架(UF-FGTG)的架构

如图2,框架的核心部分主要包含以下几个关键组件:

  1. Prompt Refiner(提示细化器):这是文本生成网络的核心,负责将粗粒度的提示转换为细粒度的提示。提示细化器由两个主要部分组成:细粒度文本编码器(ET)和文本解码器(DE)。

  2. Fine-Grained Text Encoder (ET)(细粒度文本编码器):细粒度文本编码器是提示细化器的第一部分,它的任务是将输入的粗粒度提示转换成细粒度的提示特征。这一转换过程受到细粒度文本(TF)的监督,细粒度文本是模型训练过程中用于指导和优化编码器输出的目标文本。

  3. Text Decoder (DE)(文本解码器):文本解码器接收来自细粒度文本编码器的特征,并将其转换回文本形式,生成最终的细粒度提示。这个解码过程同样受到细粒度文本的监督,确保生成的提示既符合模型的偏好,也具有多样性。

  4. Stable Diffusion Model ϵθ(稳定扩散模型):在训练过程中,稳定扩散模型用于生成与细粒度提示相对应的图像。这个模型的输出作为反馈,帮助进一步指导和优化文本编码器和解码器,以生成模型偏好的提示。

  5. Adaptive Feature Extraction Module (N)(自适应特征提取模块):这个模块负责从图像中提取特征,并将其与文本编码器生成的特征相结合。通过这种方式,自适应特征提取模块确保了生成的提示不仅符合模型的偏好,而且能够引导模型生成多样化的图像。

  6. Inference Process(推理过程):在实际应用中,即用户希望生成图像时,只需要使用提示细化器。用户输入一个粗粒度的提示,提示细化器将其转换为一个细粒度的、模型偏好的提示,然后这个提示被用于文本到图像模型来生成图像。

文本到图像扩散模型,如Stable Diffusion,由三部分组成:自动编码器、文本条件UNet去噪模型和CLIP细粒度文本编码器。自动编码器将图像转换到低维潜在空间,而文本编码器接受文本提示并生成特征表示。去噪模型则利用这些特征来生成图像。UF-FGTG框架利用这个模型的变体来生成细粒度提示。

提示细化器是UF-FGTG框架的核心组件,负责将粗粒度的提示转换为细粒度的提示。它由细粒度文本编码器、文本解码器和一个领域适配器组成。细粒度文本编码器基于CLIP模型,能够将粗粒度提示的特征转换为模型偏好的特征。领域适配器和文本解码器则将这些特征转换为人类可读的细粒度提示。

细粒度文本编码器使用CLIP模型,将输入的文本提示转换为特征表示。这个编码器不仅能够理解文本的内容,还能够通过训练过程中的图像相关损失函数,学习生成模型偏好的提示。

文本解码器使用T5模型,将细粒度文本编码器生成的特征转换为最终的文本提示。这个过程涉及到一个特征域适配器,它将CLIP文本特征映射到T5模型的特征空间。

为了确保生成的图像具有多样性,研究者们提出了自适应特征提取模块。这个模块通过动态权重网络来预测图像表示的软动态权重,从而自动学习图像特征的最合适和最相关表示。

UF-FGTG框架使用一个综合损失函数,它是不同组件损失函数的加权和。这些损失函数包括图像相关损失、文本特征转换损失和CLIP增强损失,共同优化文本生成过程。

通过这些组件和策略,UF-FGTG框架能够自动化地优化文本提示,使其更符合模型的偏好,从而提高文本到图像合成的质量和多样性。

实验

研究者们选择了NVIDIA A100 GPU来进行模型的训练和推理。他们使用了AdamW优化器,设置学习率为5e-5,并采用批量大小为16进行训练。模型的初始化采用了与Stable Diffusion-v2.1相一致的OpenCLIP,确保了模型训练的兼容性和有效性。文本编码器、领域适配器和自适应特征提取模块在CFP数据集上进行了100个epoch的训练。

在生成策略方面,研究者们采用了结合Top-p和Top-K的策略来生成细粒度提示,其中p设置为0.95,K设置为50。这样的策略有助于在生成过程中平衡多样性和相关性。图像生成阶段则使用了Stable Diffusion-v2.1模型,设置了CFG scale为7,并采用Euler Ancestral sampler进行50步的去噪处理。

定性比较实验中,研究者们展示了不同模型生成的图像结果。他们将UF-FGTG框架与GPT-2、FLAN-T5、GPT-3.5和GPT-4等传统语言模型进行了比较。结果表明,UF-FGTG能够生成视觉上更具吸引力的图像,并且能够更好地理解模型偏好的提示格式。相比之下,传统语言模型在生成图像时往往难以把握模型偏好的提示结构,导致生成的图像与原始内容有较大偏差。

由不同模型(FLAN-T5、GPT-2、GPT-3.5、GPT-4和UF-FGTG)生成的提示以及由 Stable Diffusion-v2.1 生成的相应图像

定量比较部分,研究者们使用了多个非参考图像质量评估指标,包括NIMA、MUSIQ、DB-CNN和TReS等,来评估生成图像的质量和美学。实验结果显示,UF-FGTG在所有六个评估指标上均优于其他方法,平均改进率达到了5%。这表明UF-FGTG不仅能够生成高质量的图像,还能够生成具有较高美学价值的图像。

不同方法在图像质量和美学评估中的性能。表格列出了使用不同评估指标(如NIMA-TID、MUSIQ-KonIQ等)对GPT-2、FLAN-T5、GPT-3.5、GPT-4和UF-FGTG等方法生成的图像进行评分的结果

在消融研究中,研究者们进一步探讨了不同组件和损失函数对模型性能的影响。他们发现,文本特征转换损失和自适应特征提取模块对于文本到图像任务中的文本生成至关重要。通过调整提示长度,研究者们发现过长的提示可能会导致图像质量和美学评估得分下降,这可能是由于过拟合造成的。实验结果表明,长度为6的提示能够产生最具泛化性能的结果。自适应特征提取模块的引入显著提高了生成结果的多样性,使得模型能够生成风格更加多样化的图像。

在 UF-FGTG 框架中,文本到图像模型(Lmse)和自适应特征提取模块(Lclip)的影响。通过改变配置,研究了不同损失函数对模型性能的影响
自适应特征提取模块如何增加生成结果的多样性。没有这个模块时,模型倾向于以单一风格生成结果;而有了这个模块,模型能够生成多样化的结果

应用

研究者们探讨了UF-FGTG框架在实际应用中的潜力和灵活性。他们提出了两种推荐的文本生成推理策略,这些策略独立于模型的训练阶段,并且能够与原始的Stable Diffusion模型无缝协作进行图像生成。

第一种策略是模型同时生成三个结果,每个结果基于前一个提示进一步扩展六个token,这个过程会迭代进行,直到用户对生成的图像感到满意为止。这种方法允许用户从多个变体中选择最符合他们需求的图像。

第二种策略是模型生成更全面的提示,将最大token数设置为20或50。这种方法的目标是生成更为详细和丰富的提示,以期引导Stable Diffusion模型产生更高质量的图像。

研究者们还展示了UF-FGTG框架作为一个即插即用模块在Stable Diffusion中的应用。他们训练了一个能够将粗粒度提示映射到细粒度提示特征空间的细粒度文本编码器。这使得该编码器能够完全替代原始Stable Diffusion模型中仅用于编码的文本编码器。

通过这种方式,即使是输入提示扩展到一定长度,模型也能够生成如“4k分辨率”、“高度详细”和“最佳质量”等提示,虽然这些提示在语义上不够明确,但它们能够提高生成图像的质量。这表明UF-FGTG框架能够将用户输入的任何提示一致地投影到与细粒度提示对齐的特征空间中,从而提升图像生成的整体质量。

UF-FGTG框架可以作为文本到图像合成任务中的一个独立模块,也可以轻松集成到现有的文本到图像生成模型中,为用户提供了一个强大的工具,以实现更高效和个性化的图像生成。

论文链接:https://arxiv.org/abs/2402.12760

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/43181.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试数据岗必知必会——元数据与开窗函数

1. 元数据 元数据(Metadata)是指用来描述其他数据的数据,即“data about data”。它是关于数据的组织、数据域及其关系的信息,旨在提供对数据的理解和管理所需的关键背景和上下文。元数据可以帮助人们了解数据的来源、创建时间、…

【ROS中Cjson文件的作用】

在ROS (Robot Operating System) 中,.json 文件通常用于存储配置信息、数据序列化或者在某些情况下用于网络通信和数据交换。JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于…

数字身份管理发展趋势:​​​​​​扩展身份安全能力

身份作为企业各个应用的入口,大量存在于企业的内部业务和外部业务中,身份作为最核心数据对于企业的重要性不言而喻,因此也往往成为攻击者的攻击目标,从2023年国资国企受攻击的情况也不难看出,针对身份的攻击累计超过37…

【代码随想录_Day27】509 斐波那契数 70 爬楼梯 746 使用最小花费爬楼梯

Day27 OK,今日份的打卡!第二十七天 以下是今日份的总结斐波那契数爬楼梯使用最小花费爬楼梯 以下是今日份的总结 509 斐波那契数 70 爬楼梯 746 使用最小花费爬楼梯 今天的题目难度不高,掌握技巧了就会很简单,尽量还是写一些简洁…

白嫖A100活动来啦,书生·浦语大模型全链路开源体系

扫码参加即可获得: 第一节 书生浦语大模型全链路开源体系 书生浦语大模型的开源历程。 从模型到应用的典型流程 书生浦语的开源体系,包含从数据、预训练、微调、部署、评测、应用等环节

CC4利用链分析

我的Github主页Java反序列化学习同步更新,有简单的利用链图 分析版本 Commons Collections 4.0 JDK 8u65 环境配置参考JAVA安全初探(三):CC1链全分析 分析过程 在Commons Collections 4.0中,TransformingComparator类变为可序列化类,增…

Java学习高级二

Java是单继承的 Object类 方法重写 Java子类访问 – 就近原则 子类构造器的特点 多态 Java–final

机器学习之模型训练

前言 模型训练一般分为四个步骤: 构建数据集。定义神经网络模型。定义超参、损失函数及优化器。输入数据集进行训练与评估。 有了数据集和模型后,可以进行模型的训练与评估。 构建数据集 定义神经网络模型 class Network(nn.Cell):def __init__(sel…

WPF更新UI线程实现进度条功能

WPF更新UI线程实现进度条功能 我的写法 <Page x:Class"CableInspectionScreen.ConfigPage"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"xmlns:mc"http:/…

AtCoder Beginner Contest 360

A - A Healthy Breakfast 枚举一下&#xff0c;只要R在M之前就行了 #include <iostream>using namespace std;int main() {char a,b,c;cin >> a >> b >> c;if((a R && (b M || c M)) || (b R && c M)){cout << "Yes…

OpenSNN推文:个人博客站点文章汇总:大模索型时代,ESM-AA,Victoria Metrics

产学研专家共论道&#xff01;探大模索型时代数据要素流通突围之道&#xff0c;「隐语城市行开源两周年特别活动」报名开启 2024年7月3日 segmentfault思否 简介&#xff1a;随着 “数据二十条”等引导或规范数据要素流通的政策文件落地&#xff0c;包含隐私计算、AI 大模型…

论文阅读:A Survey on Evaluation of Large Language Models

A Survey on Evaluation of Large Language Models 这篇论文是由Yupeng Chang等人撰写的关于大型语言模型&#xff08;LLMs&#xff09;评估的综述&#xff0c;题为《A Survey on Evaluation of Large Language Models》。 摘要 大型语言模型&#xff08;LLMs&#xff09;在…

【trition-server】运行一个pytorch的ngc镜像

ngc 提供了pytorch容器 号称是做了gpu加速的 我装的系统版本是3.8的python,但是pytorch似乎是用conda安装的3.5的: torch的python库是ls支持gpu加速是真的 英伟达的pytorch的说明书 root@a79bc3874b9d:/opt/pytorch# cat NVREADME.md PyTorch ======= PyTorch is a python …

为什么gpt模型输入的token最大数量被限制在几万,是有技术问题吗?

既是技术问题&#xff0c;也是算力问题。 算力问题很容易理解&#xff0c;GPT4大概率还是用Transformer模型。Transformer如果经过各种Linear技术的优化&#xff08;如Sparse&#xff09;&#xff0c;那么Scaling Law难以保证&#xff1b;如果保持原样&#xff0c;那么复杂度是…

深入理解Java中的Lambda表达式与函数式接口

深入理解Java中的Lambda表达式与函数式接口 大家好&#xff0c;我是微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 1. Lambda表达式的基础 Lambda表达式是Java 8引入的一个重要特性&#xff0c;它使得Java的函数式编程更…

vivado DIFF_TERM_ADV

DIFF_TERM_ADV 高级差分终止&#xff08;DIFF_TERM_ADV&#xff09;属性用于 UltraScale体系结构&#xff0c;用于启用或禁用内置的100Ω差分 用于输入或双向端口的端接。DIFF_TERM_ADV表示差 应在差分输入和双向端口缓冲器上使用终止方法&#xff0c;以及 Vivado Design Suite…

嵌入式C语言面试相关知识——CPU、进程和线程相关(相关问题很多,会经常过来更新)

嵌入式C语言面试相关知识——CPU、进程和线程相关 一、博客声明二、自问题目——CPU相关1、什么是中断&#xff1f;如何处理中断&#xff1f;2、解释上下文切换(Context Switch)&#xff1f;3、在嵌入式中如何优化CPU使用&#xff1f; 三、自问题目——进程相关1、什么是进程&a…

顶会FAST24最佳论文|阿里云块存储架构演进的得与失-1.引言

今年早些时候&#xff0c;2月份举办的全球计算机存储顶会USENIX FAST 2024&#xff0c;最佳论文来自阿里云&#xff0c;论文名称《What’s the Story in EBS Glory: Evolutions and Lessons in Building Cloud Block Store》 &#xff0c;论文详尽地探讨了阿里云在过去十年中开…

EtherCAT主站IGH-- 10 -- IGH之ethernet.h/c文件解析

EtherCAT主站IGH-- 10 -- IGH之ethernet.h/c文件解析 0 预览一 该文件功能`eoe.c` 文件功能函数预览二 函数功能介绍1. `ec_eoe_init`2. `ec_eoe_clear`3. `ec_eoe_send`4. `ec_eoe_run`5. `ec_eoe_queue`6. `ec_eoe_is_open`7. `ec_eoe_is_idle`8. `ec_eoe_name`示例用法示例详…

HTML(28)——空间转换

空间&#xff1a;是从坐标轴角度定义的XYZ三条坐标轴构成了一个立体空间 Z轴位置与视线方向相同 空间转换 平移 属性&#xff1a; transform: translate3d(x,y,z);transform: translateX();transform: translateY();transform: translateZ(); 取值&#xff1a;像素单位数值…