文本到图像的革新:自动化Prompt优化的UF-FGTG框架

在文本到图像合成领域,已经能够由文本描述直接生成图像。然而,尽管这一技术带来了无限的可能性,它仍然面临着一个关键挑战:如何设计出能够引导模型生成高质量图像的提示(prompts)。尤其是对于初学者而言,他们可能缺乏必要的经验和对关键词的熟悉度,难以手动输入能够满足模型要求的提示,而且用户输入的提示和模型训练时使用的提示之间存在差异。这种用户输入的提示与模型偏好的提示之间存在的差异,常常导致生成的图像与预期效果有所偏差。

针对这一问题,来自复旦大学和同济大学的研究团队构建了一个新颖的粗粒度-细粒度提示数据集(Coarse-Fine Granularity Prompts dataset, CFP),并在此基础上,提出了一个用户友好的细粒度文本生成框架(User-Friendly Fine-Grained Text Generation framework, UF-FGTG),旨在自动化地优化提示,使其更贴合模型的偏好。通过这一框架不仅提高了图像的生成质量,还增加了结果的多样性,使得即使是初学者也能够轻松地生成符合个人需求的图像。

(a) 展示了在文本到图像训练数据集中的提示词长分布与新手用户提供的提示之间存在不一致性,导致模型优选的提示与新手用户提示之间的错位
(b) 展示了所提出的 UF-FGTG 不断重写提示,使用户可以根据他们的需求选择感兴趣的结果,直到满意为止

用户友好的细粒度文本生成框架

UF-FGTG框架的核心是提示细化器(Prompt Refiner),它由细粒度文本编码器(Fine-Grained Text Encoder)和文本解码器(Text Decoder)组成。这个框架的目的是将用户输入的粗粒度提示转换为模型偏好的细粒度提示。在训练过程中,框架利用与图像相关的损失函数来指导文本生成,确保生成的提示能够引导模型生成高质量的图像。为了增加生成结果的多样性,研究者们还引入了一个自适应特征提取模块(Adaptive Feature Extraction Module)。

用户友好的细粒度文本生成框架(UF-FGTG)的架构

如图2,框架的核心部分主要包含以下几个关键组件:

  1. Prompt Refiner(提示细化器):这是文本生成网络的核心,负责将粗粒度的提示转换为细粒度的提示。提示细化器由两个主要部分组成:细粒度文本编码器(ET)和文本解码器(DE)。

  2. Fine-Grained Text Encoder (ET)(细粒度文本编码器):细粒度文本编码器是提示细化器的第一部分,它的任务是将输入的粗粒度提示转换成细粒度的提示特征。这一转换过程受到细粒度文本(TF)的监督,细粒度文本是模型训练过程中用于指导和优化编码器输出的目标文本。

  3. Text Decoder (DE)(文本解码器):文本解码器接收来自细粒度文本编码器的特征,并将其转换回文本形式,生成最终的细粒度提示。这个解码过程同样受到细粒度文本的监督,确保生成的提示既符合模型的偏好,也具有多样性。

  4. Stable Diffusion Model ϵθ(稳定扩散模型):在训练过程中,稳定扩散模型用于生成与细粒度提示相对应的图像。这个模型的输出作为反馈,帮助进一步指导和优化文本编码器和解码器,以生成模型偏好的提示。

  5. Adaptive Feature Extraction Module (N)(自适应特征提取模块):这个模块负责从图像中提取特征,并将其与文本编码器生成的特征相结合。通过这种方式,自适应特征提取模块确保了生成的提示不仅符合模型的偏好,而且能够引导模型生成多样化的图像。

  6. Inference Process(推理过程):在实际应用中,即用户希望生成图像时,只需要使用提示细化器。用户输入一个粗粒度的提示,提示细化器将其转换为一个细粒度的、模型偏好的提示,然后这个提示被用于文本到图像模型来生成图像。

文本到图像扩散模型,如Stable Diffusion,由三部分组成:自动编码器、文本条件UNet去噪模型和CLIP细粒度文本编码器。自动编码器将图像转换到低维潜在空间,而文本编码器接受文本提示并生成特征表示。去噪模型则利用这些特征来生成图像。UF-FGTG框架利用这个模型的变体来生成细粒度提示。

提示细化器是UF-FGTG框架的核心组件,负责将粗粒度的提示转换为细粒度的提示。它由细粒度文本编码器、文本解码器和一个领域适配器组成。细粒度文本编码器基于CLIP模型,能够将粗粒度提示的特征转换为模型偏好的特征。领域适配器和文本解码器则将这些特征转换为人类可读的细粒度提示。

细粒度文本编码器使用CLIP模型,将输入的文本提示转换为特征表示。这个编码器不仅能够理解文本的内容,还能够通过训练过程中的图像相关损失函数,学习生成模型偏好的提示。

文本解码器使用T5模型,将细粒度文本编码器生成的特征转换为最终的文本提示。这个过程涉及到一个特征域适配器,它将CLIP文本特征映射到T5模型的特征空间。

为了确保生成的图像具有多样性,研究者们提出了自适应特征提取模块。这个模块通过动态权重网络来预测图像表示的软动态权重,从而自动学习图像特征的最合适和最相关表示。

UF-FGTG框架使用一个综合损失函数,它是不同组件损失函数的加权和。这些损失函数包括图像相关损失、文本特征转换损失和CLIP增强损失,共同优化文本生成过程。

通过这些组件和策略,UF-FGTG框架能够自动化地优化文本提示,使其更符合模型的偏好,从而提高文本到图像合成的质量和多样性。

实验

研究者们选择了NVIDIA A100 GPU来进行模型的训练和推理。他们使用了AdamW优化器,设置学习率为5e-5,并采用批量大小为16进行训练。模型的初始化采用了与Stable Diffusion-v2.1相一致的OpenCLIP,确保了模型训练的兼容性和有效性。文本编码器、领域适配器和自适应特征提取模块在CFP数据集上进行了100个epoch的训练。

在生成策略方面,研究者们采用了结合Top-p和Top-K的策略来生成细粒度提示,其中p设置为0.95,K设置为50。这样的策略有助于在生成过程中平衡多样性和相关性。图像生成阶段则使用了Stable Diffusion-v2.1模型,设置了CFG scale为7,并采用Euler Ancestral sampler进行50步的去噪处理。

定性比较实验中,研究者们展示了不同模型生成的图像结果。他们将UF-FGTG框架与GPT-2、FLAN-T5、GPT-3.5和GPT-4等传统语言模型进行了比较。结果表明,UF-FGTG能够生成视觉上更具吸引力的图像,并且能够更好地理解模型偏好的提示格式。相比之下,传统语言模型在生成图像时往往难以把握模型偏好的提示结构,导致生成的图像与原始内容有较大偏差。

由不同模型(FLAN-T5、GPT-2、GPT-3.5、GPT-4和UF-FGTG)生成的提示以及由 Stable Diffusion-v2.1 生成的相应图像

定量比较部分,研究者们使用了多个非参考图像质量评估指标,包括NIMA、MUSIQ、DB-CNN和TReS等,来评估生成图像的质量和美学。实验结果显示,UF-FGTG在所有六个评估指标上均优于其他方法,平均改进率达到了5%。这表明UF-FGTG不仅能够生成高质量的图像,还能够生成具有较高美学价值的图像。

不同方法在图像质量和美学评估中的性能。表格列出了使用不同评估指标(如NIMA-TID、MUSIQ-KonIQ等)对GPT-2、FLAN-T5、GPT-3.5、GPT-4和UF-FGTG等方法生成的图像进行评分的结果

在消融研究中,研究者们进一步探讨了不同组件和损失函数对模型性能的影响。他们发现,文本特征转换损失和自适应特征提取模块对于文本到图像任务中的文本生成至关重要。通过调整提示长度,研究者们发现过长的提示可能会导致图像质量和美学评估得分下降,这可能是由于过拟合造成的。实验结果表明,长度为6的提示能够产生最具泛化性能的结果。自适应特征提取模块的引入显著提高了生成结果的多样性,使得模型能够生成风格更加多样化的图像。

在 UF-FGTG 框架中,文本到图像模型(Lmse)和自适应特征提取模块(Lclip)的影响。通过改变配置,研究了不同损失函数对模型性能的影响
自适应特征提取模块如何增加生成结果的多样性。没有这个模块时,模型倾向于以单一风格生成结果;而有了这个模块,模型能够生成多样化的结果

应用

研究者们探讨了UF-FGTG框架在实际应用中的潜力和灵活性。他们提出了两种推荐的文本生成推理策略,这些策略独立于模型的训练阶段,并且能够与原始的Stable Diffusion模型无缝协作进行图像生成。

第一种策略是模型同时生成三个结果,每个结果基于前一个提示进一步扩展六个token,这个过程会迭代进行,直到用户对生成的图像感到满意为止。这种方法允许用户从多个变体中选择最符合他们需求的图像。

第二种策略是模型生成更全面的提示,将最大token数设置为20或50。这种方法的目标是生成更为详细和丰富的提示,以期引导Stable Diffusion模型产生更高质量的图像。

研究者们还展示了UF-FGTG框架作为一个即插即用模块在Stable Diffusion中的应用。他们训练了一个能够将粗粒度提示映射到细粒度提示特征空间的细粒度文本编码器。这使得该编码器能够完全替代原始Stable Diffusion模型中仅用于编码的文本编码器。

通过这种方式,即使是输入提示扩展到一定长度,模型也能够生成如“4k分辨率”、“高度详细”和“最佳质量”等提示,虽然这些提示在语义上不够明确,但它们能够提高生成图像的质量。这表明UF-FGTG框架能够将用户输入的任何提示一致地投影到与细粒度提示对齐的特征空间中,从而提升图像生成的整体质量。

UF-FGTG框架可以作为文本到图像合成任务中的一个独立模块,也可以轻松集成到现有的文本到图像生成模型中,为用户提供了一个强大的工具,以实现更高效和个性化的图像生成。

论文链接:https://arxiv.org/abs/2402.12760

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/43181.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ROS中Cjson文件的作用】

在ROS (Robot Operating System) 中,.json 文件通常用于存储配置信息、数据序列化或者在某些情况下用于网络通信和数据交换。JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于…

数字身份管理发展趋势:​​​​​​扩展身份安全能力

身份作为企业各个应用的入口,大量存在于企业的内部业务和外部业务中,身份作为最核心数据对于企业的重要性不言而喻,因此也往往成为攻击者的攻击目标,从2023年国资国企受攻击的情况也不难看出,针对身份的攻击累计超过37…

白嫖A100活动来啦,书生·浦语大模型全链路开源体系

扫码参加即可获得: 第一节 书生浦语大模型全链路开源体系 书生浦语大模型的开源历程。 从模型到应用的典型流程 书生浦语的开源体系,包含从数据、预训练、微调、部署、评测、应用等环节

CC4利用链分析

我的Github主页Java反序列化学习同步更新,有简单的利用链图 分析版本 Commons Collections 4.0 JDK 8u65 环境配置参考JAVA安全初探(三):CC1链全分析 分析过程 在Commons Collections 4.0中,TransformingComparator类变为可序列化类,增…

Java学习高级二

Java是单继承的 Object类 方法重写 Java子类访问 – 就近原则 子类构造器的特点 多态 Java–final

机器学习之模型训练

前言 模型训练一般分为四个步骤: 构建数据集。定义神经网络模型。定义超参、损失函数及优化器。输入数据集进行训练与评估。 有了数据集和模型后,可以进行模型的训练与评估。 构建数据集 定义神经网络模型 class Network(nn.Cell):def __init__(sel…

AtCoder Beginner Contest 360

A - A Healthy Breakfast 枚举一下&#xff0c;只要R在M之前就行了 #include <iostream>using namespace std;int main() {char a,b,c;cin >> a >> b >> c;if((a R && (b M || c M)) || (b R && c M)){cout << "Yes…

【trition-server】运行一个pytorch的ngc镜像

ngc 提供了pytorch容器 号称是做了gpu加速的 我装的系统版本是3.8的python,但是pytorch似乎是用conda安装的3.5的: torch的python库是ls支持gpu加速是真的 英伟达的pytorch的说明书 root@a79bc3874b9d:/opt/pytorch# cat NVREADME.md PyTorch ======= PyTorch is a python …

顶会FAST24最佳论文|阿里云块存储架构演进的得与失-1.引言

今年早些时候&#xff0c;2月份举办的全球计算机存储顶会USENIX FAST 2024&#xff0c;最佳论文来自阿里云&#xff0c;论文名称《What’s the Story in EBS Glory: Evolutions and Lessons in Building Cloud Block Store》 &#xff0c;论文详尽地探讨了阿里云在过去十年中开…

HTML(28)——空间转换

空间&#xff1a;是从坐标轴角度定义的XYZ三条坐标轴构成了一个立体空间 Z轴位置与视线方向相同 空间转换 平移 属性&#xff1a; transform: translate3d(x,y,z);transform: translateX();transform: translateY();transform: translateZ(); 取值&#xff1a;像素单位数值…

国内教育科技公司自研大语言模型

好未来的数学大模型九章大模型&#xff08;MathGPT&#xff09; 2023年8月下旬&#xff0c;在好未来20周年直播活动中&#xff0c;好未来公司CTO田密宣布好未来自研的数学领域千亿级大模型MathGPT正式上线并开启公测。根据九章大模型的官网介绍&#xff0c;九章大模型&#xff…

强化学习编程实战-2马尔可夫决策过程

2.1 从多臂赌博机到马尔可夫决策过程 如图2-1&#xff0c;图中A为多臂赌博机&#xff0c;B为一堆鸳鸯&#xff0c;其中左上角为雄性鸳鸯&#xff0c;右上角为雌性鸳鸯&#xff0c;B展示的任务是雄性鸳鸯绕过障碍物找到词性鸳鸯。跟多臂赌博机不同的是&#xff0c;雄性鸳鸯经过一…

019-GeoGebra中级篇-GeoGebra的坐标系

GeoGebra作为一款强大的数学软件&#xff0c;支持多种坐标系的使用&#xff0c;包括但不限于&#xff1a;笛卡尔坐标系&#xff08;Cartesian Coordinate System&#xff09;、极坐标系&#xff08;Polar Coordinate System&#xff09;、参数坐标系&#xff08;Parametric Coo…

虚拟机使用

1、安装 如何安装虚拟机&#xff1f;保姆级安装教程&#xff01; - 知乎 (zhihu.com) 2、使用 2.1 快照 作用&#xff1a;保留当前系统信息为快照&#xff0c;随时可以恢复&#xff0c;以防未来系统被你玩坏&#xff0c;就好比游戏中的归档&#xff01;每配置好一个就可以保…

Linux dig命令常见用法

Linux dig命令常见用法 一、dig安装二、dig用法 DIG命令(Domain Information Groper命令)是常用的域名查询工具&#xff0c;通过此命令&#xff0c;你可以实现域名查询和域名问题的定位&#xff0c;对于网络管理员和在域名系统(DNS)领域工作的小伙伴来说&#xff0c;它是一个非…

昇思MindSpore学习笔记6-01LLM原理和实践--FCN图像语义分割

摘要&#xff1a; 记录MindSpore AI框架使用FCN全卷积网络理解图像进行图像语议分割的过程、步骤和方法。包括环境准备、下载数据集、数据集加载和预处理、构建网络、训练准备、模型训练、模型评估、模型推理等。 一、概念 1.语义分割 图像语义分割 semantic segmentation …

【计算机毕业设计】018基于weixin小程序实习记录

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

【Java系列】深入解析 Lambda表达式

简化这个代码 这个就是Lambda表达式,可以简化匿名内部类的写法 package lambda;public class demo2 {public static void main(String[] args) {//第二个参数是一个接口,所以我们在调用方法的时候,需要传递这个接口的实现类对象--接口多态// 但是这个实现类,我只要用一次,所以我…

@Builder注解详解:巧妙避开常见的陷阱

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 &#x1f38f;&#xff1a;你只管努力&#xff0c;剩下的交给时间 &#x1f3e0; &#xff1a;小破站 Builder注解详解&#xff1a;巧妙避开常见的陷阱 前言1. Builder的基本使用使用示例示例类创建对…

极客时间:使用Autogen Builder和本地LLM(Microsoft Phi3模型)在Mac上创建本地AI代理

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…