文本到图像的革新：自动化Prompt优化的UF-FGTG框架

在文本到图像合成领域，已经能够由文本描述直接生成图像。然而，尽管这一技术带来了无限的可能性，它仍然面临着一个关键挑战：如何设计出能够引导模型生成高质量图像的提示（prompts）。尤其是对于初学者而言，他们可能缺乏必要的经验和对关键词的熟悉度，难以手动输入能够满足模型要求的提示，而且用户输入的提示和模型训练时使用的提示之间存在差异。这种用户输入的提示与模型偏好的提示之间存在的差异，常常导致生成的图像与预期效果有所偏差。

针对这一问题，来自复旦大学和同济大学的研究团队构建了一个新颖的粗粒度-细粒度提示数据集（Coarse-Fine Granularity Prompts dataset, CFP），并在此基础上，提出了一个用户友好的细粒度文本生成框架（User-Friendly Fine-Grained Text Generation framework, UF-FGTG），旨在自动化地优化提示，使其更贴合模型的偏好。通过这一框架不仅提高了图像的生成质量，还增加了结果的多样性，使得即使是初学者也能够轻松地生成符合个人需求的图像。

(a) 展示了在文本到图像训练数据集中的提示词长分布与新手用户提供的提示之间存在不一致性，导致模型优选的提示与新手用户提示之间的错位
(b) 展示了所提出的 UF-FGTG 不断重写提示，使用户可以根据他们的需求选择感兴趣的结果，直到满意为止

用户友好的细粒度文本生成框架

UF-FGTG框架的核心是提示细化器（Prompt Refiner），它由细粒度文本编码器（Fine-Grained Text Encoder）和文本解码器（Text Decoder）组成。这个框架的目的是将用户输入的粗粒度提示转换为模型偏好的细粒度提示。在训练过程中，框架利用与图像相关的损失函数来指导文本生成，确保生成的提示能够引导模型生成高质量的图像。为了增加生成结果的多样性，研究者们还引入了一个自适应特征提取模块（Adaptive Feature Extraction Module）。

如图2，框架的核心部分主要包含以下几个关键组件：

Prompt Refiner（提示细化器）：这是文本生成网络的核心，负责将粗粒度的提示转换为细粒度的提示。提示细化器由两个主要部分组成：细粒度文本编码器（ET）和文本解码器（DE）。
Fine-Grained Text Encoder (ET)（细粒度文本编码器）：细粒度文本编码器是提示细化器的第一部分，它的任务是将输入的粗粒度提示转换成细粒度的提示特征。这一转换过程受到细粒度文本（TF）的监督，细粒度文本是模型训练过程中用于指导和优化编码器输出的目标文本。
Text Decoder (DE)（文本解码器）：文本解码器接收来自细粒度文本编码器的特征，并将其转换回文本形式，生成最终的细粒度提示。这个解码过程同样受到细粒度文本的监督，确保生成的提示既符合模型的偏好，也具有多样性。
Stable Diffusion Model ϵθ（稳定扩散模型）：在训练过程中，稳定扩散模型用于生成与细粒度提示相对应的图像。这个模型的输出作为反馈，帮助进一步指导和优化文本编码器和解码器，以生成模型偏好的提示。
Adaptive Feature Extraction Module (N)（自适应特征提取模块）：这个模块负责从图像中提取特征，并将其与文本编码器生成的特征相结合。通过这种方式，自适应特征提取模块确保了生成的提示不仅符合模型的偏好，而且能够引导模型生成多样化的图像。
Inference Process（推理过程）：在实际应用中，即用户希望生成图像时，只需要使用提示细化器。用户输入一个粗粒度的提示，提示细化器将其转换为一个细粒度的、模型偏好的提示，然后这个提示被用于文本到图像模型来生成图像。

文本到图像扩散模型，如Stable Diffusion，由三部分组成：自动编码器、文本条件UNet去噪模型和CLIP细粒度文本编码器。自动编码器将图像转换到低维潜在空间，而文本编码器接受文本提示并生成特征表示。去噪模型则利用这些特征来生成图像。UF-FGTG框架利用这个模型的变体来生成细粒度提示。

提示细化器是UF-FGTG框架的核心组件，负责将粗粒度的提示转换为细粒度的提示。它由细粒度文本编码器、文本解码器和一个领域适配器组成。细粒度文本编码器基于CLIP模型，能够将粗粒度提示的特征转换为模型偏好的特征。领域适配器和文本解码器则将这些特征转换为人类可读的细粒度提示。

细粒度文本编码器使用CLIP模型，将输入的文本提示转换为特征表示。这个编码器不仅能够理解文本的内容，还能够通过训练过程中的图像相关损失函数，学习生成模型偏好的提示。

文本解码器使用T5模型，将细粒度文本编码器生成的特征转换为最终的文本提示。这个过程涉及到一个特征域适配器，它将CLIP文本特征映射到T5模型的特征空间。

为了确保生成的图像具有多样性，研究者们提出了自适应特征提取模块。这个模块通过动态权重网络来预测图像表示的软动态权重，从而自动学习图像特征的最合适和最相关表示。

UF-FGTG框架使用一个综合损失函数，它是不同组件损失函数的加权和。这些损失函数包括图像相关损失、文本特征转换损失和CLIP增强损失，共同优化文本生成过程。

通过这些组件和策略，UF-FGTG框架能够自动化地优化文本提示，使其更符合模型的偏好，从而提高文本到图像合成的质量和多样性。

实验

研究者们选择了NVIDIA A100 GPU来进行模型的训练和推理。他们使用了AdamW优化器，设置学习率为5e-5，并采用批量大小为16进行训练。模型的初始化采用了与Stable Diffusion-v2.1相一致的OpenCLIP，确保了模型训练的兼容性和有效性。文本编码器、领域适配器和自适应特征提取模块在CFP数据集上进行了100个epoch的训练。

在生成策略方面，研究者们采用了结合Top-p和Top-K的策略来生成细粒度提示，其中p设置为0.95，K设置为50。这样的策略有助于在生成过程中平衡多样性和相关性。图像生成阶段则使用了Stable Diffusion-v2.1模型，设置了CFG scale为7，并采用Euler Ancestral sampler进行50步的去噪处理。

定性比较实验中，研究者们展示了不同模型生成的图像结果。他们将UF-FGTG框架与GPT-2、FLAN-T5、GPT-3.5和GPT-4等传统语言模型进行了比较。结果表明，UF-FGTG能够生成视觉上更具吸引力的图像，并且能够更好地理解模型偏好的提示格式。相比之下，传统语言模型在生成图像时往往难以把握模型偏好的提示结构，导致生成的图像与原始内容有较大偏差。

由不同模型（FLAN-T5、GPT-2、GPT-3.5、GPT-4和UF-FGTG）生成的提示以及由 Stable Diffusion-v2.1 生成的相应图像

定量比较部分，研究者们使用了多个非参考图像质量评估指标，包括NIMA、MUSIQ、DB-CNN和TReS等，来评估生成图像的质量和美学。实验结果显示，UF-FGTG在所有六个评估指标上均优于其他方法，平均改进率达到了5%。这表明UF-FGTG不仅能够生成高质量的图像，还能够生成具有较高美学价值的图像。

不同方法在图像质量和美学评估中的性能。表格列出了使用不同评估指标（如NIMA-TID、MUSIQ-KonIQ等）对GPT-2、FLAN-T5、GPT-3.5、GPT-4和UF-FGTG等方法生成的图像进行评分的结果

在消融研究中，研究者们进一步探讨了不同组件和损失函数对模型性能的影响。他们发现，文本特征转换损失和自适应特征提取模块对于文本到图像任务中的文本生成至关重要。通过调整提示长度，研究者们发现过长的提示可能会导致图像质量和美学评估得分下降，这可能是由于过拟合造成的。实验结果表明，长度为6的提示能够产生最具泛化性能的结果。自适应特征提取模块的引入显著提高了生成结果的多样性，使得模型能够生成风格更加多样化的图像。