个性化文本到图像生成模型在用户控制生成过程方面取得了重要进展。这些模型能够通过少量训练样本学习并合成包含新颖个性化概念的图像,例如用户的宠物或特定物品。然而,现有技术在处理多概念个性化时存在局限性,尤其是在生成包含多个相似概念的复杂场景时。来自加州大学戴维斯分校的研究团队及其合作者提出了Gen4Gen,一个半自动化的数据集创建管道,它利用生成模型将个性化概念组合成具有复杂构成的真实场景,并配以详细的文本描述,形成了MyCanvas数据集。这一数据集在不修改模型架构或训练算法的情况下,显著提高了多概念个性化性能。
方法
研究者首先提出了三个关键原则以确保MyCanvas数据集的质量和有效性:
- 详细文本描述和图像配对:文本必须与相应图像良好对齐,为前景和背景对象提供信息。
- 合理的对象布局和背景生成:确保对象在图像中的共存和位置在现实生活中是可能的,并且布局合理。
- 高分辨率:确保数据集能够满足生成高质量多概念个性化图像的最终目标。
创建MyCanvas数据集主要分三个阶段。整个Gen4Gen管道的设计旨在通过自动化和半自动化的方法,高效地生成具有高度个性化和现实感的图像及其配套文本描述。
Figure 2 展示了 Gen4Gen 管道的概览,该管道是创建 MyCanvas 数据集的核心过程。这一过程分为三个主要阶段,利用了图像前景提取、大型语言模型(LLMs)、多模态大型语言模型(MLLMs)以及图像修复技术,以生成真实、个性化的图像及其配套的文本描述。
第一阶段:对象关联与前景分割 (1)
-
在这一阶段,首先从包含多个概念的源图像中,使用类别无关的显著性对象检测器来分割前景对象。这里的“类别无关”意味着检测器不依赖于特定类别的先验知识,能够处理各种不同的对象。
-
给定一组对象组合 O′,检测器将每个对象的前景分割出来,形成前景图像 D(X′) 及其对应的掩码 M(D(X′))。
第二阶段:LLM 引导的对象组合 (2)
- 接下来,研究者利用大型语言模型(LLM)的零样本学习能力,请求模型提供给定对象集合O′ 的可能边界框组合。
- 根据 LLM 提供的边界框,将分割出的前景对象放置在适当的位置,形成复合的前景图像 及其掩码。
- 同时,LLM 还被用来生成一组背景提示,描述O′ 可能存在的潜在场景,这有助于后续阶段的背景重绘。
第三阶段:背景重绘与图像重新描述 (3)
- 在最后阶段,使用扩散修复模型将复合前景图像 嵌入从互联网上获取的背景图像 中,生成最终的图像 。
- 为了提高文本描述的多样性同时保持与图像的对齐,研究者使用多模态大型语言模型(MLLM,例如 LLaVA)为的一部分组合提供详细的描述。
- 这一步骤不仅增加了描述的丰富性,而且通过限制单词数量(以适应 CLIP 的上下文限制)来确保文本与图像紧密对应。
MyCanvas 数据集收集了150个对象,并创建了41种可能的组合,生成了超过10K图像,并手动筛选至2684张最佳质量图像。
为了进一步提升模型在训练阶段的性能和图像生成的准确性,研究者采取了一系列创新的文本提示策略。他们引入了“全局组合标记”,这一策略使得模型能够更好地理解和描述复杂的场景布局,从而增强了对整体图像结构的把控能力。
为了确保图像中包含所有指定的概念,并且在生成过程中不遗漏任何细节,研究者实施了“重复概念标记提示”的方法,这有助于模型更加准确地捕捉和再现每个概念。最后通过“合并背景提示”,研究者优化了模型对前景对象和背景的区分能力,鼓励模型专注于学习对象的身份特征,同时避免对象特征与背景特征在特征空间中发生混淆,这些策略共同提升了模型对多概念个性化图像生成任务的泛化和特化能力。
为了全面评估多概念个性化图像生成任务的性能,研究者提出了两个创新的度量标准:CP-CLIP(Composition-Personalization-CLIP)分数和TI-CLIP(Text-Image alignment CLIP)分数。CP-CLIP分数专注于评估图像生成在组合和个性化方面的准确性,它通过检查文本中提及的每个个性化概念是否都能在生成的图像中得到准确反映,并且这些概念的视觉表现是否与其原始对象保持一致性。
这种度量方式确保了生成图像不仅在视觉上忠实于源数据,而且在概念层面上也与文本描述相匹配。而TI-CLIP分数则作为评估模型泛化能力的一种手段,通过比较生成图像与用于生成它的文本提示之间的一致性,来检测模型是否对训练数据出现过拟合。一个理想的个性化图像生成模型应该在提高CP-CLIP分数的同时,保持TI-CLIP分数的稳定,这表明模型在生成高质量图像的同时,还能够适应不同的文本描述,展现出良好的泛化能力。这两个度量标准的提出,为多概念个性化图像生成的研究提供了更为精确和全面的评价工具。
实验
基线:研究者首先使用Custom Diffusion模型作为基线,这是一个可复现的代码基础,用于与先前的方法进行广泛比较。
实现细节:对于每种组合,研究者训练了上述方法的模型(训练细节在附录中)。评估时,他们选择了每个组合的最佳检查点。使用与训练期间不同的、独特的提示,以更好地分析每个模型的泛化能力。
表1所示,研究者通过量化的方法来评估Gen4Gen管道和MyCanvas数据集对于提升多概念个性化图像生成性能的具体影响。他们使用了一系列预定义的文本提示来生成图像,并通过比较不同实验设置下生成的246张图像的性能,来展示MyCanvas数据集的优越性。实验结果表明,与仅使用原始源图像的Custom Diffusion相比,结合MyCanvas数据集的方法在CP-CLIP分数上实现了显著提升,这表明了在图像生成中个性化概念的准确性和完整性得到了增强。同时,TI-CLIP分数的稳定性验证了性能提升并非由过拟合所致,从而证明了MyCanvas数据集在提高多概念个性化生成任务中的有效性和泛化能力。
图5中,四组结果根据组合难度递增排序,每组展示了在不同训练策略下的图像生成效果。使用Custom Diffusion模型结合原始源图像的结果作为基线,展示了模型在没有额外数据集支持时的生成能力。当引入MyCanvas数据集后,模型在区分潜在空间中相似对象(如猫和狮子,两种拖拉机)方面表现出显著的改进。进一步应用提示策略后,模型在生成过程中对文本描述的遵循程度更高,确保了所有概念都被准确反映在图像中,即使在涉及多个概念的复杂场景中也是如此。这些定性结果突出了MyCanvas数据集和提示策略在提升图像生成质量和与文本描述一致性方面的重要作用。
为了深入理解Gen4Gen管道生成图像的质量,并探究训练数据规模与模型性能之间的关系,研究者开展了一系列消融实验:
MyCanvas生成质量评估:开发了一个过滤工具来评估Gen4Gen管道生成的800张图像的质量。基于包含个性化概念、它们的正确放置和排除视觉伪影的标准,对每个图像进行评分。
训练数据大小与概念数量:提供了一个分析,展示了使用1到100张图像进行训练时的性能。当训练涉及4个以上概念时,稳定表现需要10到50张图像。
得分分布:表2显示了质量评估的得分分布。只有被评为4/5的图像被添加到MyCanvas数据集中。
通过这些实验,研究者展示了Gen4Gen方法在创建数据集和提高多概念个性化图像生成质量方面的有效性。实验结果支持了他们的观点,即通过改进数据集的质量,可以在不修改模型架构或训练算法的情况下显著提高性能。
论文链接:https://arxiv.org/abs/2402.15504