最近,有研究者开发了一种能够学习和合成包含新颖个性化概念的图像的文本到图像扩散模型。这个模型仅需少量的训练示例,就能生成包含用户自定义宠物或特定物品等个性化概念的图像。
Gen4Gen论文展示页:
https://huggingface.co/papers/2402.15504
AIGC专区:
炼丹新概念-AI分析图像组合到融合生成图像的扩散模型Gen4Gen
这项研究解决了个性化文本到图像扩散模型领域中的两个核心问题。首先,当前的个性化技术难以可靠地扩展到多个概念。研究者推测,这可能是由于预训练数据集中复杂场景与简单文本描述之间的不匹配所致。其次,对于包含多个个性化概念的图像,缺乏一个综合指标来全面评估其性能。这不仅要评估个性化概念的相似程度,还要检查图像中是否包含了所有概念,并准确反映整体文本描述。
为了应对这些挑战,研究者引入了一种名为Gen4Gen的半自动数据集创建管道。该管道利用生成模型将个性化概念与文本描述相结合,创建出复杂的图像组合。利用这一工具,他们构建了一个名为MyCanvas的数据集,专门用于对多概念个性化任务进行基准测试。
此外,研究者还设计了一个包含两个分数(CP-CLIP和TI-CLIP)的综合指标。这一指标旨在更好地量化多概念、个性化文本到图像扩散方法的性能。他们提供了一个基于自定义扩散的简单基线,并为未来研究人员在MyCanvas上进行评估提供了经验提示策略。
研究结果表明,通过提高数据质量和优化提示策略,可以显著提高多概念个性化图像生成的质量。这一改进并不需要对模型架构或训练算法进行任何修改,从而为实现更高级的个性化图像生成提供了可能。