Gen4Gen:多概念个性化图像生成的数据驱动革新

个性化文本到图像生成模型在用户控制生成过程方面取得了重要进展。这些模型能够通过少量训练样本学习并合成包含新颖个性化概念的图像,例如用户的宠物或特定物品。然而,现有技术在处理多概念个性化时存在局限性,尤其是在生成包含多个相似概念的复杂场景时。来自加州大学戴维斯分校的研究团队及其合作者提出了Gen4Gen,一个半自动化的数据集创建管道,它利用生成模型将个性化概念组合成具有复杂构成的真实场景,并配以详细的文本描述,形成了MyCanvas数据集。这一数据集在不修改模型架构或训练算法的情况下,显著提高了多概念个性化性能。

Gen4Gen 数据集创建管道如何将少量代表多个概念的源图像(每个概念后面带有星号*标记)组合成具有复杂构成的真实场景,并配以详细的文本描述,即 MyCanvas 数据集

方法

研究者首先提出了三个关键原则以确保MyCanvas数据集的质量和有效性:

  • 详细文本描述和图像配对:文本必须与相应图像良好对齐,为前景和背景对象提供信息。
  • 合理的对象布局和背景生成:确保对象在图像中的共存和位置在现实生活中是可能的,并且布局合理。
  • 高分辨率:确保数据集能够满足生成高质量多概念个性化图像的最终目标。

创建MyCanvas数据集主要分三个阶段。整个Gen4Gen管道的设计旨在通过自动化和半自动化的方法,高效地生成具有高度个性化和现实感的图像及其配套文本描述。

Gen4Gen创建MyCanvas数据集的流程

Figure 2 展示了 Gen4Gen 管道的概览,该管道是创建 MyCanvas 数据集的核心过程。这一过程分为三个主要阶段,利用了图像前景提取、大型语言模型(LLMs)、多模态大型语言模型(MLLMs)以及图像修复技术,以生成真实、个性化的图像及其配套的文本描述。

第一阶段:对象关联与前景分割 (1)

  • 在这一阶段,首先从包含多个概念的源图像中,使用类别无关的显著性对象检测器来分割前景对象。这里的“类别无关”意味着检测器不依赖于特定类别的先验知识,能够处理各种不同的对象。

  • 给定一组对象组合 O′,检测器将每个对象的前景分割出来,形成前景图像 D(X′) 及其对应的掩码 M(D(X′))。

第二阶段:LLM 引导的对象组合 (2)

  • 接下来,研究者利用大型语言模型(LLM)的零样本学习能力,请求模型提供给定对象集合O′ 的可能边界框组合。
  • 根据 LLM 提供的边界框,将分割出的前景对象放置在适当的位置,形成复合的前景图像  及其掩码
  • 同时,LLM 还被用来生成一组背景提示,描述O′ 可能存在的潜在场景,这有助于后续阶段的背景重绘。

第三阶段:背景重绘与图像重新描述 (3)

  • 在最后阶段,使用扩散修复模型将复合前景图像 嵌入从互联网上获取的背景图像 ​ 中,生成最终的图像 
  • 为了提高文本描述的多样性同时保持与图像的对齐,研究者使用多模态大型语言模型(MLLM,例如 LLaVA)为的一部分组合提供详细的描述。
  • 这一步骤不仅增加了描述的丰富性,而且通过限制单词数量(以适应 CLIP 的上下文限制)来确保文本与图像紧密对应。

MyCanvas 数据集收集了150个对象,并创建了41种可能的组合,生成了超过10K图像,并手动筛选至2684张最佳质量图像。

MyCanvas数据集的统计信息。a) 饼状图显示了MyCanvas中大约30%的图像与超过20个单词的文本描述配对。b) 词云展示了数据集中使用的各种对象类别。c) 和 d) 词云展示了训练和推理过程中频繁使用的描述,以确保比较的公平性

为了进一步提升模型在训练阶段的性能和图像生成的准确性,研究者采取了一系列创新的文本提示策略。他们引入了“全局组合标记”,这一策略使得模型能够更好地理解和描述复杂的场景布局,从而增强了对整体图像结构的把控能力。

为了确保图像中包含所有指定的概念,并且在生成过程中不遗漏任何细节,研究者实施了“重复概念标记提示”的方法,这有助于模型更加准确地捕捉和再现每个概念。最后通过“合并背景提示”,研究者优化了模型对前景对象和背景的区分能力,鼓励模型专注于学习对象的身份特征,同时避免对象特征与背景特征在特征空间中发生混淆,这些策略共同提升了模型对多概念个性化图像生成任务的泛化和特化能力。

MyCanvas数据集中的一些示例

为了全面评估多概念个性化图像生成任务的性能,研究者提出了两个创新的度量标准:CP-CLIP(Composition-Personalization-CLIP)分数和TI-CLIP(Text-Image alignment CLIP)分数。CP-CLIP分数专注于评估图像生成在组合和个性化方面的准确性,它通过检查文本中提及的每个个性化概念是否都能在生成的图像中得到准确反映,并且这些概念的视觉表现是否与其原始对象保持一致性。

这种度量方式确保了生成图像不仅在视觉上忠实于源数据,而且在概念层面上也与文本描述相匹配。而TI-CLIP分数则作为评估模型泛化能力的一种手段,通过比较生成图像与用于生成它的文本提示之间的一致性,来检测模型是否对训练数据出现过拟合。一个理想的个性化图像生成模型应该在提高CP-CLIP分数的同时,保持TI-CLIP分数的稳定,这表明模型在生成高质量图像的同时,还能够适应不同的文本描述,展现出良好的泛化能力。这两个度量标准的提出,为多概念个性化图像生成的研究提供了更为精确和全面的评价工具。

实验

基线:研究者首先使用Custom Diffusion模型作为基线,这是一个可复现的代码基础,用于与先前的方法进行广泛比较。

实现细节:对于每种组合,研究者训练了上述方法的模型(训练细节在附录中)。评估时,他们选择了每个组合的最佳检查点。使用与训练期间不同的、独特的提示,以更好地分析每个模型的泛化能力。

三种不同设置下使用我们的度量标准(CP-CLIP和TI-CLIP)测量的定量性能

表1所示,研究者通过量化的方法来评估Gen4Gen管道和MyCanvas数据集对于提升多概念个性化图像生成性能的具体影响。他们使用了一系列预定义的文本提示来生成图像,并通过比较不同实验设置下生成的246张图像的性能,来展示MyCanvas数据集的优越性。实验结果表明,与仅使用原始源图像的Custom Diffusion相比,结合MyCanvas数据集的方法在CP-CLIP分数上实现了显著提升,这表明了在图像生成中个性化概念的准确性和完整性得到了增强。同时,TI-CLIP分数的稳定性验证了性能提升并非由过拟合所致,从而证明了MyCanvas数据集在提高多概念个性化生成任务中的有效性和泛化能力。

多概念组合的定性结果。呈现了四组结果,按组合难度(更多的个性化概念)递增顺序排列

图5中,四组结果根据组合难度递增排序,每组展示了在不同训练策略下的图像生成效果。使用Custom Diffusion模型结合原始源图像的结果作为基线,展示了模型在没有额外数据集支持时的生成能力。当引入MyCanvas数据集后,模型在区分潜在空间中相似对象(如猫和狮子,两种拖拉机)方面表现出显著的改进。进一步应用提示策略后,模型在生成过程中对文本描述的遵循程度更高,确保了所有概念都被准确反映在图像中,即使在涉及多个概念的复杂场景中也是如此。这些定性结果突出了MyCanvas数据集和提示策略在提升图像生成质量和与文本描述一致性方面的重要作用。

为了深入理解Gen4Gen管道生成图像的质量,并探究训练数据规模与模型性能之间的关系,研究者开展了一系列消融实验:

MyCanvas生成质量评估:开发了一个过滤工具来评估Gen4Gen管道生成的800张图像的质量。基于包含个性化概念、它们的正确放置和排除视觉伪影的标准,对每个图像进行评分。

训练数据大小与概念数量:提供了一个分析,展示了使用1到100张图像进行训练时的性能。当训练涉及4个以上概念时,稳定表现需要10到50张图像。

得分分布:表2显示了质量评估的得分分布。只有被评为4/5的图像被添加到MyCanvas数据集中。

MyCanvas生成质量的质量评估

通过这些实验,研究者展示了Gen4Gen方法在创建数据集和提高多概念个性化图像生成质量方面的有效性。实验结果支持了他们的观点,即通过改进数据集的质量,可以在不修改模型架构或训练算法的情况下显著提高性能。

论文链接:https://arxiv.org/abs/2402.15504

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/42562.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

连接与隔离:Facebook在全球化背景下的影响力

在当今全球化的背景下,Facebook作为全球最大的社交网络平台,不仅连接了世界各地的人们,还在全球社会、经济和文化中发挥着深远的影响。本文将深入探讨Facebook在全球化进程中的作用,以及其对个体和社会之间连接与隔离的双重影响。…

【MATLAB源码-第232期】基于matlab的 (204,188) RS编码解码仿真,采用QPSK调制输出误码率曲线。

操作环境: MATLAB 2022a 1、算法描述 Reed-Solomon码(RS码)是一类广泛应用于数字通信和存储系统中的纠错码,尤其在光盘、卫星通信和QR码等领域有着重要作用。RS码是一种非二进制的纠删码,由Irving S. Reed和Gustave…

当CNN遇上Mamba,高性能与高效率通通拿下!

传统视觉模型在处理大规模或高分辨率图像时存在一定限制,为解决这个问题,研究者们就最近依旧火热的Mamba,提出了Mamba结合CNN的策略。 这种结合可以让Mamba在处理长序列数据时既能够捕捉到序列中的时间依赖关系,又能够利用CNN的局…

思维+并查集,1670C - Where is the Pizza?

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 1670C - Where is the Pizza? 二、解题报告 1、思路分析 考虑两个数组a,b的每个位置只能从a,b中挑一个 不妨记posa[x]为x在a中位置,posb同理 我们假如位置i挑选a[i]&a…

【LLM】三、open-webui+ollama搭建自己的聊天机器人

系列文章目录 往期文章回顾: 【LLM】二、python调用本地的ollama部署的大模型 【LLM】一、利用ollama本地部署大模型 目录 前言 一、open-webui是什么 二、安装 1.docker安装 2.源码安装 三、使用 四、问题汇总 总结 前言 前面的文章,我们已经…

探索Qt的QVariant:灵活的数据交换机制

😎 作者介绍:欢迎来到我的主页👈,我是程序员行者孙,一个热爱分享技术的制能工人。计算机本硕,人工制能研究生。公众号:AI Sun(领取大厂面经等资料),欢迎加我的…

VMware使用技巧

目录 1. 系统快照 1.1 拍摄快照 1.2 查看快照 1.3 应用/删除快照 2. 克隆虚拟机 3. 删除虚拟机 1. 系统快照 1.1 拍摄快照 将当前系统的状态保存下来,如果将来系统出现不可修复的故障,使用快照可以恢复操作系统; CentOS7——拍照—…

【开源】基于RMBG的一键抠图与证件照制作系统【含一键启动包】

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

【Linux】System V信号量详解以及semget()、semctl()和semop()函数讲解

💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 :阿然成长日记 …

数字化转型:企业法务管理的未来发展 ​​​

在数字化浪潮的推动下,企业法务管理正经历着前所未有的变革。传统的法务工作模式在数据处理、合同审查、风险评估等方面逐渐显得力不从心。面对这一挑战,企业法务管理的数字化转型成为提升效率、保障合规、优化法律服务的必然选择。 数字化转型涉及到法…

解析Xml文件并修改QDomDocument的值

背景: 我需要解决一个bug,需要我从xml中读取数据到QDomDocument,然后获取到我想要的目标信息,然后修改该信息。 ---------------------------------------------------------------------------------------------------------…

VUE中ECharts提示框tooltip自动切换

目录 前言1导入插件2定义参数3 插件API 前言 使用VUE开发的数据大屏统计,又需要将 echarts的提示框 tooltip 实现自动切换,网上有个很简单的插件(echarts-tooltip-auto-show),使用教程简单分享给大家。 自动每隔几秒切…

哦华为仓颉语言

本来我不太想说的,奈何有不少粉丝提问提到了这语言,目前的情况我不透露太多,看过这课程C实现一门计算机编程语言到手撸虚拟机实战的懂的自然懂。 在互联网领域几乎大部分应用软件运行在X86 LINUX上居多,如果你有问题可以先学习这…

多版本python环境中,让python3固定指向其中一个python可执行文件

如果你只安装一个python环境,那么一般可执行文件名就叫python.exe和pythonw.exe 但是如果你有多个python环境时,可执行文件名是需要进行修改的,使得在安装库和调用时能够分辨python环境,比如我的电脑中装有python3.10和python2.x …

BUUCTF[堆][of_by_one]

堆中of_by_one 介绍: 严格来说 off-by-one 漏洞是一种特殊的溢出漏洞,off-by-one 指程序向缓冲区中写入时,写入的字节数超过了这个缓冲区本身所申请的字节数并且只越界了一个字节。溢出字节为可控制任意字节 :通过修改大小(size…

Spring AOP源码篇四之 数据库事务

了解了Spring AOP执行过程&#xff0c;再看Spring事务源码其实非常简单。 首先从简单使用开始, 演示Spring事务使用过程 Xml配置&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <beans xmlns"http://www.springframework.org/schema…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第一篇 嵌入式Linux入门篇-第十六章 Linux 第一个程序 HelloWorld

i.MX8MM处理器采用了先进的14LPCFinFET工艺&#xff0c;提供更快的速度和更高的电源效率;四核Cortex-A53&#xff0c;单核Cortex-M4&#xff0c;多达五个内核 &#xff0c;主频高达1.8GHz&#xff0c;2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

S271系列RTU在旅游景区人流监控中的应用案例

S271系列RTU在旅游景区人流监控中的应用案例 随着全球旅游业的迅猛发展&#xff0c;旅游景区的管理者越来越关注如何利用先进的技术手段提升游客体验、优化管理效率以及确保安全。S271系列RTU作为一款先进的无线工业物联网设备&#xff0c;在旅游景区的人流监控中展现出了其独…

数据结构:顺序表+链表

数据结构&#xff1a;顺序表链表 一。顺序表&#xff1a; 首先在了解顺序表和链表之前&#xff0c;先了解一下线性表&#xff0c;**线性表&#xff08;linear list&#xff09;**是n个具有相同特征元素的有限序列 &#xff0c;在逻辑上是线性结构&#xff0c;也就是一条连续的…

WPF依赖附加属性

依赖附加属性的定义 基本过程&#xff1a;声明、注册、包装 依赖附加属性必须在依赖对象&#xff0c;附加属性不一定&#xff0c;关注的是被附加的对象是否是依赖对象 快捷方式&#xff1a;propa tab 关键字&#xff1a;RegisterAttached // 方法封装 public static int …