个性化图像生成新SOTA!阿里开源MIP-Adapter,可将无需微调的IP-Adapter推广到同时合并多个参考图像。

今天给大家介绍阿里最近开源的个性化图像生成的新方法MIP-Adapter,将无需微调的预训练模型(IP-Adapter)推广到同时合并多个参考图像。MIP-Adapter会根据每个参考图像与目标对象的相关性来给这些图像分配不同的“重要性分数”。这样,在生成图像时,系统能更好地理解每个对象应该如何表现,从而生成更高质量的图像。

值得注意的是,该模型只需在 8 个 GPU 上进行5 小时的训练,就可以在多对象个性化图像生成方面实现最先进的性能。

左图展示了解耦交叉注意机制下的目标混淆问题,右图展示了使用我们的方法正确生成的问题。

亮点直击

  • 作者将无需微调的个性化图像生成方法的解耦交叉注意机制扩展到合并多种条件,并提出了一种加权合并方法来解决对象混淆问题。

  • 文章从开源 SA-1B 数据集中构建了一个小而高质量的数据集用于模型训练,并提出了一个用于图像选择的对象质量分数。

  • 加权合并训练框架在合并多种条件方面表现出色,MIP-Adapter在多对象个性化图像生成的 Concept101 数据集和 DreamBooth 数据集上均实现了最佳性能。

相关链接

论文地址:http://arxiv.org/abs/2409.17920v1

代码地址:https://github.com/hqhQAQ/MIP-Adapter

数据集地址:https://huggingface.co/datasets/hqhQAQ/subject_dataset_10k/tree/main

论文阅读

解决多条件混乱,实现免微调个性化图像生成

介绍

个性化文本到图像生成方法可以基于参考图像生成定制图像,这引起了广泛的研究兴趣。最近的方法提出了一种无需微调的方法,具有解耦的交叉注意机制,可以生成不需要测试时微调的个性化图像。然而,当提供多个参考图像时,当前解耦的交叉注意机制遇到对象混淆问题并且无法将每个参考图像映射到其对应的对象,从而严重限制了其应用范围。为了解决对象混淆问题,

在这项工作中,作者研究了扩散模型中潜在图像特征的不同位置与目标对象的相关性,并相应地提出了一种加权合并方法,将多个参考图像特征合并到相应的对象中。然后将这种加权合并方法集成到现有的预训练模型中,并继续在根据开源 SA-1B 数据集构建的多对象数据集上训练模型。为了减轻对象混乱并降低训练成本,在文章中提出了对象质量评分估计图像质量,以选择高质量的训练样本。

方法

方法的框架如下所示:

(A)演示了用于选择训练数据的 Sobject 相关性的计算。(B)中的整体框架包括一个以文本提示和多个参考图像为条件的 UNet 噪声预测模型。(C)展示了(B)中 UNet 中每个交叉注意层中提出的加权合并方法。

背景被遮挡的参考图像特征降低了IP- adapter的生成质量。

实验

多目标个性化图像生成方法的定性比较。

定性消融实验。

一个具有多个参考图像的单对象个性化图像生成的可视化示例。

结论

本文给大家介绍了阿里推出的个性化图像生成的新方法MIP-Adapter,特别是当我们有多个参考图像时。通常,当我们希望生成一个包含多个对象的图像时,比如一只猫和一只狗,现有的方法常常会出现混淆,导致猫和狗的特征被错误地匹配。为了避免这种情况,研究者们设计了一种“加权合并”技术。简单来说,他们会根据每个参考图像与目标对象的相关性来给这些图像分配不同的“重要性分数”。这样,在生成图像时,系统能更好地理解每个对象应该如何表现,从而生成更高质量的图像。此外,他们还通过选择高质量的训练样本来提升模型的表现,确保生成的图像既真实又符合用户的期望。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/56132.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ngin入门套餐

快速了解Nginx 一、代理1.1 正向代理1.2 反向代理1.3 正向代理和反向代理的区别 二、Nginx负载均衡策略2.1 轮询(Round Robin)2.2 加权轮询(Weighted Round Robin)2.3 IP 哈希(IP Hash)2.4 最少连接&#x…

机器人大功率主轴SycoTec 4060 ER-S汽车电机机芯焊缝铣削打磨加工

在汽车制造的精密领域,每一个细节都关乎着整车的性能与品质,而汽车电机机芯的焊缝加工更是其中至关重要的一环。在机器人末端加装德国进口电主轴 SycoTec 4060 ER-S,为汽车电机机芯焊缝铣削打磨加工带来全新的解决方案。 SycoTec 4060 ER-S转…

【SEO】什么是SEO?

什么是SEO(搜索引擎优化)?为什么SEO对于⼀个⽹站⾄关重要? SEO 全称是搜索引擎优化(Search Engine Optimization) 因为我们目前开发的网址,需要人看到,除了通过宣传营销的方式展现…

电能表预付费系统-标准传输规范(STS)(4)

5.4 TokenCarrier 到 MeterApplicationProcess 的数据流 The flow of data from the TokenCarrier to the MeterApplicationProcess is shown in Figure 4.此数据流见图 4。 图 4 TokenCarrier 到 MeterApplicationProcess 的数据 The token entry process from the TokenCarr…

【OSCP Proving Grounds 靶场系列】Slort

作者:Eason_LYC 悲观者预言失败,十言九中。 乐观者创造奇迹,一次即可。 一个人的价值,在于他所拥有的。可以不学无术,但不能一无所有! 技术领域:WEB安全、网络攻防 关注WEB安全、网络攻防。我的…

使用LSPatch+PlusNE修改手机软件

一、问题概述 国内使用一些软件,即使科学上网,打开都是网络错误,更换节点同样如此。 二、软件下载 通过官网或者正规商店(如Google play)下载并且安装。 是的,先要下载一个无法使用的版本,后续对其进行修改。 三、下…

中标麒麟v5安装qt512.12开发软件

注意 需要联网操作 遇到问题1:yum提示没有可用软件包问题 终端执行如下命令 CentOS7将yum源更换为国内源保姆级教程 中标麒麟V7-yum源的更换(阿里云源) wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Cento…

k8s、prometheus、grafana数据采集和展示的链路流程

k8s集群中,容器级别的数据采集是由cAdvisor程序实现 cAdvisor # Container Advisor 容器顾问 cAdvisor程序是kubelet组件的一部分。 每个节点,包括master节点,都有一个kubelet系统服务, kukelet负责管理pod和容…

软件测试学习笔记丨Linux三剑客-grep

本文转自测试人社区,原文链接:https://ceshiren.com/t/topic/32506 一、简介 1.1 grep命令 grep是一个全局查找正则表达式,并且打印结果行的命令。grep的输入是一个文件或者一个标准输入(stdin),或者是一…

【C语言】指针练习题

一、指针指向问题 int main() {int a[5] { 1, 2, 3, 4, 5 };int* ptr (int*)(&a 1);printf("%d,%d", *(a 1), *(ptr - 1));return 0; } 结果为:2,5。&a是整个数组(&a 1)被强转为(int*&am…

成都睿明智科技有限公司共创抖音电商新篇章

在当今这个数字化浪潮汹涌的时代,抖音电商以其独特的魅力迅速崛起,成为众多商家竞相追逐的新蓝海。在这片充满机遇与挑战的领域中,成都睿明智科技有限公司凭借其专业的服务、创新的策略和敏锐的市场洞察力,成为了众多商家信赖的合…

图像增强论文精读笔记-Kindling the Darkness: A Practical Low-light Image Enhancer(KinD)

1. 论文基本信息 论文标题:Kindling the Darkness: A Practical Low-light Image Enhancer 作者:Yonghua Zhang等 发表时间和期刊:2019;ACM MM 论文链接:https://arxiv.org/abs/1905.04161 2. 研究背景和动机 现有…

第十一章 RabbitMQ之消费者确认机制

目录 一、介绍 二、演示三种ACK方式效果 2.1. none: 不处理 2.1.1. 消费者配置代码 2.1.2. 生产者主要代码 2.1.3. 消费者主要代码 2.1.4. 运行效果 2.2. manual:手动模式 2.3. auto:自动模式 一、介绍 消费者确认机制(Consume…

GPT 生成绘画_Java语言例子_超详细

基于spring ai :简化Java AI开发,提升效率与维护性 过去在使用Java编写AI应用时,主要困境在于缺乏统一的标准化封装,开发者需要针对不同的AI服务提供商查阅各自独立的文档并进行接口对接,这不仅增加了开发的工作量&am…

python常用的字符串方法

一、求字符串的长度 python最常用的内置函数 二、切片获取子串 获取前第5个字符 print(s[:5]) # wuzij 获取后6个字符 print(s[-6:]) # python 三、去掉多余空格 四、是否以某个串开头 五、是否包含某个子串 六、串联多串 七、分割多串 八、替换子串

删除右键PDF文件时出现的多余快捷键 - 右键管理软件推荐 - ‘‘ContextMenuManger’’

1. 删除右键PDF文件时出现的多余快捷键 /* File: notes.mdProject: A3_2_关闭右键PDF时流氓程序File Created: Saturday, 12th October 2024 9:05:54 pmAuthor: Hanlin Gu (hg_fine_codes163.com)Last Modified: Saturday, 12th October 2024 9:31:06 pmModified By: HG (hg_…

在线白板网页版哪个好?5个常用协同办公工具分享!

在线白板是一种可以轻松实时创建、共享和协作处理视觉内容的软件。使用这些工具时,人们可以绘图、输入文本、创建便签和合并多媒体。归根结底,在线白板是一个数字空间,团队可以聚集在一起集思广益、制定计划和执行,无论他们身在何…

MySQL UDF提权原理

文章目录 前言一、MySQL架构二、什么是UDF三、UDF提权原理四、MSF实战参考 前言 看了许多视频和文章,对UDF提权讲得都不是很清楚,遂搜索了一下MySQL的基础知识,总结了一下,供各位初学的师傅参考。 一、MySQL架构 首先&#xff…

【人工智能】探索最强AI工具:实际应用与影响

随着人工智能(AI)技术的迅猛发展,AI工具已经深入到人们日常生活和工作的方方面面。这些工具不仅提高了生产力,还改变了我们解决问题和处理信息的方式。在中文互联网和国际市场中,众多AI工具已成为人们工作、学习、创作…

entity,pojo,vo,dto 详解

在Java项目中,包名通常用于组织代码,使其更加清晰和易于维护。entity、pojo、vo和dto是常见的包名,它们各自有不同的含义和用途。下面将详细解释这些包名的含义,并提供一个示例,帮助你更好地理解它们在项目中的应用。 …