个性化图像生成新SOTA!阿里开源MIP-Adapter,可将无需微调的IP-Adapter推广到同时合并多个参考图像。

今天给大家介绍阿里最近开源的个性化图像生成的新方法MIP-Adapter,将无需微调的预训练模型(IP-Adapter)推广到同时合并多个参考图像。MIP-Adapter会根据每个参考图像与目标对象的相关性来给这些图像分配不同的“重要性分数”。这样,在生成图像时,系统能更好地理解每个对象应该如何表现,从而生成更高质量的图像。

值得注意的是,该模型只需在 8 个 GPU 上进行5 小时的训练,就可以在多对象个性化图像生成方面实现最先进的性能。

左图展示了解耦交叉注意机制下的目标混淆问题,右图展示了使用我们的方法正确生成的问题。

亮点直击

  • 作者将无需微调的个性化图像生成方法的解耦交叉注意机制扩展到合并多种条件,并提出了一种加权合并方法来解决对象混淆问题。

  • 文章从开源 SA-1B 数据集中构建了一个小而高质量的数据集用于模型训练,并提出了一个用于图像选择的对象质量分数。

  • 加权合并训练框架在合并多种条件方面表现出色,MIP-Adapter在多对象个性化图像生成的 Concept101 数据集和 DreamBooth 数据集上均实现了最佳性能。

相关链接

论文地址:http://arxiv.org/abs/2409.17920v1

代码地址:https://github.com/hqhQAQ/MIP-Adapter

数据集地址:https://huggingface.co/datasets/hqhQAQ/subject_dataset_10k/tree/main

论文阅读

解决多条件混乱,实现免微调个性化图像生成

介绍

个性化文本到图像生成方法可以基于参考图像生成定制图像,这引起了广泛的研究兴趣。最近的方法提出了一种无需微调的方法,具有解耦的交叉注意机制,可以生成不需要测试时微调的个性化图像。然而,当提供多个参考图像时,当前解耦的交叉注意机制遇到对象混淆问题并且无法将每个参考图像映射到其对应的对象,从而严重限制了其应用范围。为了解决对象混淆问题,

在这项工作中,作者研究了扩散模型中潜在图像特征的不同位置与目标对象的相关性,并相应地提出了一种加权合并方法,将多个参考图像特征合并到相应的对象中。然后将这种加权合并方法集成到现有的预训练模型中,并继续在根据开源 SA-1B 数据集构建的多对象数据集上训练模型。为了减轻对象混乱并降低训练成本,在文章中提出了对象质量评分估计图像质量,以选择高质量的训练样本。

方法

方法的框架如下所示:

(A)演示了用于选择训练数据的 Sobject 相关性的计算。(B)中的整体框架包括一个以文本提示和多个参考图像为条件的 UNet 噪声预测模型。(C)展示了(B)中 UNet 中每个交叉注意层中提出的加权合并方法。

背景被遮挡的参考图像特征降低了IP- adapter的生成质量。

实验

多目标个性化图像生成方法的定性比较。

定性消融实验。

一个具有多个参考图像的单对象个性化图像生成的可视化示例。

结论

本文给大家介绍了阿里推出的个性化图像生成的新方法MIP-Adapter,特别是当我们有多个参考图像时。通常,当我们希望生成一个包含多个对象的图像时,比如一只猫和一只狗,现有的方法常常会出现混淆,导致猫和狗的特征被错误地匹配。为了避免这种情况,研究者们设计了一种“加权合并”技术。简单来说,他们会根据每个参考图像与目标对象的相关性来给这些图像分配不同的“重要性分数”。这样,在生成图像时,系统能更好地理解每个对象应该如何表现,从而生成更高质量的图像。此外,他们还通过选择高质量的训练样本来提升模型的表现,确保生成的图像既真实又符合用户的期望。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/56132.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

golang 报错:invalid character ‘‘ looking for beginning of object key string

这个错误通常表示我们的 Go 程序在解析 JSON 数据时,遇到了非法的字符,尤其是在需要找到 JSON 对象键时,遇到了 这样的非 ASCII 字符。这种情况可能是由于以下几个原因引起的: 可能原因: 编码问题:你的输…

Ngin入门套餐

快速了解Nginx 一、代理1.1 正向代理1.2 反向代理1.3 正向代理和反向代理的区别 二、Nginx负载均衡策略2.1 轮询(Round Robin)2.2 加权轮询(Weighted Round Robin)2.3 IP 哈希(IP Hash)2.4 最少连接&#x…

计算机视觉的奇妙世界

计算机视觉的奇妙世界 在你日常生活的某个时刻,或许你在手机上上传了一张照片,系统立刻识别出了你脸上的微笑;又或者当你用摄像头扫描某样物品,系统能迅速提供其来源和价格。但你有没有想过,这背后到底发生了什么&…

机器人大功率主轴SycoTec 4060 ER-S汽车电机机芯焊缝铣削打磨加工

在汽车制造的精密领域,每一个细节都关乎着整车的性能与品质,而汽车电机机芯的焊缝加工更是其中至关重要的一环。在机器人末端加装德国进口电主轴 SycoTec 4060 ER-S,为汽车电机机芯焊缝铣削打磨加工带来全新的解决方案。 SycoTec 4060 ER-S转…

【SEO】什么是SEO?

什么是SEO(搜索引擎优化)?为什么SEO对于⼀个⽹站⾄关重要? SEO 全称是搜索引擎优化(Search Engine Optimization) 因为我们目前开发的网址,需要人看到,除了通过宣传营销的方式展现…

电能表预付费系统-标准传输规范(STS)(4)

5.4 TokenCarrier 到 MeterApplicationProcess 的数据流 The flow of data from the TokenCarrier to the MeterApplicationProcess is shown in Figure 4.此数据流见图 4。 图 4 TokenCarrier 到 MeterApplicationProcess 的数据 The token entry process from the TokenCarr…

【OSCP Proving Grounds 靶场系列】Slort

作者:Eason_LYC 悲观者预言失败,十言九中。 乐观者创造奇迹,一次即可。 一个人的价值,在于他所拥有的。可以不学无术,但不能一无所有! 技术领域:WEB安全、网络攻防 关注WEB安全、网络攻防。我的…

使用LSPatch+PlusNE修改手机软件

一、问题概述 国内使用一些软件,即使科学上网,打开都是网络错误,更换节点同样如此。 二、软件下载 通过官网或者正规商店(如Google play)下载并且安装。 是的,先要下载一个无法使用的版本,后续对其进行修改。 三、下…

uniapp小程序监听外接扫描枪

场景:uniapp打包的app在手持设备上使用,手持设备外接扫描枪,快速扫描 关键:扫描枪一般是触发 键盘事件keydown或keyup 无输入框式 import keymap from ./keymap export default {data() {return {inputString: ,inputCache: }}…

中标麒麟v5安装qt512.12开发软件

注意 需要联网操作 遇到问题1:yum提示没有可用软件包问题 终端执行如下命令 CentOS7将yum源更换为国内源保姆级教程 中标麒麟V7-yum源的更换(阿里云源) wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Cento…

理解Token和Session:鉴权与会话管理的区别

理解Token和Session:鉴权与会话管理的区别 在Web应用和API设计中,鉴权与会话管理是两个核心概念,它们对于确保用户身份的安全性和维护用户会话状态至关重要。Token和Session是两种常用的鉴权与会话管理机制,它们各自具有独特的工…

k8s、prometheus、grafana数据采集和展示的链路流程

k8s集群中,容器级别的数据采集是由cAdvisor程序实现 cAdvisor # Container Advisor 容器顾问 cAdvisor程序是kubelet组件的一部分。 每个节点,包括master节点,都有一个kubelet系统服务, kukelet负责管理pod和容…

GitHub生成SSH密钥,

GitHub会通过SSH密钥来验证你的身份,确保你有权限克隆、推送或拉取代码。 对于公开仓库,你不需要额外的权限,只需确保SSH密钥已正确配置并可以通过GitHub验证。公开仓库允许任何人克隆,即使仓库属于他人,只要你通过SS…

软件测试学习笔记丨Linux三剑客-grep

本文转自测试人社区,原文链接:https://ceshiren.com/t/topic/32506 一、简介 1.1 grep命令 grep是一个全局查找正则表达式,并且打印结果行的命令。grep的输入是一个文件或者一个标准输入(stdin),或者是一…

【C语言】指针练习题

一、指针指向问题 int main() {int a[5] { 1, 2, 3, 4, 5 };int* ptr (int*)(&a 1);printf("%d,%d", *(a 1), *(ptr - 1));return 0; } 结果为:2,5。&a是整个数组(&a 1)被强转为(int*&am…

成都睿明智科技有限公司共创抖音电商新篇章

在当今这个数字化浪潮汹涌的时代,抖音电商以其独特的魅力迅速崛起,成为众多商家竞相追逐的新蓝海。在这片充满机遇与挑战的领域中,成都睿明智科技有限公司凭借其专业的服务、创新的策略和敏锐的市场洞察力,成为了众多商家信赖的合…

图像增强论文精读笔记-Kindling the Darkness: A Practical Low-light Image Enhancer(KinD)

1. 论文基本信息 论文标题:Kindling the Darkness: A Practical Low-light Image Enhancer 作者:Yonghua Zhang等 发表时间和期刊:2019;ACM MM 论文链接:https://arxiv.org/abs/1905.04161 2. 研究背景和动机 现有…

第十一章 RabbitMQ之消费者确认机制

目录 一、介绍 二、演示三种ACK方式效果 2.1. none: 不处理 2.1.1. 消费者配置代码 2.1.2. 生产者主要代码 2.1.3. 消费者主要代码 2.1.4. 运行效果 2.2. manual:手动模式 2.3. auto:自动模式 一、介绍 消费者确认机制(Consume…

GPT 生成绘画_Java语言例子_超详细

基于spring ai :简化Java AI开发,提升效率与维护性 过去在使用Java编写AI应用时,主要困境在于缺乏统一的标准化封装,开发者需要针对不同的AI服务提供商查阅各自独立的文档并进行接口对接,这不仅增加了开发的工作量&am…

python常用的字符串方法

一、求字符串的长度 python最常用的内置函数 二、切片获取子串 获取前第5个字符 print(s[:5]) # wuzij 获取后6个字符 print(s[-6:]) # python 三、去掉多余空格 四、是否以某个串开头 五、是否包含某个子串 六、串联多串 七、分割多串 八、替换子串