阿里提出MS-Diffusion:一键合成你喜爱的所有图像元素,个性化生成新思路!

文本到图像生成模型的最新进展极大地增强了从文本提示生成照片级逼真图像的能力,从而增加了人们对个性化文本到图像应用的兴趣,尤其是在多主题场景中。然而,这些进步受到两个主要挑战的阻碍:

  • 需要根据文本描述准确维护每个参考主题的细节;

  • 难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。

针对这些问题,阿里联合浙大提出了MS-Diffusion,MS-Diffusion 框架有助于在单主题场景(上图)和多主题上下文(下图)中实现个性化。值得注意的是,在保留主题细节的复杂性的同时,MS-Diffusion 实现了文本保真度的显著提升。

相关链接

项目主页:https://ms-diffusion.github.io/

论文地址:https://arxiv.org/pdf/2406.07209.pdf

代码地址:https://github.com/MS-Diffusion/MS-Diffusion

论文阅读

MS-Diffusion:具有布局指导的多主题零样本图像个性化

摘要

文本到图像生成模型的最新进展极大地增强了从文本提示生成照片级逼真图像的能力,从而增加了人们对个性化文本到图像应用的兴趣,尤其是在多主题场景中。然而,这些进步受到两个主要挑战的阻碍:

  • 需要根据文本描述准确维护每个参考主题的细节;

  • 难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。

为了解决这些问题,我们的研究引入了 MS-Diffusion 框架,用于布局引导的多主题零样本图像个性化。这种创新方法将基础标记与特征重采样器相结合,以保持主题之间的细节保真度。在布局指导下,MS-Diffusion 进一步改进了交叉注意力以适应多主题输入,确保每个主题条件作用于特定区域。所提出的多主题交叉注意力在保留文本控制的同时协调了和谐的跨主题构图。全面的定量和定性实验证实,该方法在图像和文本保真度方面均超越现有模型,促进了个性化文本到图像生成的发展。

方法

MS-Diffusion 为模型引入了两项关键增强功能:基础重采样器和多主体交叉注意机制。首先,基础重采样器能够熟练地吸收视觉信息,并将其与特定实体和空间约束相关联。随后,有针对性的交叉注意机制促进了图像条件与多主体注意层内潜在的扩散之间的精确交互。在整个训练阶段,预先存在的扩散模型的所有组件都保持冻结状态。

效果

单主题个性化

MS-Diffusion 在所有主题中都表现出极佳的文本保真度,同时保留了主题细节,尤其是活体(狗)。可以注意到,由于在生成过程中参考了整个图像,因此背景中的一些元素(第三行和第四行)也出现在结果中(草和茶壶架)。它们的作用范围取决于输入边界框。在实际应用中,建议使用蒙版图像作为条件。

多主题个性化

多主题结果涵盖了丰富的组合类型,充分体现了MS-Diffusion的通用性和鲁棒性。当场景根据文本自由变化时,主题的细节得以保留而不受影响。除了常见的平行组合,MS-Diffusion在具有一定重叠区域的组合的个性化生成中也表现出色,例如“生活+穿搭”、“物品+场景”。

布局控制能力

MS-Diffusion 关于布局控制能力的定性示例。不同颜色的边界框对应具有不同颜色边框的主体。可以证明 MS-Diffusion 可以生成符合布局条件的图像,即使是同一类别的两个实例也是如此。但是,生成的位置并不完全准确,尤其是在“草地上的一只猫和一只猫”中,说明与个性化任务中的文本和图像提示相比,布局条件相对较弱。

与 ControlNet 集成

整合不同控制条件时的生成结果。整合的控制网络由深度、Canny Edge 和 Openpose 组成。

主题插值

多主题生成中的主题插值。我们选择两只狗和两顶帽子进行线性插值,文本设置为“沙滩上戴着帽子的狗”。

结论

本研究通过开发 MS-Diffusion 为 P-T2I 扩散模型领域做出了重大贡献。这种零样本框架擅长捕捉复杂的主体细节,并将多个主体平滑地融合成单个连贯的图像。我们的模型配备了创新的 Grounding 重采样器和多主体交叉注意机制,有效地克服了常见的多主体个性化问题,例如主体忽视和冲突。与现有模型相比,广泛的消融研究强调了 MS-Diffusion 在图像合成保真度方面的增强性能。对于无需微调且需要布局指导的 P-T2I 应用程序来说,它是一种突破性的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/35668.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python--open()函数的使用(超详细)

在Python中,open() 函数用于打开文件,并返回文件对象,该对象可用于后续的文件操作,如读取或写入数据。open() 函数的基本语法如下: open(file, moder, buffering-1, encodingNone, errorsNone, newlineNone, closefdT…

淘宝商铺电话怎么获取?使用爬虫工具采集

访问淘宝商铺是一个合法的行为,你可以使用爬虫工具来提取淘宝商铺的信息。下面是一个基本的Python程序示例,用于使用爬虫工具访问淘宝商铺: import requestsdef get_store_info(store_id):url fhttps://shop{id}.taobao.comresponse reque…

力扣:59. 螺旋矩阵 II(Java,模拟)

目录 题目描述示例 1:代码实现 题目描述 给你一个正整数 n ,生成一个包含 1 到 n2 所有元素,且元素按顺时针顺序螺旋排列的 n x n 正方形矩阵 matrix 。 示例 1: 输入:n 3 输出:[[1,2,3],[8,9,4],[7,6,5…

前端新手小白的第一个AI全栈项目---AI聊天室

前言 ok,大家好。- ̗̀(๑ᵔ⌔ᵔ๑)最近也是想做自己的第一个前后端分离的项目,刚好最近学了一点AI接口的实现。想着用接口做一个自己的ai聊天室并且尝试一下全栈式开发。中间真的解决了很多问题,也是成功之后也是想要将实现过程分享一下&a…

基于CNN卷积神经网络的MQAM调制识别matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 CNN模型结构 4.2 损失函数与优化 4.3 训练与测试 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 2.算法运行软件版本 matlab2022a 3.部分核心程序 &#xff0…

d3dx9_42.dll找不到怎么正确处理?教学级修复d3dx9_42.dll的方法分享

d3dx9_42.dll找不到?别着急,这只是普普通通的dll文件找不到而已,它可能因为各种原因而导致丢失,我们只要直接对d3dx9_42.dll进行修复就可以了。下面我们一起来了解一下d3dx9_42.dll找不到的正确处理方法。 一.d3dx9_42.dll找不到是…

深度学习方法在谣言检测中的研究现状

摘要 管理社交媒体上的谣言,减少谣言对社会的危害。许多研究使用深度学习方法来检测开放网络中的谣言。为了从多个角度全面梳理谣言检测的研究现状,本文从特征选择、模型结构和研究方法三个角度分析了这一高度集中的工作。从特征选择的角度,将…

七天速通javaSE:第二天 基础:标识符与数据类型

文章目录 前言一、注释与标识符1. 注释2. 标识符2.1 标识符2.2 关键字 二、数据类型1. 语言类型2. 数据类型2.1 基本数据类型2.2引用数据类型 三、类型转换1. 自动转换2. 强制转换(不建议) 四、代码规范 前言 今天将学习Java语法的基础,认识…

DHCP详解:概念、架构、原理、搭建过程、常用命令与实战案例

一、DHCP概述 1.1 DHCP的定义 DHCP(Dynamic Host iguration Protocol,动态主机配置协议)是一种网络管理协议,用于自动分配IP地址以及其他网络配置参数(如子网掩码、网关地址、DNS服务器等)。通过DHCP&…

c语言学习记录(十)———函数

文章目录 前言一、函数的基本用法二、函数的参数传递1.基本方式2 数组在函数中的传参 前言 一个学习C语言的小白~ 有问题评论区或私信指出~ 提示:以下是本篇文章正文内容,下面案例可供参考 一、函数的基本用法 函数是一个完成特定功能的代码模块&…

中国电子学会青少年编程等级考试真题下载

全国青少年软件编程等级考试真题下载,有答案解析 1. 图形化Scratch一级下载 链接:https://pan.baidu.com/s/1C9DR9-hT1RUY3417Yc8RZQ?pwdg8ac 提取码:g8ac 2.图形化Scratch二级下载 链接:https://pan.baidu.com/s/1HI7GaI4ii…

EtherCAT主站IGH -- 0 -- 该EtherCAT主站IGH专栏后续安排

EtherCAT主站IGH -- 0 -- 该EtherCAT主站IGH专栏后续安排 0 IGH视频欣赏及源代码链接:1 该EtherCAT主站IGH专栏后续安排1.1 介绍IGH文件和函数:1.2 介绍IGH主要结构体:1.3 在Ubuntu系统环境搭建自己的EtherCAT主站:1.4 使用Wireshark监控并分析EtherCAT数据:1.5 介绍…

海外代理IP哪个可靠?如何测试代理的稳定性?

在数字化时代,互联网已成为我们日常生活的重要组成部分。然而,随着网络活动的增加,我们面临的安全威胁也随之增加。 黑客攻击、数据泄露、网络钓鱼等安全事件频发,严重威胁着我们的个人隐私和网络安全。代理服务器在当今的互联网世…

深入学习Java1415新特性

一、超实用的Java14新特性 1.Java14新特性概述 2.环境安装 3.超实用新特性

PyCharm:功能强大的Python IDE的下载与安装

目录 1. PyCharm2. PyCharm下载3. PyCharm安装4. PyCharm的Python配置1. PyCharm 是一款由JetBrains公司开发的Python集成开发环境(IDE)。它提供了一整套强大的工具和功能,帮助Python开发人员提高工作效率,简化编程流程。PyCharm主要具有以下特点和功能: 编码协助:PyCha…

LLM大模型算法学习资源持续整理

文章目录 waytoagiLLM101llm-coursellm-cookbook waytoagi 飞书文档写的AGI知识库。 https://www.waytoagi.com/ LLM101 karpathy更新中的大模型教程: https://github.com/karpathy/LLM101n llm-course Course to get into Large Language Models (LLMs) wi…

node mySql 实现数据的导入导出,以及导入批量插入的sql语句

node 实现导出, 在导出excel中包含图片(附件) node 实现导出, 在导出excel中包含图片(附件)-CSDN博客https://blog.csdn.net/snows_l/article/details/139999392?spm1001.2014.3001.5502 一、效果 如图: 二、导入 …

iOS 实现类似抖音滚动效果

效果图 思路 整体上我们使用tableView实现,为了预留内容的缓冲,我们将tableView 的contentinset设置为上面一个屏幕的高度,下面一个屏幕的高度,左右为0,这样保证我们滚动过去的时候 都是准备好的内容 然后就是滑动效果…

25届最近4年中国科学技术大学自动化考研院校分析

中国科学技术大学 目录 一、学校学院专业简介 二、考试科目指定教材 三、近4年考研分数情况 四、近4年招生录取情况 五、最新一年分数段图表 六、历年真题PDF 七、初试大纲复试大纲 八、学费&奖学金&就业方向 一、学校学院专业简介 二、考试科目指定教材 1、…

Qt高分辨率自适应后,获取当前设备像素比

qt常用的高分辨率自适应,在main中设置之后,我们的软件界面就可以根据当前显示器的分辨率,自动缩放了。(QCoreApplication::setAttribute(Qt::AA_EnableHighDpiScaling);) 但与此同时,qt一些桌面屏幕类获取…