【可控图像生成系列论文(一)】MimicBrush 港大、阿里、蚂蚁集团合作论文解读

在这里插入图片描述
背景:考虑到用户的不同需求,图像编辑是一项实用而富有挑战性的任务,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。

创新点:在本文作者提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥他们的创造力。

  • 具体地说,为了编辑感兴趣的图像区域,用户可以自由地直接从一些野生参考中获得灵感(例如,一些在线的相对图片),而不必处理参考和来源之间的匹配问题。
  • 这样的设计要求系统自动地从参考中找出期望执行编辑的内容。
  • 为此,作者提出了一种称为 MimicBrush 的生成训练框架,该框架从视频剪辑中随机选择两个帧,屏蔽一个帧的一些区域,并使用另一帧的信息学习恢复屏蔽的区域。
  • 这样,该模型从扩散模型的先验知识发展而来,能够以自我监督的方式捕捉单独图像之间的语义对应关系。

结论:作者通过实验证明了该的方法在各种测试用例下的有效性,以及它相对于现有替代方案的优越性。作者还构建了一个基准,以便于进一步研究。

与前人工作的区别

在这里插入图片描述
如图2所示:不同管道的概念比较。要编辑局部区域,除了获取源图像和源掩码(指示要编辑的区域)外,

  • 修复(Inpainting)模型还使用文本提示来指导生成。
  • 图像合成(Composition)方法采用参考图像和掩模/框来裁剪出特定的参考区域。
  • 不同的是,本方法只是需要一张参考图像,参考区域由模型本身自动发现。

具体方法

为了实现模仿编辑,作者设计了一个名为 MimicBrush 的框架,它使用双扩散 UNet 来处理源图像和参考图像

更具体地说,作者以自监督的方式训练它,从视频中随机取两个帧来模拟源图像和参考图像。由于视频帧同时包含语义对应和视觉变化,MimicBrush 学习自动发现参考区域并将其重新绘制到源图像中,并与其周围环境自然融合。

在 MimicBrush 中,作者将带 Mask 的源图像送入 Imitative U-Net,将参考图送入 Reference U-Net。然后 将Reference U-Net 的注意力键和值注入到 Imitative U-Net 中,这有助于重建 Mask 区域。如图 1 所示,MimicBrush 克服了源图像和参考图像在不同姿势、光照甚至类别上的差异。生成区域高度保留了参考图像中视觉概念的细节,并与背景和谐互动。
在这里插入图片描述
图3 所示:MimicBrush 的训练过程。

  • 首先,作者从视频序列中随机抽取两帧作为参考图像和源图像。
  • 然后对源图像进行掩蔽 Mask ,并对源图像进行数据增强。
  • 然后,再将源图像的噪声图像潜像、掩模、背景潜像和深度潜像输入到 Imitative U-Net中。
  • 参考图像也被增强并发送到 Reference U-Net。
  • 训练双U-Nets以恢复源图像的掩蔽区域。
  • 其中,Reference U-Net的注意力键和值(Key、Query)与 Imitative U-Net连接,以帮助合成掩蔽区域。

任务定义和评估标准

在这里插入图片描述
图4展示了本文的基准示例。它涵盖了部分合成 Part Composition(第一行)和纹理迁移 Texture Transfer(第二行)的任务。每个任务都包括一个内部ID和内部ID track。在示例图像旁边示出了每个 track 的注释数据和评估度量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/854183.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开放式耳机哪个品牌质量比较好?2024高性价比机型推荐!

随着音乐技术的不断进步,耳机也必不可少,开放式耳机成为一部分音乐发烧友们的选择。从最初的简单音质系统,到如今的高清解析,开放式耳机也在不断升级。音质也能够和入耳式一样纯净自然,佩戴舒适,无论是街头…

清华停招土木,新增地球科学引热议

早在今年2月26日,多个自媒体平台上有人发布消息称“清华大学停止土木工程等专业招生”,引发广泛关注。 在清华大学的官网可以看到下图的公告。 可以看到,清华大学停招土木工程等专业,新增地球系统科学等专业。这一举措引起全网热…

亚马逊测评沃尔玛下单砍单率、死号率高是什么原因?

很多卖家和服务商在进行自养号测评补单过程中会出现砍单率、封号率高的问题,其实造成这种的原因很多,一套稳定的测评系统并不是单解决IP的纯净度问题或者支付卡的卡头风控问题就可以解决的,亚马逊测评下单砍单率、死号率高的原因可以归纳为以…

Vue50-mixin混入

一、为什么要使用 mixin混入 两个组件共享一个配置。 二、使用 mixin混入 2-1、创建一个混合js文件 2-2、引入混合js文件 1、局部混合 在每个组件中都引入混合js文件 注意: 混合就是复用配置,vm实例中的所有的配置项,都能在混合.js文件中写…

elasticsearch过滤器filter:原理及使用

码到三十五 : 个人主页 目录 一、引言二、Elasticsearch的过滤器概述三、使用DSL进行过滤操作术语过滤范围过滤复合过滤 四、优化策略五、结语 一、引言 Elasticsearch是一个功能强大的开源搜索引擎,广泛应用于各种数据检索和处理场景。在Elasticsearch…

WPS如何合并多个word文档到一个文档中

将多个Word文档合并成一个 【插入】---》【附件】----》【文件中的文字】----》选择多个需要合并的word文档,点击确定即可。 用的工具是WPS。

MS1112驱动开发(iio框架)

作者简介: 一个平凡而乐于分享的小比特,中南民族大学通信工程专业研究生在读,研究方向无线联邦学习 擅长领域:驱动开发,嵌入式软件开发,BSP开发 作者主页:一个平凡而乐于分享的小比特的个人主页…

Qt实现单例模式:Q_GLOBAL_STATIC和Q_GLOBAL_STATIC_WITH_ARGS

目录 1.引言 2.了解Q_GLOBAL_STATIC 3.了解Q_GLOBAL_STATIC_WITH_ARGS 4.实现原理 4.1.对象的创建 4.2.QGlobalStatic 4.3.宏定义实现 4.4.注意事项 5.总结 1.引言 设计模式之单例模式-CSDN博客 所谓的全局静态对象,大多是在单例类中所见,在之前…

idea插件开发之在项目右键添加菜单

写在前面 本文看下如何在右键列表中增加菜单。 正戏 首先创建一个Action,要显示的menu选择ProjectViewPopupMenu,如下: action public class CAction extends AnAction {Overridepublic void actionPerformed(AnActionEvent e) { // …

C#语言入门详解 --- 方法(含传值 输出 引用 数组)

方法 方法标准式 <Access Specifier> <Return Type> <Method Name>(Parameter List) { Method Body } 让我们逐一对每一个模块进行解释&#xff1a; Access Specifier&#xff1a;访问修饰符&#xff0c;这决定了接下来的主题的可见性&#xff0c;包含p…

使用python绘制三维直方图

使用python绘制三维直方图 三维直方图定义特点 效果代码 三维直方图 维直方图&#xff08;3D直方图&#xff09;是一种用于展示三维数据分布情况的图表。它扩展了二维直方图的概念&#xff0c;通过在三维空间中绘制柱体来表示数据在三个维度&#xff08;X、Y、Z&#xff09;上…

结合gin框架在沙箱环境下实现电脑网站支付和当面支付

文章目录 配置支付宝开放平台编写代码测试电脑网站支付当面扫码支付 配置支付宝开放平台 支付宝开放平台 点击链接&#xff0c;扫码进入后&#xff0c;点击沙箱&#xff1a; 点击沙箱应用&#xff0c;可以看到APPID&#xff0c;接口加签方式选择系统默认密钥就行&#xff0…

基于Python的垃圾分类检测识别系统(Yolo4网络)【W8】

简介&#xff1a; 垃圾分类检测识别系统旨在利用深度学习和计算机视觉技术&#xff0c;实现对不同类别垃圾的自动识别和分类。应用环境包括Python编程语言、主流深度学习框架如TensorFlow或PyTorch&#xff0c;以及图像处理库OpenCV等&#xff0c;通过这些工具集成和优化模型&a…

成都爱尔林江院长建议近视防控从小做起,具体怎么做

预防近视应从小做起&#xff0c;知识储备多多益善。孩子如何做到近视防控&#xff1f; 成都爱尔眼科医院小儿眼科专家林江院长建议家长和孩子同时树立科学观念&#xff0c;让孩子拥有一个丰富多彩假期的同时强身健体也保护好眼睛。 不宅家、多户外 确保每天至少2个小时的户外…

解锁5G新营销:视频短信的优势与全方位推广策略

随着5G时代的全面来临&#xff0c;企业的数字化转型步伐日益加快&#xff0c;视频短信作为新兴的数字营销工具&#xff0c;正逐步展现出其巨大的潜力。视频短信群发以其独特的形式和内容&#xff0c;将图片、文字、视频、声音融为一体&#xff0c;为用户带来全新的直观感受&…

线上盲盒小程序:前景展望

在移动互联网的浪潮下&#xff0c;线上盲盒小程序作为一种新兴的购物模式&#xff0c;具有广阔的发展前景和潜力。以下是对线上盲盒小程序未来前景的展望&#xff1a; 一、市场规模持续扩大 随着消费者需求的不断增长和市场竞争的加剧&#xff0c;线上盲盒小程序的市场规模将持…

无人机比赛有哪些?

无人机比赛项目可是多种多样&#xff0c;精彩纷呈呢&#xff01; 常见的比赛项目包括S形绕桩赛、平台起降赛、应用航拍、投掷物品和定点飞行等。这些项目不仅考验无人机的性能&#xff0c;更考验飞行员的操控技巧。 在S形绕桩赛中&#xff0c;飞行员需要操控无人机快速而准确…

03-QTWebEngine中使用qtvirtualkeyboard

qt提供了 virtualKeyboard 虚拟键盘模块&#xff0c;只需要在在main函数中最开始加入这样一句就可以了 qputenv("QT_IM_MODULE", QByteArray("qtvirtualkeyboard")); 但是在使用的时候遇到了一些问题&#xff1a; 1、中文输入的时候没有输入提示 Qvirt…

【初阶数据结构】深入解析单链表:探索底层逻辑(无头单向非循环链表)

&#x1f525;引言 本篇将深入解析单链表:探索底层逻辑&#xff0c;理解底层是如何实现并了解该接口实现的优缺点&#xff0c;以便于我们在编写程序灵活地使用该数据结构。 &#x1f308;个人主页&#xff1a;是店小二呀 &#x1f308;C语言笔记专栏&#xff1a;C语言笔记 &…

springboot 酒庄内部管理系统(源码+sql+论文)

绪论 1.1 系统研究目的意义 随着信息技术的不断发展&#xff0c;我们现在已经步入了信息化的时代了&#xff0c;而信息时代的代表便是网络技术的日渐成熟&#xff0c;而现在网络已经和我们的生活紧密的联系起来了&#xff0c;我们不敢想象没有网络我们的生活会像怎么样&#…