【可控图像生成系列论文(一)】MimicBrush 港大、阿里、蚂蚁集团合作论文解读

在这里插入图片描述
背景:考虑到用户的不同需求,图像编辑是一项实用而富有挑战性的任务,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。

创新点:在本文作者提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥他们的创造力。

  • 具体地说,为了编辑感兴趣的图像区域,用户可以自由地直接从一些野生参考中获得灵感(例如,一些在线的相对图片),而不必处理参考和来源之间的匹配问题。
  • 这样的设计要求系统自动地从参考中找出期望执行编辑的内容。
  • 为此,作者提出了一种称为 MimicBrush 的生成训练框架,该框架从视频剪辑中随机选择两个帧,屏蔽一个帧的一些区域,并使用另一帧的信息学习恢复屏蔽的区域。
  • 这样,该模型从扩散模型的先验知识发展而来,能够以自我监督的方式捕捉单独图像之间的语义对应关系。

结论:作者通过实验证明了该的方法在各种测试用例下的有效性,以及它相对于现有替代方案的优越性。作者还构建了一个基准,以便于进一步研究。

与前人工作的区别

在这里插入图片描述
如图2所示:不同管道的概念比较。要编辑局部区域,除了获取源图像和源掩码(指示要编辑的区域)外,

  • 修复(Inpainting)模型还使用文本提示来指导生成。
  • 图像合成(Composition)方法采用参考图像和掩模/框来裁剪出特定的参考区域。
  • 不同的是,本方法只是需要一张参考图像,参考区域由模型本身自动发现。

具体方法

为了实现模仿编辑,作者设计了一个名为 MimicBrush 的框架,它使用双扩散 UNet 来处理源图像和参考图像

更具体地说,作者以自监督的方式训练它,从视频中随机取两个帧来模拟源图像和参考图像。由于视频帧同时包含语义对应和视觉变化,MimicBrush 学习自动发现参考区域并将其重新绘制到源图像中,并与其周围环境自然融合。

在 MimicBrush 中,作者将带 Mask 的源图像送入 Imitative U-Net,将参考图送入 Reference U-Net。然后 将Reference U-Net 的注意力键和值注入到 Imitative U-Net 中,这有助于重建 Mask 区域。如图 1 所示,MimicBrush 克服了源图像和参考图像在不同姿势、光照甚至类别上的差异。生成区域高度保留了参考图像中视觉概念的细节,并与背景和谐互动。
在这里插入图片描述
图3 所示:MimicBrush 的训练过程。

  • 首先,作者从视频序列中随机抽取两帧作为参考图像和源图像。
  • 然后对源图像进行掩蔽 Mask ,并对源图像进行数据增强。
  • 然后,再将源图像的噪声图像潜像、掩模、背景潜像和深度潜像输入到 Imitative U-Net中。
  • 参考图像也被增强并发送到 Reference U-Net。
  • 训练双U-Nets以恢复源图像的掩蔽区域。
  • 其中,Reference U-Net的注意力键和值(Key、Query)与 Imitative U-Net连接,以帮助合成掩蔽区域。

任务定义和评估标准

在这里插入图片描述
图4展示了本文的基准示例。它涵盖了部分合成 Part Composition(第一行)和纹理迁移 Texture Transfer(第二行)的任务。每个任务都包括一个内部ID和内部ID track。在示例图像旁边示出了每个 track 的注释数据和评估度量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/854183.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开放式耳机哪个品牌质量比较好?2024高性价比机型推荐!

随着音乐技术的不断进步,耳机也必不可少,开放式耳机成为一部分音乐发烧友们的选择。从最初的简单音质系统,到如今的高清解析,开放式耳机也在不断升级。音质也能够和入耳式一样纯净自然,佩戴舒适,无论是街头…

使用同步和异步方式更新插入MongoDB数据的性能对比

在这篇文章中,我将探讨如何使用同步和异步方式插入数据到MongoDB,并对两种方式的性能进行对比。并将通过Python中的 pymongo 和 motor 库分别实现同步和异步的数据插入,并进行测试和分析。 项目结构 MongoDB 连接设置:设置Mongo…

清华停招土木,新增地球科学引热议

早在今年2月26日,多个自媒体平台上有人发布消息称“清华大学停止土木工程等专业招生”,引发广泛关注。 在清华大学的官网可以看到下图的公告。 可以看到,清华大学停招土木工程等专业,新增地球系统科学等专业。这一举措引起全网热…

所有报表情况查询明细

Select a.Id, b.组Id, a.编号, a.名称, a.说明, a.程序id, a.修改时间, a.发布时间, a.系统, a.最后执行时间, Decode(Nvl(A.票据, 0), 1, 票据, 报表) 种类, Decode(Nvl(A.系统, 0), 0, 自制, 系统) 类型, a.执行人员 最后执行人, zlSpellCode(a.名称) 简码, d.…

OpenCV之cv::createTrackbar

在 OpenCV 中,cv::createTrackbar 是一个用于创建滑动条的函数,通常用于图像处理中的交互式参数调节。它允许用户通过滑动条来动态调整某个参数的值,从而实时观察其对图像处理结果的影响。 使用方法 包含头文件: 首先&#xff0c…

中文分词:Python、Golang、Java

常见的中文分词库 开源库语言说明jiebaPython最好的 Python 中文分词组件HanLPPython一系列模型与算法组成的NLP工具包FoolNLTKPython可能是最准的开源中文分词JcsegJava轻量级 Java 中文分词器AnsjJava基于 n-GramCRFHMM 的中文分词的 Java 实现wordJavaJava 分布式中文分词组…

亚马逊测评沃尔玛下单砍单率、死号率高是什么原因?

很多卖家和服务商在进行自养号测评补单过程中会出现砍单率、封号率高的问题,其实造成这种的原因很多,一套稳定的测评系统并不是单解决IP的纯净度问题或者支付卡的卡头风控问题就可以解决的,亚马逊测评下单砍单率、死号率高的原因可以归纳为以…

Vue50-mixin混入

一、为什么要使用 mixin混入 两个组件共享一个配置。 二、使用 mixin混入 2-1、创建一个混合js文件 2-2、引入混合js文件 1、局部混合 在每个组件中都引入混合js文件 注意: 混合就是复用配置,vm实例中的所有的配置项,都能在混合.js文件中写…

elasticsearch过滤器filter:原理及使用

码到三十五 : 个人主页 目录 一、引言二、Elasticsearch的过滤器概述三、使用DSL进行过滤操作术语过滤范围过滤复合过滤 四、优化策略五、结语 一、引言 Elasticsearch是一个功能强大的开源搜索引擎,广泛应用于各种数据检索和处理场景。在Elasticsearch…

WPS如何合并多个word文档到一个文档中

将多个Word文档合并成一个 【插入】---》【附件】----》【文件中的文字】----》选择多个需要合并的word文档,点击确定即可。 用的工具是WPS。

高级优化理论与方法(十五)

高级优化理论与方法(十五) Algorithms for Constrained OptimizationProjectionIdeaExampleMethodProblemSolutionOrthogonal ProjectorDefinitionRemarkLemmaTheorem ProjectionProjected steepest descentPropertiesTheoremProperties Lagranges Algor…

Qt插件系统

概述 Qt提供了两个用于创建插件的api: 一个高级API,用于编写Qt本身的扩展:自定义数据库驱动程序,图像格式,文本编解码器,自定义样式等。用于扩展Qt应用程序的低级API。 例如,如果您想编写一个自定义的QStyle子类并让…

MS1112驱动开发(iio框架)

作者简介: 一个平凡而乐于分享的小比特,中南民族大学通信工程专业研究生在读,研究方向无线联邦学习 擅长领域:驱动开发,嵌入式软件开发,BSP开发 作者主页:一个平凡而乐于分享的小比特的个人主页…

Qt实现单例模式:Q_GLOBAL_STATIC和Q_GLOBAL_STATIC_WITH_ARGS

目录 1.引言 2.了解Q_GLOBAL_STATIC 3.了解Q_GLOBAL_STATIC_WITH_ARGS 4.实现原理 4.1.对象的创建 4.2.QGlobalStatic 4.3.宏定义实现 4.4.注意事项 5.总结 1.引言 设计模式之单例模式-CSDN博客 所谓的全局静态对象,大多是在单例类中所见,在之前…

工具链 之 Vite 开发服务器所有选项解析(三)

server 配置 // vite.config.js import { defineConfig } from vite // https://vitejs.dev/config/ export default defineConfig({ server: { origin: http://127.0.0.1:8080, //用于定义开发调试阶段生成资源的 originhost: 0.0.0.0, // 监听所有可用的网络接口 po…

idea插件开发之在项目右键添加菜单

写在前面 本文看下如何在右键列表中增加菜单。 正戏 首先创建一个Action,要显示的menu选择ProjectViewPopupMenu,如下: action public class CAction extends AnAction {Overridepublic void actionPerformed(AnActionEvent e) { // …

MATLAB算法实战应用案例精讲-【数模应用】偏相关分析(附MATLAB、python和R语言代码实现)

目录 前言 知识储备 相关性分析 一、实际应用 二、理论思想 三、操作过程 四、结果分析 算法原理 什么是偏相关 数学模型 (一) 偏相关系数r (二) 假设检验 偏相关分析过程 偏相关分析的SPSS实现 SPSS、EXCLE实现偏相关分析 STATA SPSSPRO 1、作用 2、输入输…

C#语言入门详解 --- 方法(含传值 输出 引用 数组)

方法 方法标准式 <Access Specifier> <Return Type> <Method Name>(Parameter List) { Method Body } 让我们逐一对每一个模块进行解释&#xff1a; Access Specifier&#xff1a;访问修饰符&#xff0c;这决定了接下来的主题的可见性&#xff0c;包含p…

使用python绘制三维直方图

使用python绘制三维直方图 三维直方图定义特点 效果代码 三维直方图 维直方图&#xff08;3D直方图&#xff09;是一种用于展示三维数据分布情况的图表。它扩展了二维直方图的概念&#xff0c;通过在三维空间中绘制柱体来表示数据在三个维度&#xff08;X、Y、Z&#xff09;上…

漏斗限流(leaky bucket)

漏斗限流(leaky bucket&#xff09; 介绍工作原理leaky bucket实现示例&#xff1a;搭配pool池pool.lua示例搭配示例 对象池&#xff08;pool&#xff09;结合漏斗限流&#xff08;leaky bucket&#xff09;的好处&#xff1a; 介绍 漏斗限流&#xff08;leaky bucket&#xff…