背景:考虑到用户的不同需求,图像编辑是一项实用而富有挑战性的任务,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。
创新点:在本文作者提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥他们的创造力。
- 具体地说,为了编辑感兴趣的图像区域,用户可以自由地直接从一些野生参考中获得灵感(例如,一些在线的相对图片),而不必处理参考和来源之间的匹配问题。
- 这样的设计要求系统自动地从参考中找出期望执行编辑的内容。
- 为此,作者提出了一种称为 MimicBrush 的生成训练框架,该框架从视频剪辑中随机选择两个帧,屏蔽一个帧的一些区域,并使用另一帧的信息学习恢复屏蔽的区域。
- 这样,该模型从扩散模型的先验知识发展而来,能够以自我监督的方式捕捉单独图像之间的语义对应关系。
结论:作者通过实验证明了该的方法在各种测试用例下的有效性,以及它相对于现有替代方案的优越性。作者还构建了一个基准,以便于进一步研究。
与前人工作的区别
如图2所示:不同管道的概念比较。要编辑局部区域,除了获取源图像和源掩码(指示要编辑的区域)外,
- 修复(Inpainting)模型还使用文本提示来指导生成。
- 图像合成(Composition)方法采用参考图像和掩模/框来裁剪出特定的参考区域。
- 不同的是,本方法只是需要一张参考图像,参考区域由模型本身自动发现。
具体方法
为了实现模仿编辑,作者设计了一个名为 MimicBrush 的框架,它使用双扩散 UNet 来处理源图像和参考图像。
更具体地说,作者以自监督的方式训练它,从视频中随机取两个帧来模拟源图像和参考图像。由于视频帧同时包含语义对应和视觉变化,MimicBrush 学习自动发现参考区域并将其重新绘制到源图像中,并与其周围环境自然融合。
在 MimicBrush 中,作者将带 Mask 的源图像送入 Imitative U-Net,将参考图送入 Reference U-Net。然后 将Reference U-Net 的注意力键和值注入到 Imitative U-Net 中,这有助于重建 Mask 区域。如图 1 所示,MimicBrush 克服了源图像和参考图像在不同姿势、光照甚至类别上的差异。生成区域高度保留了参考图像中视觉概念的细节,并与背景和谐互动。
图3 所示:MimicBrush 的训练过程。
- 首先,作者从视频序列中随机抽取两帧作为参考图像和源图像。
- 然后对源图像进行掩蔽 Mask ,并对源图像进行数据增强。
- 然后,再将源图像的噪声图像潜像、掩模、背景潜像和深度潜像输入到 Imitative U-Net中。
- 参考图像也被增强并发送到 Reference U-Net。
- 训练双U-Nets以恢复源图像的掩蔽区域。
- 其中,Reference U-Net的注意力键和值(Key、Query)与 Imitative U-Net连接,以帮助合成掩蔽区域。
任务定义和评估标准
图4展示了本文的基准示例。它涵盖了部分合成 Part Composition(第一行)和纹理迁移 Texture Transfer(第二行)的任务。每个任务都包括一个内部ID和内部ID track。在示例图像旁边示出了每个 track 的注释数据和评估度量。