【可控图像生成系列论文（一）】MimicBrush 港大、阿里、蚂蚁集团合作论文解读

在这里插入图片描述
背景：考虑到用户的不同需求，图像编辑是一项实用而富有挑战性的任务，其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。

创新点：在本文作者提出了一种新的编辑形式，称为模仿编辑，以帮助用户更方便地发挥他们的创造力。

具体地说，为了编辑感兴趣的图像区域，用户可以自由地直接从一些野生参考中获得灵感（例如，一些在线的相对图片），而不必处理参考和来源之间的匹配问题。
这样的设计要求系统自动地从参考中找出期望执行编辑的内容。
为此，作者提出了一种称为 MimicBrush 的生成训练框架，该框架从视频剪辑中随机选择两个帧，屏蔽一个帧的一些区域，并使用另一帧的信息学习恢复屏蔽的区域。
这样，该模型从扩散模型的先验知识发展而来，能够以自我监督的方式捕捉单独图像之间的语义对应关系。

结论：作者通过实验证明了该的方法在各种测试用例下的有效性，以及它相对于现有替代方案的优越性。作者还构建了一个基准，以便于进一步研究。

与前人工作的区别

在这里插入图片描述
如图2所示：不同管道的概念比较。要编辑局部区域，除了获取源图像和源掩码（指示要编辑的区域）外，

修复（Inpainting）模型还使用文本提示来指导生成。
图像合成（Composition）方法采用参考图像和掩模/框来裁剪出特定的参考区域。
不同的是，本方法只是需要一张参考图像，参考区域由模型本身自动发现。

具体方法

为了实现模仿编辑，作者设计了一个名为 MimicBrush 的框架，它使用双扩散 UNet 来处理源图像和参考图像。

更具体地说，作者以自监督的方式训练它，从视频中随机取两个帧来模拟源图像和参考图像。由于视频帧同时包含语义对应和视觉变化，MimicBrush 学习自动发现参考区域并将其重新绘制到源图像中，并与其周围环境自然融合。

在 MimicBrush 中，作者将带 Mask 的源图像送入 Imitative U-Net，将参考图送入 Reference U-Net。然后将Reference U-Net 的注意力键和值注入到 Imitative U-Net 中，这有助于重建 Mask 区域。如图 1 所示，MimicBrush 克服了源图像和参考图像在不同姿势、光照甚至类别上的差异。生成区域高度保留了参考图像中视觉概念的细节，并与背景和谐互动。
在这里插入图片描述
图3 所示：MimicBrush 的训练过程。