最新综述：多模态引导的基于文生图大模型的图像编辑算法

近期，复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图（Text-to-Image，T2I）大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究，调研的最新模型截止至今年 6 月。

论文：A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models

作者：Xincheng Shuai, Henghui Ding, Xingjun Ma, Rongcheng Tu, Yu-Gang Jiang, Dacheng Tao
机构：复旦大学 FVL 实验室，南洋理工大学
研究主题：图像和视频编辑、多模态学习
论文地址：https://arxiv.org/abs/2406.14555
项目地址：https://github.com/xinchengshuai/Awesome-Image-Editing

在这里插入图片描述

图2.综述框架

图像编辑旨在根据用户的特定需求编辑给定的合成图像或真实图像。作为人工智能生成内容（AIGC）领域中一个有前景且具有挑战性的领域，图像编辑得到了广泛研究。

近期，大规模文生图（T2I）扩散模型驱动了图像编辑技术的发展。这些模型根据文本提示生成图像，展示了惊人的生成能力，已成为图像编辑的常用工具。基于 T2I 的图像编辑方法显著提升了编辑性能，为用户提供了使用多模态条件引导进行内容修改的接口。

该论文对基于 T2I 扩散模型的多模态引导下的图像编辑技术进行了全面回顾。

该综述主要包括：

相比于现有的算法以及此前的编辑综述，该论文对于图像编辑任务的定义更加广泛。

具体地，论文将编辑任务分为 content-aware 和 content-free 场景组。

content-aware 场景组：组内的场景为之前的文献所讨论的主要任务，它们的共性是保留图像中的一些低级语义特征，如编辑无关区域的像素内容，或图像结构。
content-free 场景组：论文将定制化任务（customization）纳入到此场景组中，将这一类保留高级语义（如主体身份信息，或者其他细粒度属性）的任务作为对常规的编辑场景的补充。

在这里插入图片描述

图 1. Survey 讨论的各种编辑场景

由于编辑场景的多样性，现有的算法无法很好的解决所有的需求。因此论文将现有的编辑过程形式化为一个统一的框架，将其表示为两个算法族的组合。

此外，论文也通过定性和定量实验分析了不同组合的特性与适应场景，为用户提供了一个良好的设计空间以适应不同的编辑目标。同时，该框架也为研究者们提供了一个较好的参考，以设计出性能更优的算法。

在这里插入图片描述

图 3. 一般性编辑算法的统一框架

在这里插入图片描述

图 15. Content-aware 任务的注入方案

在这里插入图片描述

图 16. Content-free 任务的注入方案

论文通过定性实验说明了各个组合在多模态编辑任务中的应用：

在这里插入图片描述

对于常见的文本引导的编辑任务，研究者通过设计了多个具有挑战性的定性实验，以说明不同组合所适合的编辑场景。

此外，该研究也相应地收集了高质量和具有一定难度的数据集，以定量地说明各种组合中的先进算法在不同场景下的性能。

对于 content-aware 任务，研究者主要考虑对象操作（增 / 删 / 替换），属性改变，风格迁移。

特别地，研究者考虑了具有挑战性的实验设置：

研究者也收集了这些复杂场景的高质量图片，并对不同组合中的先进算法进行全面定量比较。

在这里插入图片描述

图13. Content-aware 任务中各个组合的定性比较

对于 content-free 任务，研究者主要考虑基于主体驱动的（subject-driven）定制化任务，并考虑了多种场景，如更换背景，与物体交互，行为改变，以及风格改变。

研究者也定义了大量的文本引导模板，并对各个方法的整体性能进行定量分析。

在这里插入图片描述

图 14.Content-free 任务中各个组合的定性比较

Content-aware 任务的挑战。对于 content-aware 编辑任务的挑战，现有方法无法同时处理多种编辑场景和控制信号。这一限制迫使应用在不同任务之间切换合适的后端算法。此外，一些高级方法在易用性方面不友好。某些方法需要用户调整关键参数以获得最佳结果，而其他方法则需要繁琐的输入，例如源和目标提示，或辅助掩码。
Content-free 任务的挑战。对于 content-free 编辑任务，现有方法在测试时调优过程冗长且存在过拟合问题。一些研究旨在通过优化少量参数或从头开始训练模型来缓解这一问题。然而，它们常常会丢失个性化主体的细节，或表现出较差的泛化能力。此外，当前方法在从少量图像中提取抽象概念方面也有所不足，它们无法完全将所需概念与其他视觉元素分离开来。

欢迎各位关注我的个人微信公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。