最新综述:多模态引导的基于文生图大模型的图像编辑算法

文章目录

    • 综述亮点
      • 1. 图像编辑任务的范围
      • 2. 一般性编辑算法的统一框架
      • 3. 统一框架在多模态编辑任务中的应用
      • 4. 不同组合在文本引导编辑场景下的比较
      • 5. 未来研究方向

近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图(Text-to-Image,T2I)大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究,调研的最新模型截止至今年 6 月。

论文:A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models

  • 作者:Xincheng Shuai, Henghui Ding, Xingjun Ma, Rongcheng Tu, Yu-Gang Jiang, Dacheng Tao
  • 机构:复旦大学 FVL 实验室,南洋理工大学
  • 研究主题:图像和视频编辑、多模态学习
  • 论文地址:https://arxiv.org/abs/2406.14555
  • 项目地址:https://github.com/xinchengshuai/Awesome-Image-Editing

在这里插入图片描述

图2.综述框架

图像编辑旨在根据用户的特定需求编辑给定的合成图像或真实图像。作为人工智能生成内容(AIGC)领域中一个有前景且具有挑战性的领域,图像编辑得到了广泛研究。

近期,大规模文生图(T2I)扩散模型驱动了图像编辑技术的发展。这些模型根据文本提示生成图像,展示了惊人的生成能力,已成为图像编辑的常用工具。基于 T2I 的图像编辑方法显著提升了编辑性能,为用户提供了使用多模态条件引导进行内容修改的接口。

该论文对基于 T2I 扩散模型的多模态引导下的图像编辑技术进行了全面回顾。

该综述主要包括:

  1. 从更一般性的角度定义了图像编辑任务的范围,并详细描述了各种控制信号和编辑场景。
  2. 该综述提出了一个统一框架将编辑过程表示为不同算法族的组合。这个框架为用户提供了一个设计空间,以实现特定目标。
  3. 通过全面的定性和定量实验来说明各种组合的特性以及适应场景。
  4. 回顾了 2D 技术在视频编辑中的应用,重点介绍了解决帧间不一致性的问题。
  5. 最后也讨论了该领域的开放性挑战,并提出了潜在的未来研究方向。

综述亮点

1. 图像编辑任务的范围

相比于现有的算法以及此前的编辑综述,该论文对于图像编辑任务的定义更加广泛。

具体地,论文将编辑任务分为 content-aware 和 content-free 场景组。

  • content-aware 场景组:组内的场景为之前的文献所讨论的主要任务,它们的共性是保留图像中的一些低级语义特征,如编辑无关区域的像素内容,或图像结构。
  • content-free 场景组:论文将定制化任务(customization)纳入到此场景组中,将这一类保留高级语义(如主体身份信息,或者其他细粒度属性)的任务作为对常规的编辑场景的补充。

在这里插入图片描述

图 1. Survey 讨论的各种编辑场景

2. 一般性编辑算法的统一框架

由于编辑场景的多样性,现有的算法无法很好的解决所有的需求。因此论文将现有的编辑过程形式化为一个统一的框架,将其表示为两个算法族的组合。

此外,论文也通过定性和定量实验分析了不同组合的特性与适应场景,为用户提供了一个良好的设计空间以适应不同的编辑目标。同时,该框架也为研究者们提供了一个较好的参考,以设计出性能更优的算法。

在这里插入图片描述

图 3. 一般性编辑算法的统一框架

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

图 15. Content-aware 任务的注入方案

在这里插入图片描述

图 16. Content-free 任务的注入方案

3. 统一框架在多模态编辑任务中的应用

论文通过定性实验说明了各个组合在多模态编辑任务中的应用:

在这里插入图片描述

4. 不同组合在文本引导编辑场景下的比较

对于常见的文本引导的编辑任务,研究者通过设计了多个具有挑战性的定性实验,以说明不同组合所适合的编辑场景。

此外,该研究也相应地收集了高质量和具有一定难度的数据集,以定量地说明各种组合中的先进算法在不同场景下的性能。

对于 content-aware 任务,研究者主要考虑对象操作(增 / 删 / 替换),属性改变,风格迁移。

特别地,研究者考虑了具有挑战性的实验设置:

  1. 多目标编辑。
  2. 对于图像的语义布局影响较大的用例。

研究者也收集了这些复杂场景的高质量图片,并对不同组合中的先进算法进行全面定量比较。

在这里插入图片描述

图13. Content-aware 任务中各个组合的定性比较

对于 content-free 任务,研究者主要考虑基于主体驱动的(subject-driven)定制化任务,并考虑了多种场景,如更换背景,与物体交互,行为改变,以及风格改变。

研究者也定义了大量的文本引导模板,并对各个方法的整体性能进行定量分析。

在这里插入图片描述

图 14.Content-free 任务中各个组合的定性比较

5. 未来研究方向

  1. Content-aware 任务的挑战。对于 content-aware 编辑任务的挑战,现有方法无法同时处理多种编辑场景和控制信号。这一限制迫使应用在不同任务之间切换合适的后端算法。此外,一些高级方法在易用性方面不友好。某些方法需要用户调整关键参数以获得最佳结果,而其他方法则需要繁琐的输入,例如源和目标提示,或辅助掩码。

  2. Content-free 任务的挑战。对于 content-free 编辑任务,现有方法在测试时调优过程冗长且存在过拟合问题 。一些研究旨在通过优化少量参数或从头开始训练模型来缓解这一问题。然而,它们常常会丢失个性化主体的细节,或表现出较差的泛化能力。此外,当前方法在从少量图像中提取抽象概念方面也有所不足,它们无法完全将所需概念与其他视觉元素分离开来。

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/43436.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

01-引论-操作系统的目标和作用

操作系统的目标 1.方便性 2.有效性 3.可扩充性 4.开放性 操作系统的目标与应用环境有关 在不同的应用环境下,操作系统的重点和功能可能会有所不同。例如,对于桌面操作系统,用户界面的友好性和多媒体功能可能是重点;对于服务…

职升网:考取中专文凭的途径主要有三种!

考取中专文凭的途径主要有三种:成人高考、网络教育和自学考试。以下是针对每种途径的详细解释和说明: 成人高考 适合人群:适合已经工作的成年人,特别是希望在工作之余提升学历的人群。 报考层次:可以选择高起专或高…

使用bypy丝滑传递百度网盘-服务器文件

前言 还在为百度网盘的数据集难以给服务器做同步而痛苦吗,bypy来拯救你了!bypy是一个强大而灵活的百度网盘命令行客户端工具。它是基于Python开发的开源项目,为用户提供了一种通过命令行界面与百度网盘进行交互的方式。使用bypy,…

博美犬插画:成都亚恒丰创教育科技有限公司

​博美犬插画:萌动心灵的细腻笔触 在浩瀚的艺术海洋中,有一种艺术形式总能以它独有的温柔与细腻,触动人心最柔软的部分——那便是插画。而当插画遇上博美犬这一萌宠界的明星,便诞生了一幅幅令人爱不释手的作品,成都亚…

ProFormList --复杂数据联动ProFormDependency

需求&#xff1a; &#xff08;1&#xff09;数据联动&#xff1a;测试数据1、2互相依赖&#xff0c;测试数据1<测试数据2,测试数据2>测试数据1。 &#xff08;2&#xff09;点击添加按钮&#xff0c;添加一行。 &#xff08;3&#xff09;自定义操作按钮。 &#xff0…

To美术-渲染管线及优化方向(CPU方向)

一、CPU与GPU 1、CPU与GPU的区别 橙黄色&#xff1a;控制单元   橙红色&#xff1a;存储单元  绿色&#xff1a;计算单元 CPU:结构组成复杂、控制逻辑丰富&#xff0c;计算量小&#xff0c;适合复杂运算 GPU&#xff1a;结构组成简单&#xff0c;核心数量多&#xff0c;计…

吴恩达机器学习笔记2.1 - 什么是机器学习

吴恩达机器学习笔记2.1 - 什么是机器学习 最早的机器学习 1959年&#xff0c;亚瑟塞缪尔(Arthur Samuel)将机器学习定义为“Field of study that gives computers the ability to learn without being explicitly programmed”&#xff08;无需编程即可学习的研究领域&#xf…

ROS中不同文件之间的引用小结

在比较大的一些程序中&#xff0c;往往会涉及到一些不同模块的调用&#xff0c;如果这些东西放在一个.cpp文件内&#xff0c;这个文件会变的特别长&#xff0c;因此会使用多个文件互相引用。那么如何在ROS下进行这种不同文件下的引用呢&#xff0c;根据最近所学&#xff0c;简单…

tomcat 安装和优化

tomcatat tomcat和http一样&#xff0c;都是用来处理动态页面的 tomcat也可以作为web服务器&#xff0c;开源的 php.php tomcat.jsp nginx.html tomcat使用java代码写的程序&#xff0c;运行的是java的web服务程序 tomcat的特点和功能&#xff1a; 1、servlet容器&…

MySQL——第一次作业

部署MySQL 8.0环境 1&#xff0c;删除之前存在的MySQL程序 控制面板删除 2&#xff0c;删除完成后下载MySQL 官网&#xff1a; https://www.mysql.com 在window下下载MSI版本 3&#xff0c;自定义安装 4&#xff0c;配置环境变量 1&#xff0c;系统高级系统设置 2&#xff…

子序列问题

目录 最长递增子序列 摆动序列 最长递增子序列的个数 最长数对链 最长定差子序列 最长的斐波那契子序列的长度 最长等差数列 等差数列划分II-子序列 声明&#xff1a;接下来主要使用动态规划来解决问题&#xff01;&#xff01;&#xff01; 最长递增子序列 题目 思路…

如何通过文件分发系统,实现能源电力企业文件的安全分发流转?

随着企业业务的快速发展&#xff0c;能源电力企业会在全国乃至全球&#xff0c;设立总部-分部-办事处/网点等多层级的结构&#xff0c;因此会涉及自动化的文件分发的业务场景。文件分发系统是一种将文件从一个地方自动传输到多个接收者的过程&#xff0c;可以提高工作效率&…

香港优才计划多少分获批成功率高?一文看懂各分数段获批情况!

有留意香港优才计划的朋友&#xff0c;应该都了解过&#xff0c;申请优才计划采用打分制&#xff0c;得分多少与最终获批有密不可分的关系。但有一点要提前清楚&#xff0c;申请优才不是得分越高就一定能获批&#xff0c;也不是得分低就一定没希望。 香港优才计划能否获批成功…

正确理解驱动电流与驱动速度

本文主要阐述了在驱动芯片中表征驱动能力的关键参数&#xff1a;驱动电流和驱动时间的关系&#xff0c;并且通过实验解释了如何正确理解这些参数在实际应用中的表现。 驱动芯片概述 功率器件如MOSFET、IGBT需要驱动电路的配合从而得以正常地工作。图1显示了一个驱动芯片驱动一…

迅狐抖音机构号授权矩阵系统源码

在数字化营销的浪潮中&#xff0c;抖音以其独特的短视频形式迅速崛起&#xff0c;成为品牌传播和用户互动的重要平台。迅狐抖音机构号授权矩阵系统源码作为一项创新技术&#xff0c;为品牌在抖音上的深度运营提供了强大支持。 迅狐抖音机构号授权矩阵系统源码简介 迅狐抖音机…

新版Android Studio中设置gradle的JDK版本

旧版android studio 在旧版&#xff08;具体哪个版本号之前搞不清了&#xff09;中设置JDK版本在>File——>Project Structure——>SDK location——>Gradle Setting——>Gradle SDK 新版android studio 某次更新后发现SDK location下找不到Gradle Setting选项…

通过Vxlan实现数据中心互联有感

随着企业的发展&#xff0c;为满足跨地域运营、用户接入、异地灾备等场景&#xff0c;越来越多的企业通常在多地域部署多个数据中心。 数据中心互联DCl(Data Center Interconnection)是不同数据中心VM之间互相通信的一种解决方案使用VXLAN、BGP EVPN等技术&#xff0c;使数据中…

uniapp+uview实现手机端上传照片带水印(保姆级全过程)

目录 前言&#xff1a;实现思路 步骤一、在界面使用uview的u-upload组件、放置canvas标签 步骤二、在afterRead方法中获取照片url&#xff0c;并创建画布生成水印&#xff0c;再将生成水印的照片上传到服务器 1、afterRead方法 2、照片加水印的方法 3、上传照片至服务器 …

zookeeper加入开机启动项

Windows的任务计划程序&#xff08;Task Scheduler&#xff09;是一个强大的工具&#xff0c;允许你安排程序在特定时间自动运行&#xff0c;包括开机时。 打开任务计划程序&#xff1a; 按下Win R键&#xff0c;打开“运行”对话框。输入taskschd.msc并回车&#xff0c;打开…

Python编写网络嗅探器程序捕获和显示IP数据包的头部信息

Python编写网络嗅探器程序捕获和显示IP数据包的头部信息 抓取网络数据包并解析其中的IP首部信息&#xff0c;并通过GUI界面显示解析结果。程序展示了如何使用Python的socket和ctypes库来捕获和解析网络数据包,并使用Tkinter创建一个简单的GUI界面来显示捕获到的IP头部信息。这…