最新综述:多模态引导的基于文生图大模型的图像编辑算法

文章目录

    • 综述亮点
      • 1. 图像编辑任务的范围
      • 2. 一般性编辑算法的统一框架
      • 3. 统一框架在多模态编辑任务中的应用
      • 4. 不同组合在文本引导编辑场景下的比较
      • 5. 未来研究方向

近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图(Text-to-Image,T2I)大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究,调研的最新模型截止至今年 6 月。

论文:A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models

  • 作者:Xincheng Shuai, Henghui Ding, Xingjun Ma, Rongcheng Tu, Yu-Gang Jiang, Dacheng Tao
  • 机构:复旦大学 FVL 实验室,南洋理工大学
  • 研究主题:图像和视频编辑、多模态学习
  • 论文地址:https://arxiv.org/abs/2406.14555
  • 项目地址:https://github.com/xinchengshuai/Awesome-Image-Editing

在这里插入图片描述

图2.综述框架

图像编辑旨在根据用户的特定需求编辑给定的合成图像或真实图像。作为人工智能生成内容(AIGC)领域中一个有前景且具有挑战性的领域,图像编辑得到了广泛研究。

近期,大规模文生图(T2I)扩散模型驱动了图像编辑技术的发展。这些模型根据文本提示生成图像,展示了惊人的生成能力,已成为图像编辑的常用工具。基于 T2I 的图像编辑方法显著提升了编辑性能,为用户提供了使用多模态条件引导进行内容修改的接口。

该论文对基于 T2I 扩散模型的多模态引导下的图像编辑技术进行了全面回顾。

该综述主要包括:

  1. 从更一般性的角度定义了图像编辑任务的范围,并详细描述了各种控制信号和编辑场景。
  2. 该综述提出了一个统一框架将编辑过程表示为不同算法族的组合。这个框架为用户提供了一个设计空间,以实现特定目标。
  3. 通过全面的定性和定量实验来说明各种组合的特性以及适应场景。
  4. 回顾了 2D 技术在视频编辑中的应用,重点介绍了解决帧间不一致性的问题。
  5. 最后也讨论了该领域的开放性挑战,并提出了潜在的未来研究方向。

综述亮点

1. 图像编辑任务的范围

相比于现有的算法以及此前的编辑综述,该论文对于图像编辑任务的定义更加广泛。

具体地,论文将编辑任务分为 content-aware 和 content-free 场景组。

  • content-aware 场景组:组内的场景为之前的文献所讨论的主要任务,它们的共性是保留图像中的一些低级语义特征,如编辑无关区域的像素内容,或图像结构。
  • content-free 场景组:论文将定制化任务(customization)纳入到此场景组中,将这一类保留高级语义(如主体身份信息,或者其他细粒度属性)的任务作为对常规的编辑场景的补充。

在这里插入图片描述

图 1. Survey 讨论的各种编辑场景

2. 一般性编辑算法的统一框架

由于编辑场景的多样性,现有的算法无法很好的解决所有的需求。因此论文将现有的编辑过程形式化为一个统一的框架,将其表示为两个算法族的组合。

此外,论文也通过定性和定量实验分析了不同组合的特性与适应场景,为用户提供了一个良好的设计空间以适应不同的编辑目标。同时,该框架也为研究者们提供了一个较好的参考,以设计出性能更优的算法。

在这里插入图片描述

图 3. 一般性编辑算法的统一框架

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

图 15. Content-aware 任务的注入方案

在这里插入图片描述

图 16. Content-free 任务的注入方案

3. 统一框架在多模态编辑任务中的应用

论文通过定性实验说明了各个组合在多模态编辑任务中的应用:

在这里插入图片描述

4. 不同组合在文本引导编辑场景下的比较

对于常见的文本引导的编辑任务,研究者通过设计了多个具有挑战性的定性实验,以说明不同组合所适合的编辑场景。

此外,该研究也相应地收集了高质量和具有一定难度的数据集,以定量地说明各种组合中的先进算法在不同场景下的性能。

对于 content-aware 任务,研究者主要考虑对象操作(增 / 删 / 替换),属性改变,风格迁移。

特别地,研究者考虑了具有挑战性的实验设置:

  1. 多目标编辑。
  2. 对于图像的语义布局影响较大的用例。

研究者也收集了这些复杂场景的高质量图片,并对不同组合中的先进算法进行全面定量比较。

在这里插入图片描述

图13. Content-aware 任务中各个组合的定性比较

对于 content-free 任务,研究者主要考虑基于主体驱动的(subject-driven)定制化任务,并考虑了多种场景,如更换背景,与物体交互,行为改变,以及风格改变。

研究者也定义了大量的文本引导模板,并对各个方法的整体性能进行定量分析。

在这里插入图片描述

图 14.Content-free 任务中各个组合的定性比较

5. 未来研究方向

  1. Content-aware 任务的挑战。对于 content-aware 编辑任务的挑战,现有方法无法同时处理多种编辑场景和控制信号。这一限制迫使应用在不同任务之间切换合适的后端算法。此外,一些高级方法在易用性方面不友好。某些方法需要用户调整关键参数以获得最佳结果,而其他方法则需要繁琐的输入,例如源和目标提示,或辅助掩码。

  2. Content-free 任务的挑战。对于 content-free 编辑任务,现有方法在测试时调优过程冗长且存在过拟合问题 。一些研究旨在通过优化少量参数或从头开始训练模型来缓解这一问题。然而,它们常常会丢失个性化主体的细节,或表现出较差的泛化能力。此外,当前方法在从少量图像中提取抽象概念方面也有所不足,它们无法完全将所需概念与其他视觉元素分离开来。

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/43436.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JJJ:base64编码和字节字符串普通字符串

文章目录 base64编码Base64 编码原理Python 中的 Base64 编码URL 和 Filename 安全的 Base64 编码注意事项 字节字符串和普通字符串举例说明字节字符串操作如何创建字节字符串字节字符串与普通字符串的转换 base64编码 Base64 编码是一种广泛使用的二进制到文本的编码方案&…

小山菌_代码随想录算法训练营第四十三天| 121. 买卖股票的最佳时机 、

121. 买卖股票的最佳时机 文档讲解&#xff1a;代码随想录. 买卖股票的最佳时机 视频讲解&#xff1a;动态规划之 LeetCode&#xff1a;121.买卖股票的最佳时机1 状态&#xff1a;已完成 代码实现 class Solution { public:int maxProfit(vector<int>& prices) {// …

餐饮店油烟净化器安装工程方案:保障清新厨房环境

我最近分析了餐饮市场的油烟净化器等产品报告&#xff0c;解决了餐饮业厨房油腻的难题&#xff0c;更加方便了在餐饮业和商业场所有需求的小伙伴们。 随着环保要求的不断提高&#xff0c;餐饮店的油烟排放问题受到越来越多的关注。为了保障清新的厨房环境&#xff0c;安装高效…

Hadoop中的副本、校验和(数字指纹)、block

1.副本&#xff1a;为了系统容错&#xff0c;文件系统会对所有的数据块进行副本复制 1.副本生成和数量 在数据块被写入HDFS的过程中&#xff0c;NameNode会根据副本策略决定每个数据块的副本数量和存储位置&#xff0c;Hadoop默认副本数量是3&#xff0c;每个数据块的副本会被存…

01-引论-操作系统的目标和作用

操作系统的目标 1.方便性 2.有效性 3.可扩充性 4.开放性 操作系统的目标与应用环境有关 在不同的应用环境下&#xff0c;操作系统的重点和功能可能会有所不同。例如&#xff0c;对于桌面操作系统&#xff0c;用户界面的友好性和多媒体功能可能是重点&#xff1b;对于服务…

TCP/IP模型和OSI模型的区别

OSI模型&#xff0c; 是国际标准化组织&#xff08;ISO&#xff09;制定的一个用于计算机或通信系统间互联的标准体系&#xff0c;将计算机网络通信划分为七个不同的层级&#xff0c;每个层级都负责特定的功能。每个层级都构建在其下方的层级之上&#xff0c;并为上方的层级提供…

老杜Mysql 基础教程 笔记

Mysql 表 : ​ 行&#xff1a;数据记录 ​ 列&#xff1a;字段名&#xff0c;数据类型&#xff0c;约束条件 DQLselect查询语句DMLinsert update delete表中增删改语句DDLcreate drop alter表结构增删改TCLcommit rollback事务控制语句DCLgrant revoke数据库权限控制 导入…

电商为何需要深耕私域运营?

在电商行业这片红海中&#xff0c;竞争日益激烈&#xff0c;获取新用户、提升用户粘性和复购率成为每个电商企业面临的重大挑战。而私域运营&#xff0c;作为近年来兴起的一种新型营销策略&#xff0c;正逐渐成为电商企业突破瓶颈、实现持续增长的关键。本文将从多个维度探讨电…

职升网:考取中专文凭的途径主要有三种!

考取中专文凭的途径主要有三种&#xff1a;成人高考、网络教育和自学考试。以下是针对每种途径的详细解释和说明&#xff1a; 成人高考 适合人群&#xff1a;适合已经工作的成年人&#xff0c;特别是希望在工作之余提升学历的人群。 报考层次&#xff1a;可以选择高起专或高…

使用bypy丝滑传递百度网盘-服务器文件

前言 还在为百度网盘的数据集难以给服务器做同步而痛苦吗&#xff0c;bypy来拯救你了&#xff01;bypy是一个强大而灵活的百度网盘命令行客户端工具。它是基于Python开发的开源项目&#xff0c;为用户提供了一种通过命令行界面与百度网盘进行交互的方式。使用bypy&#xff0c;…

博美犬插画:成都亚恒丰创教育科技有限公司

​博美犬插画&#xff1a;萌动心灵的细腻笔触 在浩瀚的艺术海洋中&#xff0c;有一种艺术形式总能以它独有的温柔与细腻&#xff0c;触动人心最柔软的部分——那便是插画。而当插画遇上博美犬这一萌宠界的明星&#xff0c;便诞生了一幅幅令人爱不释手的作品&#xff0c;成都亚…

ProFormList --复杂数据联动ProFormDependency

需求&#xff1a; &#xff08;1&#xff09;数据联动&#xff1a;测试数据1、2互相依赖&#xff0c;测试数据1<测试数据2,测试数据2>测试数据1。 &#xff08;2&#xff09;点击添加按钮&#xff0c;添加一行。 &#xff08;3&#xff09;自定义操作按钮。 &#xff0…

To美术-渲染管线及优化方向(CPU方向)

一、CPU与GPU 1、CPU与GPU的区别 橙黄色&#xff1a;控制单元   橙红色&#xff1a;存储单元  绿色&#xff1a;计算单元 CPU:结构组成复杂、控制逻辑丰富&#xff0c;计算量小&#xff0c;适合复杂运算 GPU&#xff1a;结构组成简单&#xff0c;核心数量多&#xff0c;计…

音频demo:将PCM数据封装成wav格式文件(不依赖第三方库)

1、README a. 编译 编译时需要编译成32位的可执行程序&#xff08;int需要指定为4字节&#xff09;&#xff0c;所以如果需要在64位主机上运行该程序&#xff0c;编译时就需要在Makefile上添加-m32选项&#xff08;默认已加&#xff09;&#xff0c;如果运行的主机是32位的则…

吴恩达机器学习笔记2.1 - 什么是机器学习

吴恩达机器学习笔记2.1 - 什么是机器学习 最早的机器学习 1959年&#xff0c;亚瑟塞缪尔(Arthur Samuel)将机器学习定义为“Field of study that gives computers the ability to learn without being explicitly programmed”&#xff08;无需编程即可学习的研究领域&#xf…

ROS中不同文件之间的引用小结

在比较大的一些程序中&#xff0c;往往会涉及到一些不同模块的调用&#xff0c;如果这些东西放在一个.cpp文件内&#xff0c;这个文件会变的特别长&#xff0c;因此会使用多个文件互相引用。那么如何在ROS下进行这种不同文件下的引用呢&#xff0c;根据最近所学&#xff0c;简单…

tomcat 安装和优化

tomcatat tomcat和http一样&#xff0c;都是用来处理动态页面的 tomcat也可以作为web服务器&#xff0c;开源的 php.php tomcat.jsp nginx.html tomcat使用java代码写的程序&#xff0c;运行的是java的web服务程序 tomcat的特点和功能&#xff1a; 1、servlet容器&…

MySQL——第一次作业

部署MySQL 8.0环境 1&#xff0c;删除之前存在的MySQL程序 控制面板删除 2&#xff0c;删除完成后下载MySQL 官网&#xff1a; https://www.mysql.com 在window下下载MSI版本 3&#xff0c;自定义安装 4&#xff0c;配置环境变量 1&#xff0c;系统高级系统设置 2&#xff…

Android面试题汇总-RecyclerView、Fragment、WebView、性能优化等

一、RecyclerView 1、RecyclerView的多级缓存机制,每一级缓存具体作用是什么,分别在什么场景下会用到哪些缓存 RecyclerView的多级缓存机制是为了提高滚动和数据更新的效率而设计的。每一级缓存都有其特定的作用和使用场景。以下是各级缓存的作用和它们的使用场景&#xff1a…

子序列问题

目录 最长递增子序列 摆动序列 最长递增子序列的个数 最长数对链 最长定差子序列 最长的斐波那契子序列的长度 最长等差数列 等差数列划分II-子序列 声明&#xff1a;接下来主要使用动态规划来解决问题&#xff01;&#xff01;&#xff01; 最长递增子序列 题目 思路…