【深度学习】【风格迁移】Visual Concept Translator,一般图像到图像的翻译与一次性图像引导,论文

General Image-to-Image Translation with One-Shot Image Guidance

论文:https://arxiv.org/abs/2307.14352
代码:https://github.com/crystalneuro/visual-concept-translator

文章目录

  • Abstract
  • 1. Introduction
  • 2. 相关工作
    • 2.1 图像到图像转换
    • 2.2. Diffusion-based Image Synthesis
  • 3. Methods
  • 4. Experiments
    • 4.1. Implementation details
    • 4.2. 与先前/同时进行的工作的比较
    • 4.3. 消融研究
  • 5. 结论

Abstract

最近,大规模的文本到图像模型在大量文本-图像对上进行预训练,表现出了出色的图像合成性能。然而,图像可以提供比纯文本更直观的视觉概念。人们可能会问:我们如何将期望的视觉概念集成到现有的图像中,比如我们的肖像?然而,当前的方法在满足这种需求方面还不足够,因为它们缺乏保留内容或有效地转换视觉概念的能力。受到这一问题的启发,我们提出了一种新颖的框架,名为视觉概念转换器(VCT),它具有保留源图像中内容并根据单个参考图像指导转换视觉概念的能力。所提出的VCT包含内容-概念反演(CCI)过程来提取内容和概念,并包含内容-概念融合(CCF)过程来收集提取的信息以获取目标图像。给定只有一个参考图像,所提出的VCT可以在各种图像到图像转换任务中取得出色的结果。我们进行了大量实验证明了所提出方法的优越性和有效性。代码可在https://github.com/CrystalNeuro/visual-concept-translator找到。

在这里插入图片描述

1. Introduction

图像到图像转换(I2I)任务旨在学习一个条件生成函数,将图像从源域翻译到目标域,并保留源内容并转移目标概念[35, 47]。通用I2I可以在不需要专门的模型设计或从头开始训练的情况下完成广泛的应用[46]。传统上,生成对抗网络(GAN)或正则化流[12]主要应用于I2I任务[20, 20, 35, 4]。然而,这些方法在缺乏适应性方面存在问题[42]。在一个源-目标数据集上训练的模型不能适应另一个数据集,因此在通用I2I场景中无法工作。

由于大规模模型的应用,基于扩散的图像合成在近年来得到了快速发展[36, 38, 34]。它们的优势在于使用大量的图像-文本对进行模型训练,因此可以通过在潜在空间中根据特定文本提示进行采样来生成多样化的图像。然而,在我们日常生活中,我们接受大量包含丰富视觉概念的视觉信号。

这些视觉概念很难用纯文本来描述,就像谚语“一图胜千言”一样。此外,由参考图像指导的I2I在游戏制作、艺术创作和虚拟现实等方面具有广泛应用。因此,在图像引导的I2I研究在计算机视觉领域具有巨大潜力。

有几种方法尝试从图像中提取具有所需概念的视觉信息。具体来说,[10]提出了一种名为文本反演(TI)的技术,它固定模型并学习一个文本嵌入来表示视觉概念。在TI的基础上,提出了DreamBooth [37]和Imagic [21]来减轻由模型微调引起的过拟合问题。上述方法是在少样本设置下,但有时很难收集几个包含相同概念的相关图像。为了解决这个问题,[8]提出使用正负文本嵌入来适应一次性样本设置。然而,这些方法不能直接用于I2I任务,因为它们不能保留源图像中的内容。

为了保留源图像中的内容,最近提出的DDIM反演[7, 41]发现了扩散反向过程中的确定性噪声。然后,一些研究[31, 13]进一步将DDIM反演应用于文本引导的图像编辑。

然而,这些方法是文本条件的,因此它们无法理解参考图像中的视觉概念。另一方面,一些工作[50, 42]尝试通过图像条件将源域和目标域连接起来,但它们的模型是特定于任务的,因此不能用于通用I2I。

在本文中,为了完成由参考图像指导的通用I2I任务,我们提出了一种名为视觉概念转换器(VCT)的新框架,该框架具有保留源图像中内容并转换视觉概念的能力。所提出的VCT通过内容-概念反演(CCI)和内容-概念融合(CCF)两个过程来解决图像引导的I2I问题。

CCI过程通过枢轴转向反演和多概念反演从源图像和参考图像中提取内容和概念,CCF过程通过双流去噪架构收集提取的信息以获取目标图像。在只有一个参考图像的情况下,所提出的VCT可以完成各种各样的通用图像到图像转换任务,并取得优秀的结果。我们进行了大量实验,包括通用I2I和风格迁移的大规模任务,用于模型评估。

总的来说,我们的贡献如下:
(1)我们提出了一种名为视觉概念转换器(VCT)的新框架。在只有一个参考图像的情况下,VCT可以完成通用I2I任务,并具有保留源图像中内容并转换视觉概念的能力。
(2)我们提出了内容-概念反演(CCI),通过枢轴转向反演和多概念反演来提取内容和概念。我们还提出了内容-概念融合(CCF)过程,通过双流去噪架构收集提取的信息。
(3)我们进行了大量实验,包括通用I2I和风格迁移的大规模任务,用于模型评估。生成的结果显示了所提出方法的高优越性和有效性。

2. 相关工作

2.1 图像到图像转换

图像到图像转换旨在将图像从源域转换到目标域。当前的图像到图像转换方法大多基于生成对抗网络(GAN)[1, 30, 9, 54, 55, 51, 56]。然而,这些方法存在适应性不足的问题[42]。在一个源-目标数据集上训练的模型不能适应另一个数据集。此外,这些方法通常需要大尺寸的训练图像。
Lin等人提出的TuiGAN [28]可以仅通过一对图像实现转换,但他们的方法需要为每个输入对重新训练整个网络,非常耗时。

图像风格迁移是I2I中的一种特定类型,它尝试将图像风格从源转换到目标。Gatys等人的开创性工作[11]表明,通过深度神经网络可以通过分离内容和风格来生成艺术图像。然后,为了实现实时风格迁移,Johnson等人[19]训练了一个前馈网络来处理Gatys等人提到的优化问题。许多工作[48, 43, 44, 25, 18, 24]被归类为每种风格对应一个模型,训练的模型只能适应一种特定的风格。为了增加模型的灵活性,许多研究[16, 32, 17, 5, 29, 40, 49]实现了任意风格迁移,只需要对任何输入风格图像进行单个前向传递即可。然而,这些方法在处理细粒度信息方面不具备通用的图像到图像转换任务(如人脸交换)的能力,因此无法推广到一般的I2I任务。

2.2. Diffusion-based Image Synthesis

最近,基于纯文本的大规模扩散模型在高分辨率图像合成方面表现出良好的性能,例如Stable Diffusion [36]、Imagen [38]和DALL-E 2 [34]。这些方法使用大型文本-图像模型[6, 33]来实现文本引导的合成。然而,用于生成目标图像的文本有时是不可用的,因此许多研究[10, 37, 21]使用反演技术来学习文本嵌入,以指导预训练的大规模扩散模型。为了实现从源域到目标域的图像转换,DDIM反演[7, 41]在反向过程的逆方向上找到了带有文本条件的确定性噪声向量,但该方法仅通过文本进行引导。我们提出的方法试图解决上述缺点,并通过从图像中融合丰富的视觉概念来完成通用的图像到图像转换任务。

3. Methods

在这里插入图片描述
在这里插入图片描述

4. Experiments

4.1. Implementation details

将所有组件组合在一起,我们的完整算法在我们的补充材料中呈现。核心训练过程包括两部分:使用x src进行关键调整反演和使用x ref进行多概念反演,这两部分可以独立实现。更多详细信息请参考我们的补充材料。

我们的实验是在单个A100 GPU上进行的。我们使用Adam[23]优化器进行训练。我们从包含50亿张图像的大规模LAION 5B数据集[39]中收集了评估图像。

4.2. 与先前/同时进行的工作的比较

一般I2I任务。在这里,我们评估了提出的框架在一般I2I任务中的性能,包括leopard→dog,face swap和mountain→snow mountain,如图5所示。我们将提出的方法与TuiGAN [28],PhotoWCT [27],stable diffusion (SD) [36],textual inversion (TI) [10]和prompt-to-prompt (Ptp) [13]进行了比较。

对于没有学习嵌入输入的文本到图像模型,包括SD和Ptp,我们使用BLIP图像字幕模型[26]来提取文本描述作为扩散模型的输入。

从图5可以看出,基于GAN的翻译方法TuiGAN和PhotoWCT无法仅通过一个图像输入很好地转换概念,并且生成质量较差。例如,从图5的第3-4列中可以看出,基于GAN的方法在leopard→dog和face swap任务中只能转换部分纹理特征,并且在mountain→snow mountain任务中图像质量较差。因此,基于GAN的方法无法在一次性设置中实现令人满意的结果。对于基于扩散的方法SD和TI,参考图像的概念可以很好地保留,但内容图像中的信息无法提取。如图5的第7列所示,Ptp可以很好地保留内容,但无法融合参考图像中的概念。通过解决上述方法的所有缺点,提出的VCT可以生成具有学习的概念和保留内容的最佳结果。

此外,为了评估提出的VCT的强大概念转换能力,我们固定内容图像并更换不同的参考图像,如图6所示。不同参考图像的生成结果显示出令人满意的内容保留和概念转换能力。

更多结果可以在补充材料中找到。

如图7所示,我们进一步与其他一次性对比方法进行比较:Paint-by-example[50]和ControlNet[53]。这些方法使用额外的条件来控制生成的图像,而我们的方法获得了更好的性能。

图像风格迁移。除了一般的I2I,提出的方法在图像风格迁移任务中也取得了出色的结果。我们将我们的方法与不同艺术风格的最新SOTA进行了比较。如图13所示,我们完全比较了三个基于GAN的方法,包括TuiGAN [28],PhotoWCT [27]和ArtFlow [3],以及三个基于扩散的方法,包括SD [36],TI [10]和Ptp [13]。按照一般I2I的设置,我们使用BLIP图像字幕模型为文本到图像模型SD和Ptp提取文本描述。

从图13的结果可以看出,基于GAN的方法存在较大的缺陷,特别是TuiGAN和ArtFlow的结果,如图13的第3和第5列所示。基于扩散的方法SD和TI也存在与一般I2I相同的问题,即内容无法保留。对于Ptp,虽然内容得到保留,但参考图像中的概念无法被很好地转换。提出的方法也可以生成最令人满意的图像,如图13的第9列所示。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

我们还通过固定参考图像并更改内容图像,以及反之亦然,评估了模型性能。结果如图9所示。优秀的翻译结果证明了所提出方法的泛化能力。

定量比较。由于风格转移任务缺乏真实标签,且两个域之间存在差异,定量评估仍然是一个挑战。回想一下,我们的目标是从源图像和参考图像创建一张新的图像。因此,我们使用以下三个指标来评估生成的图像。1)盲参考图像空间质量评估器(BRISQUE),这是一种无参考图像质量评分方法。2)学习的感知图像块相似性(LPIPS),用于评估源图像与目标图像之间的距离,以验证不同模型的内容保留性能。3)人类偏好得分(Pre.),我们邀请参与者通过用户研究对不同方法生成的结果进行投票。我们的模型在总体评估指标上表现优异。更多的实验设置可以在补充材料中找到。

4.3. 消融研究

最后,我们对方法的每个组成部分进行了消融研究,并展示了其有效性,包括多概念反演(MCI),关键调整反演(PTI)和注意力控制(AC)。

在图10中展示了可视化消融研究。 (a) 通过去除MCI,在我们的流程中使用单词’dog’来生成参考嵌入v ref ,生成的结果不是参考图像中特定的狗。 (b) 在没有使用PTI的情况下,由于DDIM采样轨迹不一致,内容匹配分支无法重构内容图像。 © 通过去除AC,结果无法保留内容图像的结构。

总的来说,通过使用我们所有提出的组件,我们可以获得最佳的生成输出,它更好地保留了内容图像的结构和语义布局,并与参考图像保持一致。更多的消融研究可以在补充材料中找到。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. 结论

本工作受到日常生活中视觉概念的重要性的启发,通过提出名为VCT的新颖框架,完成了图像引导下的通用I2I任务。

它能够保留源图像中的内容,并通过单个参考图像来翻译视觉概念。我们在各种通用的图像到图像转换任务上评估了提出的模型,并取得了出色的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/29115.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络防御(2)

1. 什么是防火墙? 2. 状态防火墙工作原理? 3. 防火墙如何处理双通道协议? 一、什么是防火墙? 防火墙是一种网络安全设备或软件,用于保护计算机网络免受未经授权的访问,并管理网络流量。它作为一个安全边界…

Android中级——RemoteView

RemoteView RemoteView的应用NotificationWidgetPendingIntent RemoteViews内部机制模拟RemoteViews RemoteView的应用 Notification 如下开启一个系统的通知栏,点击后跳转到某网页 public class MainActivity extends AppCompatActivity {private static final …

【Linux取经路】进程的奥秘

文章目录 1、什么是进程?1.1 自己写一个进程 2、操作系统如何管理进程?2.1 描述进程-PCB2.2 组织进程2.3 深入理解进程 3、Linux环境下的进程3.1 task_struct3.2 task_struct内容分类3.3 组织进程3.4 查看进程属性 4、结语 1、什么是进程? 在…

软件单元测试

单元测试目的和意义 对于非正式的软件(其特点是功能比较少,后续也不有新特性加入,不用负责维护),我们可以使用debug单步执行,内存修改,检查对应的观测点是否符合要求来进行单元测试&#xff0c…

把网站改为HTTPS访问方法

HTTPS是使用TSL/SSL加密超文本传输协议的扩展,用于跨网络的安全传输。网站更改为HTTPS,直接在网站形象上可以得到提升,更重要的是您的网站肯定会在排名和提升方面受益。机密信息的交换需要受到保护,以阻止未经授权的访问。 加密&a…

类加载机制——双亲委派机制

类加载器分类 类加载器 类加载器(英文:ClassLoader)负责加载 .class 字节码文件,.class 字节码文件在文件开头有特定的文件标识。ClassLoader 只负责 .class 字节码文件的加载,至于它是否可以运行,则由 E…

Vue-组件二次封装

本次对el-input进行简单封装进行演示 封装很简单,就给激活样式的边框(主要是功能) 本次封装主要使用到vue自带的几个对象 $attrs:获取绑定在组件上的所有属性$listeners: 获取绑定在组件上的所有函数方法$slots: 获取应用在组件内的所有插槽 …

成功解决Android设备adb连接后显示device unauthorized

一、提出问题 在电脑通过USB连接新的Android设备,想要通过adb来进行一些操作时,却发现命令提示符上在输入下面命令后显示设备未授权的信息也就是"unauthorized" adb devices二、不可行的解决方案 有人提出的解决方案是打开Android设备的开发…

2023年新手如何学剪辑视频 想学视频剪辑如何入门

随着短视频、vlog等媒体形式的兴起,视频剪辑已经成为了热门技能。甚至有人说,不会修图可以,但不能不会剪视频。实际上,随着各种智能软件的发展,视频剪辑已经变得越来越简单。接下来,一起来看看新手如何学剪…

【ChatGPT 指令大全】怎么使用ChatGPT来帮我们写作

在数字化时代,人工智能为我们的生活带来了无数便利和创新。在写作领域,ChatGPT作为一种智能助手,为我们提供了强大的帮助。不论是作文、文章,还是日常函电,ChatGPT都能成为我们的得力助手,快速提供准确的文…

MySQL — MVCC

文章目录 MVCCMVCC 实现原理隐藏字段undo logundo log的用途undo log类型 版本链ReadView MVCC InnoDB是一个多版本的存储引擎。它保留有关已更改行的旧版本的信息,以支持并发和回滚等事务性特性。这些信息存储在undo表空间中的数据结构称为回滚段。InnoDB使用回滚…

培训报名小程序报名功能完善

目录 1 修改数据源2 修改表单3 支付成功时修改状态4 创建报名成功页5 最终的效果总结 目前我们的报名功能已经搭建了一个基础版,后续需要展示用户已经报名的信息,需要添加一个状态来显示用户是否成功付费。 1 修改数据源 打开我们的报名数据源&#xff…

【基础类】—前端算法类

一、排序 1. 排序方法列表 2. 常见排序方法 快速排序选择排序希尔排序 二、堆栈、队列、链表 堆栈、队列、链表 三、递归 递归 四、波兰式和逆波兰式 理论源码

机器学习笔记之优化算法(十一)梯度下降法:凸函数VS强凸函数

机器学习笔记之优化算法——梯度下降法:凸函数VS强凸函数 引言凸函数:凸函数的定义与判定条件凸函数的一阶条件凸函数的梯度单调性凸函数的二阶条件 强凸函数强凸函数的定义强凸函数的判定条件强凸函数的一阶条件强凸函数的梯度单调性强突函数的二阶条件…

前后端分离式项目架构流程复盘之宿舍管理系统

文章目录 🐒个人主页🏅JavaEE系列专栏📖前言:【🎇前端】先创建Vue-cli项目(版本2.6.10,仅包含babel),请选择此项目并创建 【整理简化项目模板】【🎀创建路由】…

git clean 命令

git clean -n //显示要删除的文件,clean的演习,告诉哪些文件删除,只是一个提醒。 git clean -dn //显示要删除的文件和目录 git clean -f //删除未追踪的文件 git clean -dff //删除未追踪的目录 git clean -df //清除所有未跟踪文件&#xf…

Netty面试题1

计算机网络模型 OSI采用了分层的结构化技术,共分七层, 物理层、数据链路层、网络层、传输层、会话层、表示层、应用层 。 Open System Interconnect 简称OSI,是国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合制定的开放系统互连参…

互联网医院|线上医疗平台连接医者和患者的桥梁

近年来,随着互联网技术的飞速发展,互联网医院系统悄然崛起,引领着医疗行业的变革浪潮。这一系统以其出色的功能与服务,为广大患者带来了便捷、高效的医疗体验,将传统医疗模式推向了新的高度。 作为医疗界的新生力量&a…

FFmpeg常见命令行(三):FFmpeg转码

前言 在Android音视频开发中,网上知识点过于零碎,自学起来难度非常大,不过音视频大牛Jhuster提出了《Android 音视频从入门到提高 - 任务列表》。本文是Android音视频任务列表的其中一个, 对应的要学习的内容是:如何使…

七月学习总结

一晃暑期七月份已经结束了,八月份需要做的事情更多。 在成长的路上不断地迷茫,不断地前进。到底才能完成对自己地救赎。 目前想的就是以后走软件开发,往架构方向做,主语言Java或者go,408基础一定要扎实,计…