【可控图像生成系列论文(四)】IP-Adapter 具体是如何训练的?1公式篇

系列文章目录

  • 【可控图像生成系列论文(一)】 简要介绍了 MimicBrush 的整体流程和方法;
  • 【可控图像生成系列论文(二)】 就MimicBrush 的具体模型结构训练数据纹理迁移进行了更详细的介绍。
  • 【可控图像生成系列论文(三)】介绍了一篇相对早期(2018年)的可控字体艺术化工作。

文章目录

  • 系列文章目录
  • 前言
  • 〇、文生图模型预备知识
    • 1. 训练目标
    • 2. 无分类器指导(classifier-free guidance)
  • 一、训练与推理
  • 二、训练数据
  • 三、实施细节
  • 总结


前言

IP-Adapter 的结构和 SD 的差别不是特别大,可以参考 【扩散模型(二)】 中的结构图进行快速理解,本文则将详细介绍其 IP-Adapter 的训练过程。

〇、文生图模型预备知识

扩散模型是一类生成模型,主要包含两个过程:

  • 扩散过程(前向过程),通过一个固定的 T 步长的马尔可夫链逐渐向数据添加高斯噪声;
  • 以及一个去噪过程,使用一个可学习的模型从高斯噪声生成样本。

1. 训练目标

扩散模型还可以基于其他输入进行条件生成,例如在文本到图像扩散模型中使用文本作为条件。通常,扩散模型的训练目标记为 ε θ εθ εθ,即预测噪声的模型,定义为变分界限的简化形式:

L simple = E x 0 , ε ∼ N ( 0 , I ) , c , t [ ∥ ε − ε θ ( x t , c , t ) ∥ 2 ] L_{\text{simple}} = \mathbb{E}_{x_0, \varepsilon \sim \mathcal{N}(0, I), c, t} \left[ \|\varepsilon - \varepsilon_{\theta}(x_t, c, t)\|^2 \right] Lsimple=Ex0,εN(0,I),c,t[εεθ(xt,c,t)2]

其中, x 0 x_0 x0 表示带有附加条件 c c c 的真实数据, t ∈ [ 0 , T ] t ∈ [0, T] t[0,T] 表示扩散过程的时间步长, x t = α t x 0 + σ t ε x_t = α_tx_0 + σ_tε xt=αtx0+σtε 是第 t t t 步的噪声数据,而 α t α_t αt σ t σ_t σt 是决定扩散过程的预定义函数。

一旦模型 ε θ ε_θ εθ 训练完成,图像可以通过迭代方式从随机噪声生成。通常,在推理阶段采用快速采样器如 DDIM1、PNDM2 和 DPM-Solver34 来加速生成过程。

对于条件扩散模型,分类器指导5是一种直接利用独立训练的分类器的梯度来平衡图像保真度和样本多样性的技术。为了避免额外去独立训练一个分类器,常采用无分类器指导(classifier-free guidance)6作为替代方法。

2. 无分类器指导(classifier-free guidance)

在无分类器指导方法中,通过随机丢弃条件 c c c 来联合训练条件和无条件扩散模型。在采样阶段,预测的噪声基于条件模型 ε θ ( x t , c , t ) ε_θ(x_t, c, t) εθ(xt,c,t) 和无条件模型 ε θ ( x t , t ) ε_θ(x_t, t) εθ(xt,t) 的预测进行计算:

ε ^ θ ( x t , c , t ) = w ε θ ( x t , c , t ) + ( 1 − w ) ε θ ( x t , t ) \hat{\varepsilon}_{\theta}(x_t, c, t) = w\varepsilon_{\theta}(x_t, c, t) + (1 - w)\varepsilon_{\theta}(x_t, t) ε^θ(xt,c,t)=wεθ(xt,c,t)+(1w)εθ(xt,t)

这里, w w w(通常称为指导尺度或指导权重)是一个标量值,用于调整与条件 c c c 的对齐程度。对于文生图的扩散模型,无分类器指导在增强生成样本的图像与文本对齐方面起着至关重要的作用。

在 IP-Adapter 中,作者利用开源的 SD 模型。SD 是一个基于冻结(不参与训练)的 CLIP 文本编码器提取的文本特征进行条件生成的潜在扩散模型。该扩散模型的架构基于具有注意力层的 UNet 7。与 Imagen 这样的基于像素的扩散模型相比,SD 更高效,因为 SD 是在一个预训练的自动编码器模型的潜在空间上构建的。

一、训练与推理

在训练期间,作者仅优化 IP-Adapter,而保持预训练的扩散模型的参数不变。IP-Adapter 同样在包含图像-文本对的数据集8上进行训练,使用与原始稳定扩散(Stable Diffusion)相同的训练目标:

L simple = E x 0 , ε , c t , c i , t [ ∥ ε − ε θ ( x t , c t , c i , t ) ∥ 2 ] L_{\text{simple}} = \mathbb{E}_{x_0, \varepsilon, c_t, c_i, t} \left[ \|\varepsilon - \varepsilon_{\theta}(x_t, c_t, c_i, t)\|^2 \right] Lsimple=Ex0,ε,ct,ci,t[εεθ(xt,ct,ci,t)2]

并且在训练阶段随机丢弃图像条件,以便在推理阶段启用无分类器指导(classifier-free guidance):

ε ^ θ ( x t , c t , c i , t ) = w ε θ ( x t , c t , c i , t ) + ( 1 − w ) ε θ ( x t , t ) \hat{\varepsilon}_{\theta}(x_t, c_t, c_i, t) = w\varepsilon_{\theta}(x_t, c_t, c_i, t) + (1 - w)\varepsilon_{\theta}(x_t, t) ε^θ(xt,ct,ci,t)=wεθ(xt,ct,ci,t)+(1w)εθ(xt,t)

在这里,如果图像条件被丢弃,就简单地将 CLIP 图像嵌入置为零。由于文本交叉注意力和图像交叉注意力是分离的,还可以在推理阶段调整图像条件的权重:

Z new = Attention ( Q , K , V ) + λ ⋅ Attention ( Q , K ′ , V ′ ) Z_{\text{new}} = \text{Attention}(Q, K, V) + \lambda \cdot \text{Attention}(Q, K', V') Znew=Attention(Q,K,V)+λAttention(Q,K,V)

其中, λ \lambda λ 是权重因子,如果 λ = 0 \lambda = 0 λ=0 ,模型就变成原始的文本到图像扩散模型。

二、训练数据

为了训练 IP-Adapter,作者构建了一个多模态数据集,包括从两个开源数据集 LAION-2B 9和 COYO-700M 10 获取的大约 1000 万个图像-文本对。

三、实施细节

  • IP-Adapter 的实验基于 SD v1.5 11,并使用 OpenCLIP ViT-H/14 12 作为图像编码器。
  • SD 模型中有 16 个交叉注意力层,作者为每一层添加了一个新的图像交叉注意力层。这样的 IP-Adapter 总共包含约 22M (2200 万)个可训练参数,包括投影网络和适配模块,使 IP-Adapter 相当轻量化。
  • 使用 HuggingFace 的 diffusers 库 13 实现 IP-Adapter,并采用 DeepSpeed ZeRO-2 14 进行快速训练。
  • IP-Adapter 在一台配备 8 块 V100 GPU 的机器上训练 100 万步,每个 GPU 的批次大小为 8。作者使用 AdamW 15优化器,固定学习率为 0.0001,权重衰减为 0.01。
  • 训练期间,图像的最短边调整为 512,然后将图像中心裁剪为 512 × 512 的分辨率。为了启用无分类器指导,分别以 0.05 的概率丢弃文本和图像,以 0.05 的概率同时丢弃文本和图像。
  • 在推理阶段,采用 50 步的 DDIM 采样器,设置指导比例为 7.5。当只使用图像提示时,则将文本提示设为空,λ 设置为 1.0。

总结

IP-Adapter 的训练目标和 SD 的原始训练目标一致,但由于仅仅训练投影网络和适配模块(Image prompt 输入的 cross attention),可训练参数量非常轻量化(仅 22M)。


  1. Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020. ↩︎

  2. Luping Liu, Yi Ren, Zhijie Lin, and Zhou Zhao. Pseudo numerical methods for diffusion models on manifolds. arXiv preprint arXiv:2202.09778, 2022. ↩︎

  3. Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. Dpm-solver: A fast ode solver for diffusion probabilistic model sampling in around 10 steps. Advances in Neural Information Processing Systems, 35:5775–5787, 2022. ↩︎

  4. Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic models. arXiv preprint arXiv:2211.01095, 2022. ↩︎

  5. Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 34:8780–8794, 2021. ↩︎

  6. Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022. ↩︎

  7. Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18, pages 234–241. Springer, 2015. ↩︎

  8. 需要注意的是,仅使用图像提示也能很好地指导最终生成,因此也可以在没有文本提示的情况下训练模型。 ↩︎

  9. Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion-5b: An open large-scale dataset for training next generation image-text models. Advances in Neural Information Processing Systems, 35:25278–25294, 2022. ↩︎

  10. Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, and Saehoon Kim. Coyo-700m: Image-text pair dataset. https://github.com/kakaobrain/coyo-dataset, 2022. ↩︎

  11. https://huggingface.co/runwayml/stable-diffusion-v1-5 ↩︎

  12. Gabriel Ilharco, Mitchell Wortsman, Ross Wightman, Cade Gordon, Nicholas Carlini, Rohan Taori, Achal Dave, Vaishaal Shankar, Hongseok Namkoong, John Miller, Hannaneh Hajishirzi, Ali Farhadi, and Ludwig Schmidt. Openclip. https://github.com/mlfoundations/open_clip, 2021. ↩︎

  13. Patrick von Platen, Suraj Patil, Anton Lozhkov, Pedro Cuenca, Nathan Lambert, Kashif Rasul, Mishig Davaadorj, and Thomas Wolf. Diffusers: State-of-the-art diffusion models. https://github.com/huggingface/ diffusers, 2022 ↩︎

  14. Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In International Conference on Machine Learning, pages 88218831. PMLR, 2021. ↩︎

  15. Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017. ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/33974.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ 消息传递

消息何去何从 mandatory和immediate是channel.basicPublish方法中的两个参数,他们都有当消息传递过程中不可达目的地时将消息返回给生产者的功能。RabbitMQ提供的备份交换器可以将未能被交换器路由的消息(没有绑定队列或者没有匹配的绑定)存…

转行供应链—安全库存

安全库存(又称保险库存) 安全库存的定义: 安全库存是一种缓冲库存,用于应对需求波动和供应链不确定性。这些不确定因素可能包括订货期间需求的增长、到货延期等情况。其目的是在供应链出现意外问题时,确保企业能够持续…

学习C++第三天——对引用的深入了解

引用 引用不是新定义一个变量,而是给已存在变量取了一个别名,编译器不会为引用变量开辟内存空 间,它和它引用的变量共用同一块内存空间。 一个变量可以有多个引用: int main() {//一个变量可以有多个引用int a 10;int& b …

OpenAI 收购桌面实时协作公司 Multi;iOS 18 开放 iPhone 镜像测试丨RTE 开发者日报 Vol.231

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

c++ 设计模式 的课本范例(上)

( 0 ) 这里补充面向对象设计的几个原则: 开闭原则OCP : 面向增补开放,面向代码修改关闭。其实反映到代码设计上就是类的继承,通过继承与多态,可以不修改原代码,又增加新的类似的功能。 依赖倒置原则 Depend…

如何从iPhone恢复错误删除的照片

嘿,iPhone 用户!作为一名苹果专业人士,我见过相当多的“哎呀,我删除了它!”的时刻。今天,我在这里指导您完成从iPhone中恢复那些珍贵的,错误删除的照片的迷宫。坐下来,拿起你的设备&…

分压电路 ADC计算电压 【老板再也不能开除我了 】

经典分压电路 一个电压过来 adc这里的电压等于: 如是12位adc 那么他最大值就是4095 如参考电压是5v 则:5v/4095 实际电压V*(R2/(R1R2))/adc值 转化:实际电压V 5v*(adc值/4095)/(R2/(R1R2)) :老板再也不能 因为不会…

11.利用RTC制作实时时钟

RTC 从配置上分两大部分—时钟的配置、定时器的配置 时钟的配置:可以直接访问 直接由RCC的BDCR来配置时钟:时钟源的选择 定时器的配署:不可以直接访问,因为定时器相关的寄存器在备份区域 1、使能备份区域访问— PWREN、BKPEN …

PointCloudLib-滤波模块(Filtering)-直通滤波

使用直通过滤器过滤点云 在本教程中,我们将学习如何沿着 指定维度 – 即,切断位于 或 在给定用户范围之外。 代码 首先,创建一个文件,比方说,在你最喜欢的 编辑器,并将以下内容放入其中:passthrough.cpp #include <iostream> #include <pcl/point_types.h&g…

推荐系统-FM模型

参考&#xff1a;推荐系统&#xff08;三&#xff09;Factorization Machines&#xff08;FM&#xff09;_svmmf-CSDN博客 一句话概括下FM&#xff1a;隐式向量特征交叉----类似embedding的思想 LR 如果利用LR做特征的二阶交叉&#xff0c;有&#xff1a; 但这个公式存在显著…

在分布式系统中,Erlang 的错误处理和容错机制是如何实现的,又面临哪些挑战?

Erlang是一种被广泛用于构建高可用、容错性强的分布式系统的编程语言。它提供了一些内建的错误处理和容错机制来处理系统中的错误和故障。 下面是Erlang中常用的错误处理和容错机制&#xff1a; 进程监控&#xff08;Process Monitoring&#xff09;&#xff1a;Erlang的进程是…

case when 使用——mysql sql

case when的使用方法主要有两种&#xff1a; 第一种&#xff1a; UPDATE USER SET USERNAME CASE WHEN ID 1 THEN USERNAME1 WHEN ID 2 THEN USERNAME2 WHEN ID 3 THEN USERNAME3 END , PASSWORD CASE WHEN ID 1 THEN PASSWORD1 WHEN ID 2 THEN PASSWORD2 WHEN ID…

Open3D 点云的ISS关键点提取

目录 一、概述 1.1原理 1.2应用场景 1.3算法实现步骤 二、代码实现 2.1 完整代码 2.2关键函数 2.3关键点可视化 三、实现效果 3.1原始点云 3.2提取后点云 一、概述 1.1原理 ISS&#xff08;Intrinsic Shape Signatures&#xff09;关键点提取是一种常用于三维点云的…

【LLM-多模态】高效多模态大型语言模型综述

一、结论写在前面 模型规模的庞大及训练和推理成本的高昂&#xff0c;限制了MLLMs在学术界和工业界的广泛应用。因此&#xff0c;研究高效轻量级的MLLMs具有巨大潜力&#xff0c;特别是在边缘计算场景中。 论文深入探讨了高效MLLM文献的领域&#xff0c;提供了一个全面的视角…

Win10可用的VC6.0绿色版及辅助插件assist_X

VC6.0&#xff0c;作为微软的经典开发工具&#xff0c;承载着无数开发者的青春与回忆。它曾是Windows平台上软件开发的重要基石&#xff0c;为开发者们提供了稳定且强大的编程环境&#xff0c;尤其是其MFC&#xff08;Microsoft Foundation Classes&#xff09;库&#xff0c;为…

计算机网络:408考研|湖科大教书匠|原理参考系统I|学习笔记

系列目录 计算机网络总纲领 计算机网络特殊考点 目录 系列目录更新日志数据链路层(Data Link Layer)一、基本概念二、三个重要问题三、 &#x1f31f;点对点协议(PPP, Point-to-Point Protocol)四、 以太网五、802.11 无线局域网(简称Wi-Fi) 物理层(Physical Layer)一、传输方…

SSM宠物领养系统-计算机毕业设计源码08465

目 录 摘要 1 绪论 1.1课题背景及意义 1.2研究现状 1.3ssm框架介绍 1.3论文结构与章节安排 2 宠物领养系统系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 …

uni-push(2.0)常见问题,Android平台

将常用的网址一定要收藏在标签栏中&#xff0c;方便后期找&#xff0c;不然后期会很生气。 草料二维码&#xff0c;这个在线工具可以将打包生成的apk文件生成二维码&#xff0c;供测试人员测试。生成的apk只有五次下载机会&#xff0c;可点击链接后的一键上传&#xff0c;这样…

数据资产管理的艺术之道:深入探索如何在数据价值的最大化、个人隐私的严密保护以及企业持续发展的战略需求之间找到微妙的平衡

在数字化浪潮席卷全球的今天&#xff0c;数据已成为企业最宝贵的资产之一。从市场营销到产品研发&#xff0c;从客户服务到运营管理&#xff0c;数据无处不在&#xff0c;为企业提供了前所未有的洞察力和竞争力。然而&#xff0c;随着数据量的激增和数据类型的多样化&#xff0…

【Linux网络(一)初识计算机网络】

一、网络发展 1.发展背景 2.发展类型 二、网络协议 1.认识协议 2.协议分层 3.OSI七层模型 4.TCP/IP协议 三、网络传输 1.协议报头 2.局域网内的两台主机通信 3.跨网络的两台主机通信 四、网络地址 1.IP地址 2.MAC地址 一、网络发展 1.发展背景 计算机网络的发展…