浅析扩散模型与图像生成【应用篇】(十三)——PITI

13. Pretraining is All You Need for Image-to-Image Translation

  该文提出一种基于预训练扩散模型的图像转换方法,称为PITI。其思想并不复杂,就是借鉴现有视觉和NLP领域中常见的预训练方法,考虑预先在一个大规模的任务无关数据集上对扩散模型进行预训练,使其具备一个高度语义化的空间。然后,再针对特定任务对模型进行微调训练,此时微调过程只需要关注与任务相关的输入信息,而困难的图像生成工作,比如渲染一个合理布局和真实的纹理,将根据预训练时得到的知识来完成。
在这里插入图片描述

  在本文中,作者采用GLIDE模型作为基础模型,在一个包含67M个文本-图像对的数据集上进行预训练。使用基础模型进行图像生成的过程,可以看作是对原始输入 x 0 \boldsymbol{x}_{0} x0和条件 y \boldsymbol{y} y进行编码和解码的过程 x t = D ~ ( E ~ ( x 0 , y ) ) \boldsymbol{x}_{t}=\tilde{\mathcal{D}}\left(\tilde{\mathcal{E}}\left(\boldsymbol{x}_{0}, \boldsymbol{y}\right)\right) xt=D~(E~(x0,y))其中 D ~ \tilde{\mathcal{D}} D~ E ~ \tilde{\mathcal{E}} E~分别表示解码和编码器。微调训练包含两个阶段,第一阶段时锁定解码器的参数,只对编码器进行训练;第二阶段是对两者进行联合训练。
  由于扩散模型生成的结果通常分辨率较低,如64*64,因此作者也采用了一个基于扩散模型的上采样器,对生成结果进行分辨率提升。然而,作者发现提升的结果存在过度平滑的问题,因此作者又引入了GAN中常见的感知损失和对抗损失,如下式 L perc  = E t , x 0 , ϵ ∥ ψ m ( x ^ 0 t ) − ψ m ( x 0 ) ∥ , L a d v = E t , x 0 , ϵ [ log ⁡ D θ ( x ^ 0 t ) ] + E x 0 [ log ⁡ ( 1 − D θ ( x 0 ) ) ] \begin{aligned} \mathcal{L}_{\text {perc }} & =\mathbb{E}_{t, \boldsymbol{x}_{0}, \boldsymbol{\epsilon}}\left\|\boldsymbol{\psi}_{m}\left(\hat{\boldsymbol{x}}_{0}^{t}\right)-\boldsymbol{\psi}_{m}\left(\boldsymbol{x}_{0}\right)\right\|, \\ \mathcal{L}_{\mathrm{adv}} & =\mathbb{E}_{t, \boldsymbol{x}_{0}, \boldsymbol{\epsilon}}\left[\log D_{\theta}\left(\hat{\boldsymbol{x}}_{0}^{t}\right)\right]+\mathbb{E}_{\boldsymbol{x}_{0}}\left[\log \left(1-D_{\theta}\left(\boldsymbol{x}_{0}\right)\right)\right] \end{aligned} Lperc Ladv=Et,x0,ϵ ψm(x^0t)ψm(x0) ,=Et,x0,ϵ[logDθ(x^0t)]+Ex0[log(1Dθ(x0))]其中 x ^ 0 t = ( x t − 1 − α t ϵ θ ( x t , y , t ) ) / α t \hat{\boldsymbol{x}}_{0}^{t}=\left(\boldsymbol{x}_{t}-\sqrt{1-\alpha_{t}} \boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t}, \boldsymbol{y}, t\right)\right) / \sqrt{\alpha_{t}} x^0t=(xt1αt ϵθ(xt,y,t))/αt 表示预测得到的生成结果。
  最后,作者发现在常规的无分类器引导的扩散模型CDM中 ϵ ^ θ ( x t ∣ y ) = ϵ θ ( x t ∣ y ) + w ⋅ ( ϵ θ ( x t ∣ y ) − ϵ θ ( x t ∣ ∅ ) ) \hat{\boldsymbol{\epsilon}}_{\theta}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}\right)=\boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}\right)+w \cdot\left(\boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}\right)-\boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t} \mid \emptyset\right)\right) ϵ^θ(xty)=ϵθ(xty)+w(ϵθ(xty)ϵθ(xt))条件的引入会导致估计噪声的均值和方差发生漂移,如下 μ ^ = μ + w ( μ − μ ∅ ) \hat{\mu}=\mu+w\left(\mu-\mu_{\emptyset}\right) μ^=μ+w(μμ) σ ^ 2 = ( 1 + w ) 2 σ 2 + w 2 σ ∅ 2 \hat{\sigma}^{2}=(1+w)^{2} \sigma^{2}+w^{2} \sigma_{\emptyset}^{2} σ^2=(1+w)2σ2+w2σ2并且这个偏移会随着迭代去噪过程逐渐累积,最终导致生成图像过饱和或者过度平滑。为此,作者提出一种规则化处理方式,如下式 ϵ ~ θ ( x t ∣ y ) = σ σ ^ ( ϵ ^ θ ( x t ∣ y ) − μ ^ ) + μ \tilde{\boldsymbol{\epsilon}}_{\theta}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}\right)=\frac{\sigma}{\hat{\sigma}}\left(\hat{\boldsymbol{\epsilon}}_{\theta}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}\right)-\hat{\mu}\right)+\mu ϵ~θ(xty)=σ^σ(ϵ^θ(xty)μ^)+μ
  作者在"掩码到图像"、"轮廓到图像"和”几何体到图像“等图像转换任务中,对本文提出的方法进行了测试,其效果如下
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/774447.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nginx学习记录-反向代理

1. 反向代理 一个简单的反向代理示意图如下: 我们的PC需要访问内网资源时,网关路由不直接将请求转发给内网的应用服务器,而是通过nginx服务器进行代理转发,转发到应用服务器上,应用服务器响应请求后会将响应数据再通过…

AJAX~

概念:AJAX(Asynchronous JavaScript And XML):异步的JavaScript和XML AJAX作用: 1.与服务器进行数据交换:通过AJAX可以给服务器发送请求,并获取服务器响应的数据 使用了AJAX和服务器进行通信,就可以使用HTMLAJAX来替换JSP页面了 2&#xf…

【MATLAB源码-第170期】基于matlab的BP神经网络股票价格预测GUI界面附带详细文档说明。

操作环境: MATLAB 2022a 1、算法描述 基于BP神经网络的股票价格预测是一种利用人工神经网络中的反向传播(Backpropagation,简称BP)算法来预测股票市场价格变化的技术。这种方法通过模拟人脑的处理方式,尝试捕捉股票…

欧美用户真实反馈!他们为什么选择爱可声助听器?

在竞争激烈的助听器市场上,爱可声助听器在欧美地区赢得了广泛的认可和好评。为什么越来越多的欧美用户选择爱可声助听器呢? 约翰,纽约的退休音乐教师 约翰是一位热爱音乐的退休音乐教师,他的一生都与音乐相伴,从年轻…

常用的AD规则设置

目录 规则编辑器: 间距规则: 线宽规则: 过孔规则: 铺铜设置: 生成制造过孔: 过孔之间间距: 最小阻焊层间距: 丝印到阻焊的距离: 丝印到丝印距离: 走…

01使用调试工具

文章目录 前言一、用openocd打开单片机二、利用4444端口向单片机写入hex文件三、利用3333端口和gdb进行调试四、之前我出的问题总结 前言 之前写了一篇关于在linux下搭建stm32标准库的文章后,有一些小伙伴们还是出现了一些奇奇怪怪的错误,这一篇文章就是…

JDK21|借鉴了近十种语言,String终于变好用了

作者:鱼仔 博客首页: https://codeease.top 公众号:Java鱼仔 前言 要想看官方对于JDK21的更新说明,可以直接跳转到下面这个官方网站中 官网地址为:https://openjdk.org/projects/jdk/21/ JDK21是最新的LTS版本,里面添加了不少新的特性&…

YOLOv9改进策略:IoU优化 | Wasserstein Distance Loss,助力小目标涨点

💡💡💡本文独家改进:基于Wasserstein距离的小目标检测评估方法 Wasserstein Distance Loss | 亲测在多个数据集能够实现涨点,对小目标、遮挡物性能提升明显 💡💡💡MS COCO和PASC…

Linux(CentOS)/Windows-C++ 云备份项目(服务器网络通信模块,业务处理模块设计,断点续传设计)

此模块将网络通信模块和业务处理模块进行了合并 网络通信通过httplib库搭建完成业务处理: 文件上传请求:备份客户端上传的文件,响应上传成功客户端列表请求:客户端请求备份文件的请求页面,服务器响应文件下载请求&…

【王道训练营】第3题 判断某个年份是不是闰年,如果是闰年,请输出“yes”,否则请输出“no”

文章目录 引言闰年初始代码代码改进改进1:添加提示信息改进2:代码格式改进3:变量命名 其他实现方式使用if-else语句使用函数使用三元操作符 结论 引言 在公历中,闰年的规则如下:如果某个年份能被4整除但不能被100整除…

基于SpringBoot的“原创歌曲分享平台”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“原创歌曲分享平台”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 平台功能结构图 平台首页界面图 用户注册界面…

nvic优先级溢出

nvic的抢占优先级大于当前的配置群组所要求的最大上限,则真正优先级为数值的溢出部分;如果溢出部分为0则循环为最大数据: 如上图所示:中断分组为2: 因此优先级因为0--3 TICK_INT_PRIORITY等于0xf即为15;与3…

【Java多线程】1——多线程知识回顾

1 多线程知识回顾 ⭐⭐⭐⭐⭐⭐ Github主页👉https://github.com/A-BigTree 笔记仓库👉https://github.com/A-BigTree/tree-learning-notes 个人主页👉https://www.abigtree.top ⭐⭐⭐⭐⭐⭐ 如果可以,麻烦各位看官顺手点个star…

【3D目标检测】Det3d—SE-SSD模型训练(前篇):KITTI数据集训练

SE-SSD模型训练 1 基于Det3d搭建SE-SSD环境2 自定义数据准备2.1 自定义数据集标注2.2 训练数据生成2.3 数据集分割 3 训练KITTI数据集3.1 数据准备3.2 配置修改3.3 模型训练 1 基于Det3d搭建SE-SSD环境 Det3D环境搭建参考:【3D目标检测】环境搭建(OpenP…

朋友圈运营攻略,还有多号群发朋友圈教程

为什么需要打造朋友圈? 私域朋友圈运营运营者和私域流量理论上其实就是“网友”的关系 要维持稳定的社交关系,做好私域流量运营,就必须持续地进行自身价值塑造!而朋友圈就是最好的“战场” 打造优质朋友圈的关键点: …

linux如何查看编译器支持的C++版本(支持C++11、支持C++14、支持C++17、支持C++20)(编译时不指定g++版本,默认使用老版本编译)

参考:https://blog.csdn.net/Dontla/article/details/129016157 C各个版本 C11 C11是一个重要的C标准版本,于2011年发布。C11带来了许多重要的改进,包括: 智能指针:引入了shared_ptr和unique_ptr等智能指针,用于更好地…

day12-数据统计(Excel报表)

1. 工作台 1.1 需求分析和设计 1.1.1 产品原型 工作台是系统运营的数据看板,并提供快捷操作入口,可以有效提高商家的工作效率。 工作台展示的数据: 今日数据订单管理菜品总览套餐总览订单信息 原型图: 名词解释: 营…

Unity数独完整源码

支持的Unity版本:2018.1或更高。 这是一套完整且高效的数独源码,默认是9x9,有上千种关卡文件,4种难度,内有关卡编辑器,可扩展至4x4、6x6的关卡,还有英文文档对源码各方面可配置的地方进行说明&…

看奈飞三体魔改 赏国产《三体》预告片AI重制版

看奈飞三体魔改 赏国产《三体》预告片AI重制版 In the vast expanse of the universe, secrets await to be uncovered. 宇宙无垠,秘密待揭。 A signal from the depths of space leads to an encounter with an alien civilization - the Trisolarans. 深空信号引…

20240320-1-梯度下降

梯度下降法面试题 1. 机器学习中为什么需要梯度下降 梯度下降的作用: 梯度下降是迭代法的一种,可以用于求解最小二乘问题。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。…