DDPM的学习

Denoising Model

  • 首先是宏观理解一下

Denoising Model 的输入

  • 去噪很多步,用的是同一个Denoising Model,但是输入图片可能差距很大。解决方法:给Denoising Model多输入一个变量,表示现在的去噪阶段,让Denoising Model根据不同的噪音程度做出不同反应

Denoising Model内部结构

  • 在其内部有一个噪音预测模块,根据输入的图片和去噪阶段,预测这张图片的噪声是什么,得到这个噪声后,让输入图片减去这个噪声,就是这个Denoising Model的输出
  • 为什么要预测噪声呢,如果直接输入图片然后输出去噪后的图片,那这意味着模型可以画那个输出图片了,这是非常困难的,而预测噪音相对来说就比较容易

如何训练Denoising Model

  • 训练Denoising Model就是训练Noise Predicter,那就要有真实的噪音,这样Noise Predicter才能学习如何预测噪音。
  • 这个训练数据是人为创造的(拿一张图片,自己加噪声),这个过程叫Forward Proces(Diffusion Process)
  • 这时候就有Noise Predicter的训练资料了,如下图的input图片和阶段2是Noise Predicter的输入,而它的输出就应该是那个真实的噪声,训练Noise Predicter让它的输出接近这个噪声

对于Text-to-image

  • 还是需要文字标签和图片两种信息的资料

  • 训练集数据集,像midjourney、stable diffusion、DALL都是用的第三个数据集50多亿张训练图片

  • 直接将文字输入到Denoising Model

  • 而Noising Predicter部分也直接加入文字资料

  • 训练部分的修改,也是在去噪过程中将文章资料给Denoising Model,这代表Denoising有三个输入

  • 下面是详细过程

DDPM的算法流程

训练

  1. 首先从数据库得到一个清晰的图片x0
  2. 然后随机从1到T中得到一个t,代表要加噪的程度(真实操作是直接一步到位,不会一步一步添加噪声,直接到这个t的噪音层次)
  3. 然后从标准正态分布中采样一个噪音ε
  4. αt中的t是上面的t,t越大αt越小,αt是0到1之间的值;这里括号内的意思是给x0和ε分别赋权重,然后把两个图片加和在一起;εθ就是Noise Predicter,在εθ输入含噪声图片和t,然后让它输出预测的噪音,再拿真实的噪音减去预测的,最小化这个差值
    • αt是一个用于控制噪声注入量的超参数,是在训练前就设定好的,他是一个逐渐减小的序列,目的是让模型逐渐适应越来越大的噪声。
  • 想象中加噪音是一点一点加的,但实际上是一步到位
  • 真实高斯噪声和模型预测的高斯噪声通过均方误差(MSE)来计算损失,然后更新梯度

生成

  1. 首先从标准正态分布中采样一个高斯噪声
  2. 然后从第T阶段一步一步像原始图像推进
  3. 再采样一个高斯噪声Z用来模拟T-1步的方差,即在生成过程中加入噪音会生成的更好
  4. 第四步的公式,代表生成了第Xt-1阶段的图像,等式右边的第一项是去噪模型生成εθ(高斯噪声),其它都是已知量,再加上Z,形成的新的高斯噪声,从这上面随机采样可得到Xt-1的图片

前向传播

  • 设从数据集得到的图片为X0,在逐渐加噪的过程中,可由Xt-1得到Xt,εt是这一步骤所加的高斯噪声
  • 由Xt-2得到Xt,εt-1和εt分别是两步的高斯噪声,都服从标准正态分布
  • 上面公式先忽略高斯噪声的系数,其实就是两个高斯噪声相加,也就是叠加它们的概率分布,下面是两个正态分布的叠加公式
  • 将εt-1和εt的系数看为一个常数,正态分布乘以一个常数,它的均值μ和标准差σ都乘以这个系数,由于εt-1和εt都服从标准正态分布,所以它们的均值为0标准差为1,所以εt-1和εt和其对应系数表示的正态分布分别为
  • 根据正态分布叠加公式可得综合εt-1和εt正态分布的新的正态分布的均值和标准差,从这个新的正态分布上采样得到的随机数,就等同于之前两个带系数的εt-1和εt正态分布采样的和,也就是直接在这个上采样,就替代了那两个
  • 也就是拿一个标准正态分布,再乘以新的系数,形成新的正态分布,也就是用这个新的正态分布就代替了前面两个
  • 然后可继续将Xt-2换为Xt-3等等重复进行,使用数学归纳法可得
  • 其中的αtαt-1…α1很长,用其它符号代替,可得下面公式,这样就可以从X0一步到Xt,一次把高斯噪声加完

反向传播

贝叶斯定理
  • 现已知男孩抓到娃娃机了,问在抓到的这个娃娃是在公交站那里抓到的概率是多少,在地铁站旁边抓到娃娃的概率是多少
  • 贝叶斯公式
  • P(A)和P(B)是两个随机概率,P(B|A)是A发生情况下B发生的概率,P(A|B)是B发生情况下A发生的概率(也可以理解为在B发生的情况,B的发生是由A发生所引起的概率)
    • 在刚才的例子中P(A)指小明坐公交或地铁的概率,是基于之前的经验称为先验概率prior
    • P(A|B)同样指小明坐公交或地铁的概率,但是是在B事件发生后对先验概率P(A)的修正,所以称为后验概率posterior
    • 上面修正的基础是因为看到了B事件的发生,所以B事件称为证据Evidence
    • P(B|A)表示在A事件发生前提下B事件很有可能发生,所以称为似然Likelihood,它的值可以看作为B事件对A事件的归因力度,即当P(B|A)值越大时,B事件就提供更强的证据支持A事件,所以P(B|A)也可以理解为B事件对A事件的证据强度
反向传播公式推导
  • 由于Xt-1到Xt的加高斯噪声是随机事件,所以从Xt到Xt-1也是一个随机事件,套用贝叶斯公式可得
  • 其中的P(Xt-1)和P(Xt)分别表示Xt-1和Xt时刻的概率,也就是从X0原图得到它们的概率(加高斯噪声可以看做一个随机事件),则改写公式可以写为P(Xt-1|X0),P(Xt|X0),但X0可以认为百分百的事件
  • 为了匹配给另外两项也加上X0的条件,表示在相同的X0条件下,其实可以忽略它们,至此只需要求解右边式子就能得出Xt条件下Xt-1的概率
  • 概率和高斯噪声的转换:P(Xt|Xt-1,X0)对应的高斯噪声如下图所示
    • εt是标准正态分布,它的均值是0,标准差为1,乘以一个系数均值和标准差都要乘,然后再加上一个常数,只需要均值加即可,可得下面新的高斯噪声,这个高斯噪声就是给定Xt-1时刻,对应的Xt时刻概率分布
  • 同理可得其它两项对应的正态分布
  • 当正态分布的均值和方差确定后,就可以把他们写成正态分布的 概率密度函数形式
  • 再将这三个概率密度函数带入到贝叶斯公式中
  • 我们的目标是求解给定Xt条件下Xt-1的概率,实际上它也是正态分布,接下来要做的是将等式右边变换为Xt-1的概率密度函数的形式,最终可以变为下式
  • 所以P(Xt-1|Xt,X0)对应的正态分布如下
  • 我们的最终目标是利用Xt到前一时刻Xt-1的关系,从XT开始不断使用这个关系迭代到直到X0,X0是需要求得的结果,但现在却出现在P(Xt-1|Xt,X0)的概率分布中,说明上式存在问题。
    • 解决方法:之前已经求得了X0到Xt的公式,将这个公式用Xt表示X0,代入上式即可
  • 最后得到下面公式:它表示的就是,对于任意的Xt时刻的图像,都可以认为是从某个X0原图直接加噪得来的,而只要知晓了从X0到Xt加入的高斯噪声ε,就能得到它的前一时刻Xt-1的概率分布
  • P(Xt-1|Xt,X0)的均值可以再化简为如下图
  • 所以去噪模型的输出是下面的东西
  • 上面的P(Xt-1|Xt,X0)的最终化简其实就是生成阶段的那个公式,因为红框内部分是均值,所以要加上一个高斯分布代表考虑了方差
  • 损失就是下面这个,主要就是预测的噪声分布和真实的噪声分布的差最小

    参考资料:李宏毅老师的DDPM
    B站视频:https://www.bilibili.com/video/BV1tz4y1h7q1/?
    deep_thoughts视频:https://www.bilibili.com/video/BV1b541197HX/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/149908.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++继承同名成员的处理方式

访问方式 访问子类同名成员,直接访问即可访问父类同名成员,需要加作用域 总结 子类对象可以直接访问父类中的同名成员子类对象加作用域可以访问父类同名成员当父类与子类拥有同名的成员函数,子类会隐藏父类中同名成员函数,加作…

解决requests 2.28.x版本SSL错误:证书验证失败

1、问题背景 在使用requests 2.28.1版本时,我进行HTTP post传输报告负载时,由于SSL验证设置为True,请求失败,错误如下:(Caused by SSLError(SSLCertVerificationError(1, ‘[SSL: CERTIFICATE_VERIFY_FAILED] certifi…

ChatGPT最强?文心一言与ChatGPT对比

对于同一个问题我们分别对文心一言3.5和ChatGPT3.5输出回答,结果如下图,可以看到文心一言的回答更好,文心一言是由百度开发的人工智能语言模型,它的中文理解能力主要是基于百度强大的搜索引擎和自然语言处理技术。文心一言更加注重…

mysql优化之explain 以及 索引优化

Mysql安装文档参考:https://blog.csdn.net/yougoule/article/details/56680952 Explain工具介绍 使用EXPLAIN关键字可以模拟优化器执行SQL语句,分析你的查询语句或是结构的性能瓶颈 在 select 语句之前增加 explain 关键字,MySQL 会在查询上设…

非关系型数据库Redis(缓存型数据库)

关系型数据库和非关系型数据库的区别 关系型数据库 是一个结构化的数据库,记录方式是行(记录对象属性)和列(声明对象) 表与表之间是有关联的,使用sql语句来对指定的表、库进行增删改查 在创建表的时候&…

hive sql 行列转换 开窗函数 炸裂函数

hive sql 行列转换 开窗函数 炸裂函数 准备原始数据集 学生表 student.csv 讲师表 teacher.csv 课程表 course.csv 分数表 score.csv 员工表 emp.csv 雇员表 employee.csv 电影表 movie.txt 学生表 student.csv 001,彭于晏,1995-05-16,男 002,胡歌,1994-03-20,男 003,周杰伦,…

Flutter 中数据存储的四种方式

在 Flutter 中,存储是指用于本地和远程存储和管理数据的机制。以下是 Flutter 中不同存储选项的概述和示例。 Shared Preferences(本地键值存储) Shared Preferences 是一种在本地存储少量数据(例如用户首选项或设置&#xff09…

自压缩llm 为 超长记忆之随机编码(非进制编码)

自压缩llm 为 超长记忆之随机编码(非进制编码) 代码代码解析代码 # 自压缩llm 为 超长记忆 # prompt 格式 # <|细颗粒词表|><|粗颗粒词表|><|细颗粒词表|> # 细颗粒词表 = 词1,词2,词3,词4,词5,词6,词7,词8,词9,词10, # 组颗粒词表id1, 组颗…

buildadmin+tp8表格操作(7.1)表格的事件监听(el-table中的事件)

因为buildAdmin是封装的 el-table的组件&#xff0c;所以el-table中的事件&#xff0c; 也是可以使用的&#xff0c; 两者有几个事件是有共同的&#xff08;比如 双击事件&#xff09;&#xff0c; 这时可以根据自己的需要自行选择 以下代码是 buildadmin 使用 el-table中的事…

labview运行速度太慢

找到labview程序运行速度的瓶颈 - 百度文库 LabVIEW执行速度 - 北京瀚文网星科技有限公司 性能和内存信息窗口 必需&#xff1a;基础版开发系统 选择工具性能分析性能和内存&#xff0c;可显示该窗口。 该窗口用于采集和显示VI的执行时间和内存使用信息。如在不属于项目的…

用公式告诉你 现货黄金投资者要不要换策略?

看过笔者相关文章的朋友都知道&#xff0c;其实笔者是相当不鼓励投资者更改策略的。但这并不意味着&#xff0c;策略不能改或者换。之所以反对更改策略&#xff0c;是因为很多人对自己的策略还没上手&#xff0c;没了解清楚就急着换策略&#xff0c;这是没必要的。通过下面这个…

Vuex 组件间通讯

组件间通讯 Vuex https://vuex.vuejs.org/zh/ 基本原理 数据提取到父级 // index 文件 import Vue from vue import Vuex from "vuex" import tab from ./tab // 引入 modulesVue.use(Vuex) // 全局引入// 创建 Vuex 实例 export default new Vuex.Store({modules: …

iPaaS和RPA,企业自动化应该如何选择?

全球著名的咨询调查机构Gartner在2022年初再次发布了《2022年12大技术趋势》报告。 Gartner是全球最具权威的IT研究与顾问咨询公司&#xff0c;成立于1979年&#xff0c;在界定及分析那些决定了商业进程的发展趋势与技术方面&#xff0c;它拥有二十年以上的丰富经验&#xff0c…

uniapp-轮播图点击预览功能

实现效果 点击后打开预览图 实现代码 <swiper v-if"this.bannerList.length > 1" class"swiper" autoplay"true" duration"500" interval"2000" change"changeSwiper"><swiper-item class"swip…

解释pom中的依赖dependency

<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency> 用上面这些来给大家举例哈 这段代码是 Maven 或者 Gradle 项目中的依赖声明&#xff0c;用于引入 Spr…

微分方程,含矩阵的指数函数

d u d t A u \frac{du}{dt}Au dtdu​Au 解会长这样 u ( t ) c 1 e λ 1 t x 1 c 2 e λ 2 t x 2 . . . u(t)c_1e^{\lambda_1t}x_1c_2e^{\lambda_2t}x_2... u(t)c1​eλ1​tx1​c2​eλ2​tx2​... 因为 e λ t x e^{\lambda t}x eλtx的导数是 λ e λ t x \lambda e^{\l…

【算法日志】图论 并查集及其简单应用

【算法日志】图论: 并查集及其简单应用 并查集概论 并查集是一种算法设计思想&#xff0c;通过判断两个元素是否在同一个集合里&#xff0c;常用来解决一些和图相关的连通性问题。 并查集主要有以下两个功能&#xff1a; 将两个元素添加到一个集合中。判断两个元素是否是在…

代码模版-实现重置按钮清空表单数据,vue+elementUI

文章目录 界面代码 界面 页面上可能会有「搜索」按钮 也会有「重置」按钮 重置 btn 的作用是为了清空前面 form 表单中的数据 代码 我们使用 elementUI vue 来做 解释&#xff1a;我们在 el-form 组件中加上 ref"searchFormRef"&#xff0c;后续 js 中通过 thi…

Web之JavaScript(jQuery)笔记

Web之HTML、CSS、JavaScript 三、JavaScriptJS调试变量自定义函数数据类型及转换运算符优先级内置函数数组事件DOM(Document Object Model 文档对象模型)jQuery Web之HTML笔记 Web之CSS笔记 三、JavaScript JavaScript&#xff08;简称“JS”&#xff09;是一种轻量级的面向对…

element-ui中怎样使用iconfont的图标

1 登录 https://www.iconfont.cn/ 2 搜索合适的图 这里可以找到这个图所在的图库。这样就可以一次查找到对应的所有同款图标 3 选择同款加入购物车 4 将购物车的icon加入项目&#xff0c;注意是新建项目&#xff0c;除非你是确定需要前面已经加过的icon 5 下载icon 选择fon…