【Diffusion学习】【生成式AI】Stable Diffusion、DALL-E、Imagen 背後共同的套路

文章目录

    • 图片生成Framework 需要3个组件:
      • 相关论文【Stable Diffusion,DALL-E,Imagen】
    • 具体介绍三个组件
      • 1. Text encoder介绍【结论:文字的encoder重要,Diffusion的模型不是很重要!】
        • 评估指标:FID计算
        • CLIP Score 计算
      • 3. Decoder介绍【不需要成对的训练资料】
      • 2. Diffusion Model介绍【训练一个noise predicter】
        • noise 加在 latent representation上


from: https://www.youtube.com/watch?v=JbfcAaBT66U&list=PLJV_el3uVTsNi7PgekEUFsyVllAJXRsP-&index=5

简介:

84,841次观看 2023年3月25日 【機器學習 2023】(生成式 AI)
感謝黃敬峰先生提供字幕

Stable Diffusion
https://arxiv.org/abs/2112.10752

DALL-E series
https://arxiv.org/abs/2204.06125
https://arxiv.org/abs/2102.12092

Imagen
https://arxiv.org/abs/2205.11487


图片生成Framework 需要3个组件:

  1. Text Encoder
  2. Generation Model
  3. Decoder

在这里插入图片描述

相关论文【Stable Diffusion,DALL-E,Imagen】

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

具体介绍三个组件

在这里插入图片描述

1. Text encoder介绍【结论:文字的encoder重要,Diffusion的模型不是很重要!】

在这里插入图片描述

评估指标:FID计算

在这里插入图片描述

CLIP Score 计算

在这里插入图片描述

3. Decoder介绍【不需要成对的训练资料】

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2. Diffusion Model介绍【训练一个noise predicter】

在这里插入图片描述

noise 加在 latent representation上

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/46885.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Webpack看这篇就够了

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 非常期待和您一起在这个小…

React@16.x(57)Redux@4.x(6)- 实现 bindActionCreators

目录 1,分析1,直接传入函数2,传入对象 2,实现 1,分析 一般情况下,action 并不是一个写死的对象,而是通过函数来获取。 而 bindActionCreators 的作用:为了更方便的使用创建 action…

补充.IDEA的使用

首先我们要了解在idea中Java工程由项目(project)、模块(module)包(package)、类(class)组成。 他们之间的关系是project包含module包含package包含class。 所以我们要按照先建一个pr…

AutoMQ 社区双周精选第十二期(2024.06.29~2024.07.12)

本期概要 欢迎来到 AutoMQ 第十一期双周精选!在过去两周里,主干动态方面,AutoMQ 跟进了 Apache Kafka 3.4.x BUG 修复,并进行了CPU & GC 性能优化,另外,AutoBalancing 的 Reporter 和 Retriever 也将支…

Linux的相关命令

Linux 1. 什么是Linux系统 Linux,全称GNU/Linux,是一种免费使用和自由传播的类UNIX操作系统,其内核由林纳斯本纳第克特托瓦兹(Linus Benedict Torvalds)于1991年10月5日首次发布,它主要受到Minix和Unix思想…

浏览器缓存:强缓存与协商缓存实现原理有哪些?

1、强缓存:设置缓存时间的,那么在这个时间内浏览器向服务器发送请求更新数据,但是服务器会让其从缓存中获取数据。 可参考:彻底弄懂强缓存与协商缓存 - 简书 2、协商缓存每次都会向浏览器询问,那么是怎么询问的呢&…

wordpress 调用另外一个网站的内容 按指定关键词调用

要在WordPress中调用另一个网站的内容并根据指定关键词进行筛选,你可以使用以下代码。这段代码使用了WordPress内置的wp_remote_get函数来获取远程网站的内容,然后使用PHP的DOMDocument和DOMXPath类来解析HTML并筛选出包含指定关键词的内容。 首先&…

H2数据库启动时,设置非“全零监听”

全零监听 全零监听(即将监听地址设置为全零地址,如IPv4中的0.0.0.0或IPv6中的::)在网络服务配置中确实存在一定的安全风险。以下是全零监听可能带来的安全风险: 1. 暴露服务到不安全网络 全网段监听:将监听地址设置…

中介者模式(行为型)

目录 一、前言 二、中介者模式 三、总结 一、前言 中介者模式(Mediator Pattern)是一种行为型设计模式,又成为调停者模式,用一个中介对象来封装一系列的对象交互。中介者使各对象不需要显式地互相引用,从而使其耦合…

2024最新超详细SpringMvc常用注解总结

SpringMVC常用注解 控制器(Controller)相关注解: 1.Controller Controller 注解用于标识一个类为 Spring MVC 的控制器,它能够处理用户的请求并返回相应的视图或数据。通常与 RequestMapping 注解一起使用,以定义请求…

解决NodeJS控制台输出中文乱码

前言 不知道是系统升级还是Nodejs升级的原因,我从NodeJS19.x升级到20.x后,项目输出的中文就变成了乱码.经测试chcp 65001指令不能有效的解决问题. 于是在AI的加持下得到了这条指令(好用): [Console]::OutputEncoding [System.Text.Encoding]::UTF8在powershell中执行如上指…

JavaScript基础(十三)

Math对象 方法+说明 ceil() 对数进行上舍入 例:Math.ceil(12.5)返回13; Math.ceil(-12.5)返回-12 (简单点来记就是ceil返回的值要比传入的大) var…

CP Process2

CP Process2 信贷流程,概念,分类,五级十二类

docker镜像命令容器命令

docker镜像命令 1、docker images //查看所有本地的主机上的镜像 2、docker search mysql //搜素镜像 2、docker pull mysql:5.7 //指定版本拉取mysql镜像 3、docker pull mysql //不指定版本拉取mysql镜像 4、docker rmi -f 镜像id //删除指定镜像 5、4、docker rmi -f 镜像…

MAVSDK常用API接口解析

mavsdk 主要类,用于发现和管理连接 官网连接 : class Mavsdk MAVSDK Guide 头文件:#include "mavsdk.h" 在使用时需要创建对象 #带配置的构造函数 mavsdk::Mavsdk::Mavsdk(Configuration configuration) #构造示例:指定组件类型为地面站 Mavsdk mavsdk{Mav…

基于高德地图实现Android定位功能实现(二)

基于高德地图实现Android定位功能实现(二) 在实现的高德地图的基本显示后,我们需要不断完善地图的功能 地图界面设计(悬浮按钮等) 首先就是地图页面的布局,这个根据大家的实际需求进行设计即可&#xff…

TCP网络模型

目录 应用层:传输层:网络层:网络接口层: 模型最大的优点就是把服务、接口还有协议这三个概念明确的区分开了,通过模型可以让不同系统的网络之间实现可靠的数据传输. 传输层数据带上TCP头,网络层带上IP头&am…

前后端数据交互设计到的跨域问题

前后端分离项目的跨域问题及解决办法 一、跨域简述 1、问题描述 这里前端vue项目的端口号为9000,后端springboot项目的端口号为8080 2、什么是跨域 当一个请求url的协议、域名、端口三者之间任意一个与当前页面url不同即为跨域 当前页面url被请求页面url是否…

PostgreSQL使用(一)

说明:SQL语言分为以下四类, DDL(数据库定义语言):DROP、CREATE、ALTER等语句; DML (数据库操作语言):INSERT、UPDATE、DELETE语句; DQL(数据库查…

cuda缓存示意图

一、定义 cuda 缓存示意图gpu 架构示意图gpu 内存访问示意图 二、实现 cuda 缓存示意图 DRAM: 通常指的是GPU的显存,位于GPU芯片外部,通过某种接口(如PCIE)与GPU芯片相连。它是GPU访问的主要数据存储区域,用于存储大…