李宏毅机器学习2023|图像生成模型

李宏毅机器学习2023|图像生成模型

news/2025/4/27 4:55:24/文章来源:https://blog.csdn.net/m0_57290240/article/details/135209490

文章目录

图像生成
Autoregressive（各个击破）Non-Autoregressive（一次到位）
一次到位法
额外的输入——从一个高维的Normal Distribution作simple得到一个向量
常用的图片生成模型
- VAE
- Flow-based Generative Model
- Diffusion Model
- GAN
Diffusion Model
- denoise model里实际内部做的事情
- 如何训练Noise Predictor
- 怎么把文字考虑进来
Stable Diffusion
- 常见的图生文模型
- 组成部分
- - text encoder
  - Generation Model
  - Decoder
- 评估指标
- - FID
  - CLIP Score

图像生成

机器需要大量的脑补

Autoregressive（各个击破）Non-Autoregressive（一次到位）

直接把图片的像素拉直，当成文字那样处理。
但是这样太耗时

一次到位法

因为每一个像素独立绘制，因此效果不好

额外的输入——从一个高维的Normal Distribution作simple得到一个向量

在这里插入图片描述

常用的图片生成模型

VAE

怎么样去找一些成对的训练集？使用Encoder产生。（图中省略了输入文字）
在这里插入图片描述

Flow-based Generative Model

因为Encoder必须是Invertible的，因此输出的vector的维度必须和输入的一样。（图上没画好）
在这里插入图片描述

Diffusion Model

在这里插入图片描述

GAN

只learn decoder没有learn encoder。
Decoder要做的就是调整他自己，让判别器表现得越差越好。

Diffusion Model

这里的Denoise都是同一个model
在这里插入图片描述

denoise model里实际内部做的事情

在这里插入图片描述

如何训练Noise Predictor

从哪获取训练资料——怎么找到杂屑的ground truth？这是人类自己创造的
加噪音——Forward Process（Diffusion Process）
在这里插入图片描述

怎么把文字考虑进来

数据集：LAION-5b
在这里插入图片描述

来源论文：Denoising Diffusion Probabilistic Models

Stable Diffusion

现在最好的图像生成模型由三个元件组成：
1、Text Encoder
2、Generation Model（Stable Diffusion或者其他）
3、Decoder
三个元件分开训练再合起来
在这里插入图片描述

常见的图生文模型

在这里插入图片描述

组成部分

text encoder

encoder对结果影响很大，相对而言diffusion model（这里指那个noise predicter的大小）对结果影响就不大。
在这里插入图片描述

Generation Model

杂屑不是加在图片上，而是加在中间产物上
在这里插入图片描述

Decoder

训练时不需要labelled data
在这里插入图片描述

评估指标

FID

越小越好
在这里插入图片描述

CLIP Score

越大越好
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/578649.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

计量校准方案分享No.11——定碳定硫分析仪校准方案

计量校准方案分享No.11——定碳定硫分析仪校准方案

[测量单元:红外碳硫分析仪,是否使用220V交流电源:是,碳测量范围:0.005%-4.3%,硫测量范围:0.0005%-0.33%] 一依据文件 CNAS CL01-G002-2021 《测量结果的计量溯源性要求》现行有效 RB/T 034-2020 《测量设备校准周期的确定和调整方法指南》现行有效 CNAS TRL-004-2017 《 …

阅读更多...

跨境电商独立站的6大模式，任你选择！

跨境电商独立站的6大模式，任你选择！

在几年前搭建跨境电商独立站和第三方平台基本上是同步发展起来的，但在后期的发展过程中，独立站经过不同时期的革新，形成了自己的模式。当你准备好创建独立站的时候，首先你需要了解的就是独立站运营的模式类型，并找到最…

阅读更多...

【Qt-Edit】

【Qt-Edit】

Qt编程指南 ■ QTextEdit■ QLineEdit■ QLineEdit 设置正则表达式 ■ QPlainTextEdit■ QKeySequenceEdit■ QList<QLineEdit *> edits■■ ■ QTextEdit /* 实例和对象，设置位置和显示大小 */ textEdit new QTextEdit(this); textEdit->setGeometry(0…

阅读更多...

每日一题(LeetCode)----栈和队列-- 简化路径

每日一题(LeetCode)----栈和队列-- 简化路径

每日一题(LeetCode)----栈和队列-- 简化路径 1.题目（71. 简化路径） 给你一个字符串 path ，表示指向某一文件或目录的 Unix 风格绝对路径 （以 / 开头），请你将其转化为更加简洁的规范路径。在 Unix 风格的…

阅读更多...

【Avue】树形结构表格，删除子表格数据，页面刷新无反应

【Avue】树形结构表格，删除子表格数据，页面刷新无反应

阅读更多...

ISO27001认证主要的审核方向

ISO27001认证主要的审核方向

ISO27001审核主要针对组织的信息安全管理体系（ISMS）进行全面的审查，以确保其符合ISO/IEC 27001标准的要求。审核过程通常包括以下几个方面： 1. 组织环境：审核组织的信息安全管理体系是否能够在组织内部环境以及与外部供…

阅读更多...

熟悉DHCP面临的安全威胁与防护机制

熟悉DHCP面临的安全威胁与防护机制

一个网络如果要正常地运行，则网络中的主机（Host）必需要知道某些重要的网络参数，如IP地址、网络掩码、网关地址、DNS服务器地址、网络打印机地址等等。显然，在每台主机上都采用手工方式来配置这些参数是非常困难的、或是…

阅读更多...

Springboot学习

Springboot学习

Springboot扩展点之InitializingBean-CSDN博客

阅读更多...

C/S医院检验LIS系统源码

C/S医院检验LIS系统源码

一、检验科LIS系统概述： LIS系统即实验室信息管理系统。LIS系统能实现临床检验信息化，检验科信息管理自动化。其主要功能是将检验科的实验仪器传出的检验数据经数据分析后，自动生成打印报告，通过网络存储在数据库中&#xff…

阅读更多...

《微信小程序开发从入门到实战》学习六十三

《微信小程序开发从入门到实战》学习六十三

6.4 交互API 使用交互API可以在小程序中显示各种弹窗或动画，达到交互反馈的目的。 6.4.1 提示框API 使用wx.showToast接口可显示消息提示框。接口接受Object参。属性如下： title（必填） 提示的内容 icon …

阅读更多...

postgres数据库安装

postgres数据库安装

选择所需数据库版本进行下载下载地址：PostgreSQL: File Browser 我是以/data当作主目录，所以在/data下创建俩文件夹，默认目录应该是usr mkdir software mkdir module 进入目录，上传下载的gz安装包 cd software rz 解压缩,版本…

阅读更多...

6-2 递归求阶乘和

6-2 递归求阶乘和

本题要求实现一个计算非负整数阶乘的简单函数，并利用该函数求 1!2!3!...n! 的值。函数接口定义： double fact( int n ); double factsum( int n ); 函数fact应返回n的阶乘，建议用递归实现。函数factsum应返回 1!2!...n! 的值。题目保证输…

阅读更多...

什么是数据资产化？数据怎样成为资产？怎样进入资产负债表？

什么是数据资产化？数据怎样成为资产？怎样进入资产负债表？

财政部发布的《企业数据资源相关会计处理暂行规定》将从2024年1月1日起开始实施，为企业数据资源入表提供了基本指引，数据资产化有望迎来爆发期。什么是数据资产化，怎样让数据成为资产，成为了众多国有企业、上市公司关心的问题。 —…

阅读更多...

JavaScript 中的双等号（==）和三等号（===）有何不同？何时使用它们？

JavaScript 中的双等号（==）和三等号（===）有何不同？何时使用它们？

🌈个人主页：前端青山 🔥系列专栏：JavaScript篇 🔖人终将被年少不可得之物困其一生依旧青山,本期给大家带来JavaScript篇专栏内容:JavaScript-等号区别目录和区别，分别在什么情况使用一、等于操作符…

阅读更多...

交换机端口镜像技术原理与配置

交换机端口镜像技术原理与配置

在网络维护的过程中会遇到需要对报文进行获取和分析的情况，比如怀疑有攻击报文，此时需要在不影响报文转发的情况下，对报文进行获取和分析。镜像技术可以在不影响报文正常处理流程的情况下，将镜像端口的报文复制一份到观察端口&…

阅读更多...

在这个行业，技术即艺术

在这个行业，技术即艺术

阅读更多...

掌握ElasticSearch（一）：Elasticsearch安装与配置、Kibana安装

掌握ElasticSearch（一）：Elasticsearch安装与配置、Kibana安装

文章目录〇、简介1.Elasticsearch简介2.典型业务场景3.数据采集工具4.名词解释一、安装1.使用docker(1)创建虚拟网络(2)Elasticsearch安装步骤 2.使用压缩包二、配置1.目录介绍2.配置文件介绍3.elasticsearch.yml节点配置4.jvm.options堆配置二、可视化工具Kibana1.介绍2.安…

阅读更多...

千万别放弃，运维工程师其实是一个被埋没的“朝阳”职位！

千万别放弃，运维工程师其实是一个被埋没的“朝阳”职位！

运维工程师的出路到底在哪里？ 你是不是也常常听到身边的运维人员抱怨，他们的出路到底在哪里呢？别着急，让我告诉你，运维人员就像是IT界的“万金油”，他们像“修理工”一样维修服务器，像“消防员…

阅读更多...

springboot(ssm小区团购管理系统社区团购平台系统 Java系统

springboot(ssm小区团购管理系统社区团购平台系统 Java系统

springboot(ssm小区团购管理系统社区团购平台系统 Java系统开发语言：Java 框架：ssm/springboot vue JDK版本：JDK1.8（或11） 服务器：tomcat 数据库：mysql 5.7（或8.0&#xff09…

阅读更多...

说一下 tcp 粘包是怎么产生的？

说一下 tcp 粘包是怎么产生的？

说一下 tcp 粘包是怎么产生的？ TCP粘包是指发送方发送的数据在接收方收到时粘在一起，形成一个大的数据包，而不是按照发送方原始的数据块进行拆分。这可能导致接收方无法正确解析和处理数据。TCP是面向流的协议，它并不保证接收方能…

阅读更多...

最新文章