【扩散模型】7、GLIDE | 文本指引的图像生成和编辑

在这里插入图片描述

论文:GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

代码:https://link.zhihu.com/?target=https%3A//github.com/openai/glide-text2im

出处:OpenAI

一、背景

在扩散模型经过了一系列发展之后,Openai 开始探索文本条件下的图像生成,并在这篇论文里对比了两种不同的 guidance 策略,分别是通过 CLIP 引导和 classifier-free 的引导。验证了 classifier-free 的方式生成的图片更真实,与提示的文本有更好的相关性。并且使用 classifier-free 的引导的 GLIDE 模型在 35 亿参数的情况下优于 120 亿参数的 DALL-E 模型

在这里插入图片描述

二、方法

作者训练的模型包括:

  • 一个 35 亿参数量的 text-conditional 扩散模型,分辨率为 64*64
  • 一个 15 亿参数量的 text-conditional 上采样扩散模型,将分辨率提升至 256x256
  • 对于 CLIP guidance 模型,还额外训练了一个 64x64 noised ViT-L CLIP

2.1 Text-Conditional Diffusion Models

假设有一个加噪的图片 x t x_t xt,以及一个对应的文本描述 c c c,这个模型预测的就是 p ( x t − 1 ∣ x t , c ) p(x_{t-1}|x_t, c) p(xt1xt,c)

为了让这个文本 condition 生效,首先要将文本编码成 K 个 tokens,然后输入 Transformer 模型,输出文本编码结果

训练过程和 DALLE 类似:

  • 一个 35 亿参数量的 text-conditional 扩散模型,分辨率为 64*64
  • 一个 15 亿参数量的 text-conditional 上采样扩散模型,将分辨率提升至 256x256

2.2 Fine-tuning for classifier-free guidance

初始训练完成后,还需要 finetune base model 来支持 unconditional 图像生成

和 text-conditional 的模型最大的不同是,20% 的 text token 被使用 empty sequence 代替了,这样一来,模型就能同时生成 text-conditional 的输出和无需 text 的输出

2.3 Image Inpainting

扩散模型进行图像修复的基本步骤如下:

  • 初始化:首先,你需要一个扩散模型,这个模型是通过在大量图像数据上进行训练得到的。然后,你需要一个待修复的图片。

  • 设置已知区域和未知区域:在图片中选择一部分作为已知区域(不需要修复的部分),剩余部分作为未知区域(需要修复的部分)。通常情况下,已知区域是完整无损害的图片内容,而未知区域可能是被遮挡或损坏了的图片内容。

  • 采样和替换:接着,在每次采样步骤后, 用 q(xt|x0)(即从扩散过程中某一时刻t得到的概率密度函数)对应于原始图像 x0 的样本替换图像中已经被确定(或者说"固定")了值得那些位置。这个过程会持续多次迭代以逐渐生成最终结果。

  • 微调模型:为了获得更好效果, 需要对该模型进行微调以优化其在此类任务上表现。这包括随机擦除训练示例中某些区域,并将剩余部分与额外条件信息一起输入到模型中。同时还会修改网络结构增加新频道,并将新频道对应输入权重初始化为零

  • 提供低解析度和高解析度信息: 对于上采样(upsampling) 模型来说, 总是提供完整低解析度(low-resolution) 图像, 但只提供高解析度(high-resolution) 图片中未被掩盖(masked out) 的那些地方

  • 生成结果: 经过以上步骤后, 模型就能够根据给定(也就是“固定”)了值得那些位置去推测出其他位置可能出现什么内容并进行填充(restore),从而实现图像修复(inpainting)

之前的很多工作将未经针对 inpainting 任务微调的扩散模型直接用于图像修复,实际上使用扩散模型进行图像修复时,采样流程不变,但需要将图像中的已知区域在每个 sample step 之后使用生成的 q ( x t ∣ x 0 ) q(x_t|x_0) q(xtx0) 替换,这样做有一个问题,就是模型在采样的过程中无法看到全局的上下文(只能看到它的噪声版本),偶尔会在我们早期的实验中产生不希望出现的边缘伪影。

所以本文做了一些工作,本文的图像修复过程如下:

  • 训练:首先,使用大量图像数据训练一个扩散模型。这个模型可以学习如何从一个随机噪声开始,逐渐生成出一张真实的图片。

  • 微调:为了进行图像修复,需要对该模型进行微调以优化其在此类任务上表现。这包括随机擦除训练示例中某些区域,并将剩余部分与额外条件信息一起输入到模型中。同时还会修改网络结构增加新频道,并将新频道对应输入权重初始化为零。

  • 设置已知区域和未知区域:在待修复的图片中选择一部分作为已知区域(不需要修复的部分),剩余部分作为未知区域(需要修复的部分)。通常情况下,已知区域是完整无损害的图片内容,而未知区域可能是被遮挡或损坏了的图片内容。

  • 提供低分辨率和高分辨率信息: 对于上采样(upsampling) 模型来说, GLIDE 总是提供完整 (low-resolution) 图像, 但只提供 (high-resolution) 图片中未被掩盖(masked out) 的那些地方.

  • 生成结果: 在每次采样步骤后, GLIDE用 q(xt|x0)(即从扩散过程中某一时刻t得到的概率密度函数)对应于原始图像 x0 的样本替换图像中已经被确定(或者说"固定")了值得那些位置。这个过程会持续多次迭代以逐渐生成最终结果。

2.4 Noised CLIP models

为了更好地对比 classifier guidance 技术,作者训练了一个噪声 CLIP 模型。这个模型使用一个图像编码器 f(xt, t),它接收带有噪声的图像 xt,并且用原始CLIP 模型相同的目标函数进行训练。

在 64×64 分辨率下使用与基础模型相同的噪声来训练这些模型。

三、效果

3.1 定性对比

这里对比了 CLIP guidance 和 classifier-free guidance 的效果

  • classifier-free guidance 的结果看起来更真实,所以后面作者都使用了 classifier-free guidance

在这里插入图片描述

下图 1 展示了 GLIDE with classifier-free guidance 能根据很多 prompt 生成图片,且对光照和影子处理的很好,风格也很多变

在这里插入图片描述

图像修复:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

不同引导方式的对比:

在这里插入图片描述

在这里插入图片描述

3.2 定量对比

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

3.3 失败案例

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/580435.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【51单片机系列】DS1302时钟模块

本文是关于DS1302时钟芯片的相关介绍。 文章目录 一、 DS1302时钟芯片介绍二、DS1302的使用2.1、DS1302的控制寄存器2.2、DS1302的日历/时钟寄存器2.3、片内RAM2.4、DS1302的读写时序 三、SPI总线介绍四、DS1302使用示例 一、 DS1302时钟芯片介绍 DS1302是DALLAS公司推出的涓流…

GitLab 删除或移动项目

首先明说,删除后无法恢复 第一步:找到要删除的项目 第二步:进入目录后,左侧菜单,设置 >>> 通用,拉到最下面找到“高级”,点击右侧“展开” 第三步:点击“展开”后往下拉&a…

CSS 文字弹跳效果

鼠标移过去 会加快速度 <template><div class"bounce"><p class"text" :style"{animationDuration: animationDuration}">欢迎使用UniApp Vue3&#xff01;</p></div> </template><script> export d…

ArcGIS渔网的多种用法

在ArcGIS中有一个渔网工具&#xff0c;顾名思义&#xff0c;可以用来创建包含由矩形像元所组成网络的要素类。不太起眼&#xff0c;但它的用途却有很多&#xff0c;今天跟大家分享一篇关于渔网的多种用途。 1.马赛克地图制作 2.基于网格的设施密度统计制作马赛克地图 准备材…

牙齿敏感困扰?试试清九野小红盾牙膏

随着冬季的来临&#xff0c;许多人可能会面临牙齿敏感的问题。在这个时候&#xff0c;食用冷饮都会让牙齿感到非常酸痛。一般来说&#xff0c;不良的饮食习惯和不正确的刷牙方式&#xff0c;都会导致牙齿敏感&#xff0c;但根本还是牙本质小管的暴露和空洞&#xff0c;需要修复…

家校互通小程序实战开发02首页搭建

目录 1 创建应用2 搭建首页总结 我们上一篇介绍了家校互通小程序的需求&#xff0c;创建了对应的数据源。有了这个基础的分析之后&#xff0c;我们就可以进入到开发阶段了。开发小程序&#xff0c;先需要创建应用。 1 创建应用 登录控制台&#xff0c;点击创建应用&#xff0c…

File Inclusion(Pikachu)

File Inclusion(local) 这里随便点击一个提交 观察url&#xff0c;显示是一个文件file1.php 可以直接通过url修改这个文件 找到自己的文件&#xff08;本地文件&#xff09;shell.php的路径写上去 就可以看到 File Inclusion&#xff08;remote&#xff09; 提交的是一个目标…

C#教程(四):多态

1、介绍 1.1 什么是多态 在C#中&#xff0c;多态性&#xff08;Polymorphism&#xff09;是面向对象编程中的一个重要概念&#xff0c;它允许不同类的对象对同一消息做出响应&#xff0c;即同一个方法可以在不同的对象上产生不同的行为。C#中的多态性可以通过以下几种方式实现…

促进家校沟通的方法有哪些

“家校沟通是教育中的重要一环&#xff0c;它可以帮助教师和家长更好地了解和关心孩子&#xff0c;共同促进孩子的健康成长。但是&#xff0c;在实际操作中&#xff0c;如何才能有效地促进家校沟通呢&#xff1f; 定期家长会&#xff1a;每个学期开始和结束时&#xff0c;以及期…

【Unity6.0+AI】Sentis加载模型识别手写数字案例实现

按照国际惯例,看效果: 素材准备: 自己在PS中绘制黑底白字手写字体,导出jpg,尺寸28*28! 素材设置 基本步骤 准备工作:从 ONNX Model Zoo 下载手写识别 ONNX 模型文件 【下载模型】MNIST 手写数字识别模型 mnist-12.onnx,并将其拖入项目窗口的 Assets 文件夹。 【下载模…

每日一题-----逆序字符串

大家好我是Beilef&#xff0c;在一个美好的下午我意外接触到编程并且产生了兴趣&#xff0c;哈哈我要努力成为一个跨界者&#xff0c;让我们一起加油吧O(∩_∩)O 文章目录 目录 文章目录 前言 大家好请上车 一、逆序字符串 题⽬描述&#xff1a; 输⼊⼀个字符串&#xff0c;写…

7.7、kali linux环境下搭建DVWA

目录 一、资料下载准备工作 1.1、DVWA源代码下载 二、开启Apache、mysql服务 2.1、下载Apache2文件 2.2、开启Apache2服务 方法一&#xff1a;开启Apache2服务&#xff08;手动&#xff09; 方法二&#xff1a;开启Apache2服务&#xff08;系统自启动&#xff09; 2.3、…

量子密码学简介

量子密码学&#xff08;英语&#xff1a;Quantum cryptography&#xff09;泛指利用量子力学的特性来加密的科学。量子密码学最著名的例子是量子密钥分发&#xff0c;而量子密钥分发提供了通信两方安全传递密钥的方法&#xff0c;且该方法的安全性可被信息论所证明。目前所使用…

blackbox黑盒监控部署(k8s内)tensuns专用

一、前言 部署在k8s中需要用到deployment、configmap、service服务 二、部署 创建存放yaml的目录 mkdir /opt/blackbox-exporter && cd /opt/blackbox-exporter 编辑blackbox配置文件&#xff0c;使用configmap挂在这 vi configmap.yaml apiVersion: v1 kind: Confi…

C#与VisionPro联合编程

C#与VisionPro联合 1. 参照康耐视提供的样例2. 参照样例写一个1. 创建工程2. 添加引用3. 声明变量4. 初始化5. 刷新队列6. 用户数据获取7. 跨线程访问Windows控件--委托8. 显示图像9. 释放资源 3. 代码4. 资源下载 1. 参照康耐视提供的样例 C:\Program Files\Cognex\VisionPro…

详解Java多线程、线程池及线程同步(synchronized关键字、悲观锁、乐观锁)——通俗易懂版!!!

1.进程与线程定义 进程包含线程&#xff0c;如一个百度网盘进程&#xff0c;该进程的线程可以有上传&#xff0c;下载。 2.创建线程的三种方式 方式1-继承Thread类 方式2-实现Runnabled接口 1.常规写法 2.匿名内部类写法 方式3-实现Callable接口 示例代码&#xff1a; f1.get…

CAD objectArx 在操作mfc时出现“不支持尝试执行的操作“

问题原因&#xff1a; ARX中对话框通常继承自CAcUiDialog&#xff0c;CAcUiDialog 构造函数有个参数 HINSTANCE hInstance&#xff0c;默认为 NULL&#xff0c;指定了对话框资源所在DLL进程。如果没有指定该参数&#xff0c;在创建对话框&#xff08;DoModal或Create&#xff…

湘潭大学-软件工程-大题浅析

前言 因为打印的资料只有少数几份有答案&#xff0c;所以这个部分比较简短 大题包括分析&#xff0c;设计&#xff0c; UML图&#xff0c;四个大题&#xff0c;占40分 应用设计题 1.建立软件公司的对象模型 矩形方框表示对象&#xff0c;只需要把题干所有信息用图表示出来即…

记一次应急响应练习(windows)

记一次应急响应练习&#xff08;windows&#xff09; windows&#xff1a; 1.请提交攻击者攻击成功的第一时间&#xff0c;格式&#xff1a;YY:MM:DD hh:mm:ss 答&#xff1a;2023/04/29:22:44:32 思路&#xff1a; 看见桌面的小皮面板&#xff0c;进入小皮的安装目录。发现…

IDEA相关操作

目录 连接MySQL IDEA配置Maven 配置全局Maven 导入Maven项目 方法一 方法二 安装Mybatisx插件 连接MySQL 填写user和Password之后测试连接 如果是第一次连接需要联网下载数据库连接驱动&#xff0c;安装提示下载即可 如果显示如下错误需要更改时区 Server returns …