什么是stable diffusion?

🌟 Stable Diffusion:一种深度学习文本到图像生成模型 🌟

Stable Diffusion是2022年发布的深度学习文本到图像生成模型,主要用于根据文本的描述产生详细图像。它还可以应用于其他任务,如内补绘制、外补绘制,以及在提示词指导下产生图生图的转变。

💻 Stable Diffusion的开发和支持 💻

Stable Diffusion是一种潜在扩散模型,由慕尼黑大学的CompVis研究团体开发的各种生成性人工神经网络之一。它是由初创公司StabilityAI、CompVis与Runway合作开发,并得到EleutherAI和LAION的支持。 截至2022年10月,StabilityAI筹集了1.01亿美元的资金。

📥 Stable Diffusion的源代码和模型权重 📥

Stable Diffusion的源代码和模型权重已分别公开发布在GitHub和Hugging Face,可以在大多数配备有适度GPU的电脑硬件上运行。而以前的专有文生图模型(如DALL-E和Midjourney)只能通过云计算服务访问。

🔍 Stable Diffusion的工作原理 🔍

Stable Diffusion是一种扩散模型的变体,叫做“潜在扩散模型”(latent diffusion model; LDM)。扩散模型是在2015年推出的,其目的是消除对训练图像的连续应用高斯噪声。Stable Diffusion由3个部分组成:变分自编码器(VAE)、U-Net和一个文本编码器。与其学习去噪图像数据(在“像素空间”中),而是训练VAE将图像转换为低维潜在空间。添加和去除高斯噪声的过程被应用于这个潜在表示,然后将最终的去噪输出解码到像素空间中。在前向扩散过程中,高斯噪声被迭代地应用于压缩的潜在表征。每个去噪步骤都由一个包含ResNet骨干的U-Net架构完成,通过从前向扩散往反方向去噪而获得潜在表征。最后,VAE解码器通过将表征转换回像素空间来生成输出图像。研究人员指出,降低训练和生成的计算要求是LDM的一个优势。

📝 调节数据的编码 📝

去噪步骤可以以文本串、图像或一些其他数据为条件。调节数据的编码通过交叉注意机制(cross-attention mechanism)暴露给去噪U-Net的架构。为了对文本进行调节,一个预训练的固定CLIP ViT-L/14文本编码器被用来将提示词​转化为嵌入空间。

📝stable diffusion使用方法📝

Stable Diffusion模型支持通过使用提示词来产生新的图像,描述要包含或省略的元素,以及重新绘制现有的图像,其中包含提示词中描述的新元素(该过程通常被称为“指导性图像合成”(guided image synthesis)[11])通过使用模型的扩散去噪机制(diffusion-denoising mechanism)。 此外,该模型还允许通过提示词在现有的图中进内联补绘制和外补绘制来部分更改,当与支持这种功能的用户界面使用时,其中存在许多不同的开源软件。

Stable Diffusion建议在10GB以上的显存(GDDR或HBM)下运行, 但是显存较少的用户可以选择以float16的精度加载权重,而不是默认的float32,以降低显存使用率。

📝stable diffusion①文生图📊

Stable Diffusion中的文生成图采样脚本被称为"txt2img",它接受一个提示词以及各种选项参数,包括采样器类型、图像尺寸和随机种子。根据模型对提示的解释,txt2img会生成一个带有不可见数字水印标签的图像文件。这个水印标签允许用户识别由Stable Diffusion生成的图像,尽管调整大小或旋转图像会使水印失去有效性。Stable Diffusion模型是在由512×512分辨率图像组成的数据集上训练的,因此txt2img生成图像的最佳配置也是以512×512的分辨率生成的。后来的Stable Diffusion 2.0版本引入了生成768×768分辨率图像的能力。

每次txt2img的生成过程都会使用一个影响生成图像的随机种子。用户可以选择随机化种子以探索不同的生成结果,或者使用相同的种子以获得与之前生成的图像相同的结果。用户还可以调整采样迭代步数。较高的值需要更长的运行时间,但较小的值可能会导致视觉缺陷。另一个可配置的选项是无分类指导比例值,允许用户调整提示词的相关性。对于更具实验性或创造性的用例,用户可以选择较低的值,而对于旨在获得更具体输出的用例,用户可以使用较高的值。

反向提示词是Stable Diffusion一些用户界面软件中的一个功能,例如StabilityAI自己的“Dreamstudio”云端软件即服务模式订阅制服务。它允许用户指定模型在图像生成过程中应该避免的提示。这对于由于用户提供的提示词或模型初始训练而导致图像输出中出现不良特征(例如畸形手脚)的情况非常适用。与使用强调符相比,使用反向提示词在降低生成不良图像的频率方面具有高度统计显著的效果。强调符是另一种方法,用于为提示的某些部分增加权重,在关键词中使用括号以增加或减少强调。

📊stable diffusion②图生图📊

Stable Diffusion提供了另一个取样脚本,名为"img2img"。它接受一个提示词、现有图像的文件路径和一个从0.0到1.0之间的去噪强度参数。使用这些参数,img2img可以在基于原始图像的基础上生成一个新的图像,该图像也包含了提示词中提供的元素。去噪强度表示添加到输出图像的噪声量,值越大,图像的变化越多,但可能与提供的提示在语义上不一致。图像升频是img2img的一个潜在用例。

在2022年11月24日发布的Stable Diffusion 2.0版本中,引入了一个深度引导模型,称为"depth2img"。该模型能够推断所提供输入图像的深度,并结合提示词和深度信息生成新图像,以保持新图像中原始图像的连贯性和深度。

Stable Diffusion模型的许多不同用户界面软件提供了通过img2img进行图生成图的其他用例。其中,内补绘制(inpainting)是一个常见的用例,用户可以提供一个蒙版,描述现有图像的一部分,然后根据提示词用新生成的内容填充蒙版的空间。随着Stable Diffusion 2.0版本的发布,StabilityAI还创建了一个专门针对内补绘制用例的专用模型。另一个用例是外补绘制(outpainting),它将图像扩展到其原始尺寸之外,并使用根据提供的提示词生成的内容来填充以前的空白空间。

🌟结论🌟

Stable Diffusion是一个包含多个脚本和模型的工具集,用于生成图像并对图像进行处理。这个工具集提供了多种功能,包括从文本提示生成图像、在现有图像上应用图像处理操作、以及根据图像的深度信息生成新的图像等。Stable Diffusion的目的似乎是通过这些脚本和模型来实现图像生成、图像处理和图像增强等任务,并且可以调整噪声强度等参数来控制生成的图像质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/793246.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于opencv的猫脸识别模型

opencv介绍 OpenCV的全称是Open Source Computer Vision Library,是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及…

【前端面试3+1】11 http和https有何不同及https的加密过程、数组有哪些方法及作用、tcp三次握手四次挥手、【分发饼干】

一、http和https有何不同?https的加密过程 1、不同: HTTP和HTTPS的主要区别在于安全性。HTTP是超文本传输协议,是一种用于传输数据的协议,但是传输的数据是明文的,容易被窃听和篡改。而HTTPS是在HTTP基础上加入了SSL/T…

【ORB-SLAM3】Ubuntu20.04 使用 RealSense D435i 运行 ORB-SLAM3 时遇到的一些 Bug

【ORB-SLAM3】使用 RealSense D435i 跑 ORB-SLAM3 时遇到的一些 Bug 1 hwmon command 0x80( 5 0 0 0 ) failed (response -7 HW not ready)2 No rule to make target /opt/ros/noetic/lib/x86_64-linux-gnu/librealsense2.so, needed by ../lib/libORB_SLAM3.so 1 hwmon comman…

力扣108. 将有序数组转换为二叉搜索树

Problem: 108. 将有序数组转换为二叉搜索树 文章目录 题目描述思路复杂度Code 题目描述 思路 根据二叉搜索树中序遍历为一个有序序列的特点得到: 1.定义左右下标left,right分别指向有序序列的头尾; 2.每次取出left和right的中间节点mid&…

电脑上怎么压缩图片?三个处理方法介绍

随着我们现在使用图片的地方越来越多,我们处理图片的情况也比较多了,通过压缩图片大小可以使图片文件更小,从而减少存储空间和带宽的使用,同时也可以提高加载速度和性能。良好的图片压缩可以有效地减少文件大小,同时保…

深入浅出 -- 系统架构之单体架构

单体架构(Monolithic Architecture) 单体架构的定义 单体架构(Monolithic Architecture)是一种传统的软件架构模式,将整个应用程序作为一个单一的、统一的单元进行开发、部署和扩展。在单体架构中,所有的功…

vue3.x专题十二 ---- vuex持久化(自动保存到本地)

在开发的过程中,例如用户信息等需要vuex中存储且需要本地存储,我们可以使用一个模块,设置好后,可以在修改state后自动触发并自动到本地存储数据: 1)首先:我们需要安装一个vuex的插件vuex-persi…

JSP

概念:Java Server Pages,Java服务端页面 一种动态的网页技术,其中既可以定义HTML、JS、CSS等静态内容,还可以定义Java代码的动态内容 JSP HTML Java 快速入门 注:Tomcat中已经有了JSP的jar包,因此我们…

【yy讲解PostCSS是如何安装和使用】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

Coursera上托福专项课程01:TOEFL Reading and Listening Sections Skills Mastery 学习笔记

TOEFL Reading and Listening Sections Skills Mastery Course Certificate 本文是学习 https://www.coursera.org/learn/toefl-reading-listening-sections-skills-mastery 这门课的笔记,如有侵权,请联系删除。 文章目录 TOEFL Reading and Listening …

设计模式:创建者模式

定义 创建者模式(Builder Pattern),又称建造者模式,是一种创建型设计模式,它提供了一种创建对象的最佳方式。该模式允许将一个复杂对象的构建与它的表示分离,这样同样的构建过程可以创建不同的表示。创建者…

mmdetection计算参数量和计算复杂度

参数量与图片尺寸无关 而计算复杂度(GFlops)与输入图片的尺寸有关,作比较的时候要确保,输入尺寸一致的,最新版本的mmdetection的tools/analysis_tools/get_flops.py中不支持更改输入图片尺寸,而是自己从数…

AI绘图:Stable Diffusion ComfyUI局部重绘与智能扩图全面教程

前言 在数字艺术创作中,局部重绘和智能扩图是两个非常重要的功能。局部重绘允许我们在保留原有图像的基础上,对特定区域进行修改或创新。而智能扩图则能够帮助我们在图像的边缘添加新的元素,从而扩展图像的内容。本文将详细介绍如何在Stable…

卷积篇 | YOLOv8改进之引入全维度动态卷积ODConv | 即插即用

前言:Hello大家好,我是小哥谈。ODConv是一种关注了空域、输入通道、输出通道等维度上的动态性的卷积方法,一定程度上讲,ODConv可以视作CondConv的延续,将CondConv中一个维度上的动态特性进行了扩展,同时了考虑了空域、输入通道、输出通道等维度上的动态性,故称之为全维度…

深入理解C/C++的内存管理

在C和C中,高效的内存管理是编写性能优化和资源高效利用程序的关键。本文将深入探讨C/C内存管理的各个方面,包括内存的分布、C语言和C中的动态内存管理方式,以及new和delete操作符的使用 C/C内存分布 C和C程序的内存可以分为以下几个区域&…

Transformer学习: Transformer小模块学习--位置编码,多头自注意力,掩码矩阵

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 Transformer学习 1 位置编码模块1.1 PE代码1.2 测试PE1.3 原文代码 2 多头自注意力模块2.1 多头自注意力代码2.2 测试多头注意力 3 未来序列掩码矩阵3.1 代码3.2 测试掩码 1 …

简约轻量-失信录系统源码

失信录系统-最新骗子收录查询系统源码 首页查询: 举报收录页: 后台管理页: 失信录系统 V1.0.0 更新内容: 1.用户查询,举报功能 2.界面独立开发 3.拥有后台管理功能 4.xss,sql安全过滤 5.平台用户查询 6.用户中心(待完…

Flume进阶学习!

本文图片来自于8.flume实时监控文件hdfs sink使用演示_哔哩哔哩_bilibili Apache Flume 的启动过程及其配置文件和脚本 在官网下载的Flume的压缩包中,.lib文件有大量的jar包,按道理说只有.lib文件就可以运行Flume程序了。只不过需要java -jar命令还要加…

第16章 网络编程

一 网络编程概述 Java是 Internet 上的语言,它从语言级上提供了对网络应用程序的支持,程序员能够很容易开发常见的网络应用程序。 Java提供的网络类库,可以实现无痛的网络连接,联网的底层细节被隐藏在 Java 的本机安装系统里&am…

C++:递增递减运算符(16)

递增递减就是自加1或者自减1 , 但是还有前置递增,后置递增,前置递减,后置递减,两者的区别也大有不同,接下来就去看一下过程 a1 b1baa2 b2a1 b1baa2 b1a2 b2b--aa1 b1a2 b2ba--a1 b2 递增 前置递增 #includ…