万字长文破解 AI 图片生成算法-Stable diffusion (第一篇)

     想象一下:你闭上眼睛,脑海中构思一个场景,用简短的语言描述出来,然后“啪”的一声,一张栩栩如生的图片就出现在你眼前。这不再是科幻小说里才有的情节,而是Stable Diffusion——一种前沿的AI图片生成算法——所带来的现实。在本系列的万字长文中,我们将深入探索Stable Diffusion的神秘面纱,揭秘它是如何将文字描述转化为令人惊叹的视觉艺术。无论你是AI技术的爱好者、数字艺术的探索者,还是仅仅对这门新兴科学充满好奇,这都将是一次知识与想象的盛宴。那么,系好安全带,让我们一起启程,进入AI创造的奇妙世界。

Stable diffusion 效果如何

    先来感受一下 stable diffusion 能创造出什么样的神奇效果。

    8K 画质的变色龙图片,不敢相信这不是摄像机拍摄的而是 AI 生成的。

    自拍写真也充满了细节!远处的模糊处理和近处的细节凸显,像极了真人拍摄的图片。那是不是 AI 只能生成类似真人拍摄的图片呢?

    梦幻风格的图片也能拿捏!接下来是硬核技术部分,绑好安全带,发车!

Stable diffusion 整体介绍:

  • Stable Diffusion 是一个2022年发布的文本到图像潜在扩散模型,基于 Latent Diffusion Models(LDMs)实现,由 CompVis、Stability AI 和 LAION的研究人员创建。

  • Stability AI公司在2022年10月完成了1.01亿美元的融资,估值目前已经超过10亿美元。

原理:

  • Diffusion Models的核心原理源于物理中的扩散过程。在物理学中,扩散过程描述的是粒子从高浓度区域向低浓度区域的随机性运动,而 Diffusion Models 将数据生成过程建模为粒子扩散过程,也就是一系列微小的、连续的随机变化过程,具体表现就是从一些随机噪声逐步生成真实数据的过程,就像在随机扩散过程中,分子从高浓度区域向低浓度区域移动那样。

  • Diffusion Models可以生成高质量的图片,主要是得益于以下几点:

  • (1)生成过程是迭代的:在Diffusion Models中,数据的生成过程是一个多次不断迭代和优化的过程,会经历从粗糙到细致 --> 更细致 --> 非常细致 的过程,这就使得模型能够逐步生成出越来越精细的特征,因此可以生成很高质量逼真的图片。

  • (2)全概率模型:Diffusion Models是一种全概率模型,它会考虑数据的所有可能性。由于添加的噪声是随机的,这就使得数据在各个维度上都可能发生变化,换句话说,就是在全局范围内都有可能出现的数据,因此可以说从简单分布进行扩散的过程将会遍历所有可能的数据点。事实上,一直扩散下去(时间趋向无穷),理论上可以覆盖整个数据空间。这使得模型能够生成出各种各样的图片,包括那些在训练数据中很少出现但是仍然符合现实世界特征的图片。

  • (3)字符级细节:由于Diffusion Models的生成过程可以通过控制迭代的步数,生成过程可以捕获到非常小的细节,比如图像的纹理,形状和颜色等,因此可以生成出高质量的图片。

  • (4)最大似然训练:Diffusion Models通常采用最大似然训练,这确保了模型能够精确地拟合训练数据的分布,从而生成出高质量的图片。

主要流程:

  1. 文本编码器(Text Encoder): 将人类输入的文字串转换成机器可理解的数字信息,输出语义向量。

  2. 图片生成器(Image Generator): 核心模块,接受 latent + text + time 作为输入,生成图片。

  3. 图片解码器(Image Generator): 将生成的 latent image 解码为 RGB 图片;

应用:

  • 可用于文生成图、图生成图、特定角色刻画、超分或上色任务。

  • 可用于AI绘画,图像生成等领域,提高生成可控性,改变部分行业的生产模式。

模型发展路径:

    Diffusion model --> Latent diffusion model --> Stable diffusion model, 我们按照这个顺序来学习掌握 Stable Diffusion. 

    接下来我们会逐步学习 Stable diffusion, 欢迎点赞关注获取最新的技术教程!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/13065.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【电路笔记】-有源低通滤波器

有源低通滤波器 文章目录 有源低通滤波器1、概述2、有源低通滤波器2.1 一阶低通滤波器2.2 带放大功能的有源低通滤波器3、有源低通滤波器示例4、二阶低通有源滤波器通过将基本的 RC 低通滤波器电路与运算放大器相结合,我们可以创建一个具有放大功能的有源低通滤波器电路。 1、…

fastadmin对登录token的处理

fastadmin对token的操作 最近开发遇到一个场景,需要绕过验证获取登录,所以恶补了一下这个知识点,这个主要就是控制fastadmin的token的问题 代码分步实现 class Xcxuser extends Api {//关于鉴权protected $noNeedLogin [login,getopenid,…

1、sql server数据库进行sql注入

靶机取自:墨者sql server 1、判断数据库类型 抓包知sql server,所以注入语句跟MySQL有些区别 2、判断注入点 “http://219.153.49.228:42514/new_list.asp?id2 ”,当id2 and 11时显示正确,id2 and 12时页面报错。 3、确定列…

深度学习设计模式之抽象工厂模式

文章目录 前言一、介绍二、详细分析1.核心组成2.实现步骤3.代码示例4.优缺点优点缺点 5.使用场景 总结 前言 本文主要学习抽象工厂模式,抽象工厂模式创建的是对象家族,比如:苹果是一个产品,但是他不单单只生产手机,还…

回溯算法-组合问题-力扣第77题

什么是组合问题—— 举例: 有一个集合:{1,2,3,4} 现在要找出这个集合里面所有组合大小(组合长度,组合里面数据的个数)为2的组合 那么就有:总共6种组合 {1,2},{1,3},{1,4} {2,3}…

ubuntu在conda环境中使用 pip install -r requirements.txt但是没有安装在虚拟环境中

whereis pip pip listubuntu在conda环境中使用pip install lpips0.1.3 但是安装在了这里 Requirement already satisfied: lpips0.1.3 in /home/uriky/anaconda3/lib/python3.11/site-packages (0.1.3) 就会出现黄色波浪,未在虚拟环境中安装包 解决办法1&#xff1…

汇聚荣科技:如何有效为拼多多店铺引流?

在电商竞争激烈的今天,为拼多多店铺引流是每个店主必须面对的挑战。有效的引流策略不仅能增加店铺曝光度,还能提升转化率,促进销量增长。 一、社交媒体营销 利用微信、微博等社交平台进行推广,可以通过发布产品信息、用户评价和促…

GAME101-Lecture07学习

前言 今天主要讲shading(着色)。在讲着色前,要先讲图形中三角形出现遮挡问题的方法(深度缓存或缓冲)。 先采样再模糊错误:对信号的频谱进行翻译(在这期间会有频谱的混叠)&#xff…

Windows安装Django

1、下载Python程序包 Python程序包官网下载地址Download Python | Python.org,若下载最新版本,有最新版本则下载"Windows installer (64-bit)" 若是下载其他版本,可在下图位置找到相应的版本,然后点击Download.如下图所示: 打开后查看注意事项…

单位个人怎样向报社的报纸投稿?

作为一名单位的信息宣传员,我肩负着每月定期在媒体上投稿发表文章的重任。然而,在投稿的道路上,我经历了不少波折和挫折。 一开始,我天真地以为只要将稿件发送到报社的投稿邮箱,就能轻松完成任务。然而,现实却远比我想象的复杂。邮箱投稿的竞争异常激烈,编辑们会在众多稿件中挑…

XMind 头脑风暴/思维导图软件_V24.04.10291 PC高级版

一款风靡全球的头脑风暴和思维导图软件,为激发灵感和创意而生。在国内使用广泛,拥有强大的功能,包括思维管理,商务演示,与办公软件协同工作等功能。XMind中文版采用全球先进的Eclipse RCP软件架构,是集思维…

Qwen 开源标杆

Qwen的博客 在线体验Qwen开源版本、非常丝滑 不算量化、已经开源的Qwen1.5 版本有9个: 0.5B、1.8B、4B、7B、14B、32B、72B、110B、MoE-A2.7B 闭源已经发展到 Qwen-Max-0428、网页端从2.1升级到2.5 Qwen API详情 一些记录: 1、Qwen1.5 110B&#x…

我的dcd爬虫-Python

我自己写的dcd爬虫,这个网站比较简单。看了看别人的程序,觉得用起来挺别扭,就自己捣鼓了一天。弄出来了。 这个网站没有反爬,有一些是动态网页,有一些是静态。 首先,获取销量排行榜前300的车型。 import…

快速上手并行执行——《OceanBase 并行执行》 系列 7

并行执确实是一个涵盖多个层面的复杂主题,它需要投入一定的时间和精力来深入理解,才能充分掌握其功能。为了帮助初学者更快地掌握并行执行的技巧,我们提供了这份Quick Start,它适用于 OceanBase 3.1版本及以上的版本。虽然这里所…

浅谈内存泄漏

内存泄漏 概念 在JavaScript中,内存泄漏是指应用程序在不再需要使用某块内存时仍然保持对其的引用,导致内存不能被垃圾回收机制释放,最终导致内存占用过高,性能下降。 内存泄漏通常发生在以下情况: 全局变量&#…

macos安装mysql一直卡在安装成功那个页面选项的解决办法

问题描述: 我安装的是比较新的版本8.0.37,安装过程中一直卡在安装那个选项上,且页面提示安装成功了,但就是死活不往下面的配置选项那一步走。 解决办法: 1.首先清理掉之前的mysql sudo rm -rf /usr/local/mysql2.然…

win11快速安装mysql数据库系统

win11快速安装mysql数据库系统 1、下载 1.1 打开官网 1.2 向下滚动页面 1.3 进入下载选项 1.4 下载8.0.4 LTS 1.5 开始下载 1.6 下载中 2、解压 大家注意,此时解压后目录是没有data目录的。 3、数据库初始化 3.1 管理员身份打开CMD 开始菜单上,输入…

代码随想录算法训练营第三十一天|455.分发饼干,376. 摆动序列,53. 最大子序和

455.分发饼干 优先把小饼干分给胃口值小的&#xff0c;或者是把大饼干分给胃口大的。 376. 摆动序列 class Solution { public:int wiggleMaxLength(vector<int>& nums) {if (nums.size() < 1) return nums.size();int curDiff 0; // 当前一对差值int preDiff …

详解绝对路径和相对路径的区别

绝对路径和相对路径是用于描述文件或目录在文件系统中位置的两种不同方式。 绝对路径&#xff08;Absolute Path&#xff09;是从文件系统的根目录开始的完整路径&#xff0c;可以唯一地确定一个文件或目录的位置。在不同的操作系统中&#xff0c;根目录的表示方式可能略有不同…

SpringSecurity安全过滤器工作原理

前面通过三篇文章&#xff0c;从底层代码的角度分析了SpringSecurity的初始化过程。 接下来我们就要具体看一下&#xff0c;Spring Security的安全过滤器初始化、装配好之后&#xff0c;到底是怎么工作的。 还是按图索骥 下面我们简单从底层源码分析一下&#xff0c;请求是怎…