【AI绘画】Stable Diffusion使用入门教程!!!!

手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取)
首先提几个好玩的名词:

炼丹:训练AI学习图片生成模型

咒语:prompt提示词

一、prompt提示词

1、概况
包含内容:作品主题、画风、形象特点以及一些具体包含的要素

提示词的语法规则:

提示词需要英文书写
提示词以词组作为单位
2、prompt分类
(1)人物及主体特征

服饰穿搭:white dress

发型发色: blonde hair, long hair

五官特点:small eyes, big mouth

面部表情:smiling

肢体动作:stretching arms

(2)场景特征

室内、室外:indoor / outdoor

大场景:forest, city, street

小细节:tree, bush, white flower

(3)环境光照

白天黑夜:day / night

特定时段:morning, sunset

光环境:sunlight, bright, dark

天空:blue sky, starry sky

(4)补充:画幅视角

距离:close-up, distant

人物比例:full body, upper body

观察视角:from above, view of back

镜头类型:wide angle, Sony A7 III

(5)画质

通用高画质:

Best quality最高的质量

Ultra-detailed 超级细节

Masterpiece 杰作

Hires 高分辨率

8k 8k分辨率

特定高分辨率类型:

Extremely detailed CG unity 8k wallpaper 超精细的8K Unity游戏CG

Unreal engine rendered 虚幻引擎渲染

3、提示词的权重分配

(1)括号加数字

(white flower:1.5) 调节白花的权重为原来的1.5倍(增强)

(white flower:0.8) 调节白花的权重为原来的0.8倍(减弱)

(2)套括号

圆括号:(((white flower))) 每套一层,额外*1.1倍

大括号:{{{white flower}}} 每套一层,额外*1.05倍

方括号:[[[white flower]]] 每套一层,额外*0.9倍

4、反推提示词

在这里插入图片描述

可以识别图像已有的成分,再总结成AI的字典里有的东西,来帮助你更准确地向AI描述一些东西。

DeepBooru和CLIP是两种不同的图像识别算法,DeepBooru的速度和识别准确率都更具有优势。

5、提示词网站

在这里插入图片描述

二、WebUI参数说明

1、文生图参数
(1)采样迭代步数:去噪迭代次数,一般超过20次后面提升不大

(2)分辨率:分辨率太大,可能会出现多人多手多脚的情况,AI在训练的时候用的图片分辨率一般都比较小,如果分辨率太大就会被认为是多张图片拼接而成的。如果需要高分辨率的图片,先绘制512*512的图片,再通过”hires.fix”进行高清修复。

(3)”restore faces”面部修复,采用一些对抗算法识别人物面部并进行修复。

(4)”Tiling”平铺,用来生成那种可以无缝贴满整个屏幕的纹理性图片

(5)生成批次:为了追求一张完美的图片可能会用一套提示词生成多次,通过该功能可以一次生成多张图片,它提供了所有图片合在一起的预览图以及各张图片。
在这里插入图片描述

2、图生图参数
Denoising strength:重绘幅度,它跟原图有多像的权重

3、inPaint局部重绘及参数
它就像我们写作业时使用的涂改液、修正带一样,它可以针对一张大图里的某一个区域覆盖重画。既能修正错误,又不至于把整张纸撕掉重画一遍。

它利用图生图的方式对局部重绘了一下,然后又拼回到原图中。

蒙版(mask):泛指一些用以限定处理区域的范围对象。蒙住了某些关键区域的版子。

Inpaint Sketch:绘制。画上去的有颜色的线条会同时构成这个画面的一部分,并参与到图生图的过程里。
在这里插入图片描述

三、模型

1、模型类型
模型下载网站:hugging face / civitai

(1)大模型
Checkpoint 检查点或者关键点模型,叫ckpt大模型,一般2~7GB之间

Safetensor 通常1~2GB,也是大模型,是训练者们为了使模型变得更加可靠、高效而专门开发的

(2)Embeddings
文本嵌入,对应C站的Model types是”Textual Inversion”,即文本倒置

Embeddings文件都非常小,一般就几十KB

如果是checkpoint是一本大字典,那么Embeddings就像上面的一片小“书签”,它能够精准地指向个别字、词的含义,从而提供一个极其高效的索引。

Embeddings本身不包含信息,只是一个标记而已。

Embeddings可以为我们指向某一种特定的形象

文件后缀是pt,下载后放在models文件夹旁边的同名文件夹embeddings里面。

Embeddings不需要额外的调用,只需要在提示词里面用特定的prompt去召唤它

(3)LoRa:低秩模型
LoRa的作用在于向AI传递、描述某一个特征准确、主体清晰的形象。

可以让AI学习一些原本不存在于它的世界里的东西。

如果说embeddings是一张书签,那么Lora就是一张彩页,它直接就在纸上写明白了形象的特点,可以用什么样的方式去呈现出来。

Lora的位置是在models下面的Lora子文件夹。

训练大模型的最低要求是拥有12G以上的显存,但训练LoRA模型可能只需要8G甚至更低。常规的大模型至少会占用2个G以上的存储空间,但最大的LoRA模型也不会超过200M。

它需要和checkpoint搭配使用,从而实现对这个checkpoint在某些方面的“微调”。

(4)Hypernetwork 超网络
它能实现的效果和Lora差不多的。

可以让AI学习一些原本不存在于它的世界里的东西。

Hypernetwork一般用于改善生成图像的整体风格。不太需要使用,后面直接用LORA即可

2、模型分类及top模型名称

(1)二次元模型
Anything V5:用于动漫、插画、角色立绘等的画面风格

Counterfeit:插画风模型,细节还原度高

Dreamlike Diffusion:漫画插画风模型,打造梦幻般、具有幻想色彩的画面和作品

(2)真实系模型
Deliberate:超级升级版的SD官方模型,非常精细、全面的写实风格

Realistic Vision:朴素且有整活空间,用来做人像、食物、动物图片,做些具有真实感的假新闻照片

LOFI:精致的照片级人像专精模型,对人物面部处理比前两个更加精致

(3)2.5D风格模型
NeverEnding Dream:非常适合“三次元化”的2.5D模型,结合Lora进行动漫游戏角色的二次创作

Photorealism:优秀的照片效果和创意发挥空间

Guofeng3:实现“文化输出”的国风精致模型

四、分辨率放大的工具

1、高清修复Hires.fix
Upscale by:放大倍率,指将这个图片由原始分辨率放大到多少

Hires steps:高清修复采样次数,高清修复需要经过一次重绘,因此需要设置采样步数。保持默认的0数值,它会和我们设置的采样迭代次数(20)保持一致。

Denoising strength:重绘幅度,等同于图生图中的重绘幅度。

生成过程:SD会先绘制一份低分辨率的图像,再根据它画第二幅高分辨率的图像。它的本质就是把这个低分辨率成品“图生图”一次,打回潜空间内重新去噪,从而得到一张更大的图片。

高清修复本质:打回重画,再来一副!适合文生图。

优势:
不会改变画面构图(经由随机种子固定);

稳定克服多人、多头等由分辨率产生的问题;

操作简单、清晰、直观。

缺陷:
仍然受到最大显存的限制;

计算速度相对较慢,画一次等于常规情况下画两到三次

偶尔“加戏”,出现莫名的额外元素

2、SD UpScale
图生图中把图片分辨率放大的好帮手。

脚本:
在这里插入图片描述

选择SD upscale
在这里插入图片描述

它的绘制过程:和高清修复的“打回重画”截然不同,它是通过把这张图均匀地切成4块去画的,逐一画4块然后再拼在一起。

如果只是机械地切成4块,那么相邻图块之间地接缝处肯定会出现非常生硬地过渡边缘,于是,通过tile overlap像素重叠就会起到一个“缓冲带”的作用。
在这里插入图片描述

优势:

可以突破内存限制获得更大的分辨率

画面精细度高,对细节的丰富效果出色

缺陷:

分割重绘的过程较为不可控(语义误导和分界线割裂)

操作繁琐且相对不直观

偶尔“加戏”,出现莫名的额外元素

五、AI绘画入门级扩展插件

在这里插入图片描述

所有和扩展有关的功能都被集中收纳在这个”Extensions”标签里进行管理。

插件被统一安装在根目录下“Extension”的文件夹里,每一个扩展是一个单独的文件夹。

1、中文本地化语言包

在这里插入图片描述

GitHub - hanamizuki-ai/stable-diffusion-webui-localization-zh_Hans: SD-WebUI 简体中文翻译扩展

2、图库浏览器

在这里插入图片描述

GitHub - yfszzx/stable-diffusion-webui-images-browser: an images browse for stable-diffusion-webui

3、提示词自动补全

在这里插入图片描述

https://github.com/DominikDoom/a1111-sd-webui-tagcomplete

它是基于本地的一个Booru词库实现的。

这个插件还能进行中文输入,然后切换成英文进行输入。
在这里插入图片描述

4、提示词反推

在这里插入图片描述

https://github.com/toriato/stable-diffusion-webui-wd14-tagger.git

比CLIP和DeepBooru更高效的反推工具。

5、Upscale放大扩展

在这里插入图片描述

https://github.com/Coyote-A/ultimate-upscale-for-automatic1111.git

安装完成后没有独立tab,而是出现在脚本中。

6、局部细化重绘

在这里插入图片描述

https://github.com/hnmr293/sd-webui-llul

与第5个工具相比,它不会让一整张图片变得特别大,而是把一些局限于尺寸没法变得更精致的部分给“放大”一下。

它在于不改变原有的结构,就可以为画面带来更加丰富的细节。

7、提示词语义分割

https://github.com/hnmr293/sd-webui-cutoff.git
在这里插入图片描述

解决提示词之间的相互干预。

扩展的原理如下:
在这里插入图片描述

它会将里面的每一个提示词的“描述性”成分抽取出来单独处理,再结合回原画里面。

8、无限放大动画视频

在这里插入图片描述

https://github.com/v8hid/infinite-zoom-automatic1111-webui.git
在这里插入图片描述

我们可以去想象它的场景在不断往外延伸,最终生成动画视频。

六、ControlNet插件

1、概括说明
在此之前,基于扩散模型的“AI绘画”是非常难以控制的,去扩散这张图片的过程充满了随机性。

在原理上,ControlNet和LoRA是有许多相似之处,定位都是对大扩散模型做微调的额外网络。它的核心作用是根据一些额外信息控制扩散走向。

比如“姿势”,如果只是通过提示词输入一个“跳舞”,那么画面中的角色、人物可能会有无数种舞蹈姿势,ControlNet的精髓在于可以给他输入一张记录了某种特定“姿势”信息的图片来指导它作图。ControlNet能够读懂下面信息。
在这里插入图片描述

2、安装
插件下载地址:GitHub - Mikubill/sd-webui-controlnet: WebUI extension for ControlNet

下载后同样放在extensions目录下即可,重启生效后就可以在文生图或图上图的下方看到该插件。
在这里插入图片描述

此时还没法使用ControlNet,因为需要下载相应的控制模型才能工作,对应模型的下载地址为:

lllyasviel/ControlNet-v1-1 · Hugging Face

下载完一个模型之后,需要把它放在ControlNet文件夹内的models文件夹里,注意:同名的pth模型文件和yaml配置需要一起放置。

ControlNet插件的Annotator功能能够从图片中提取对ControlNet有用的额外信息。
在这里插入图片描述

Control Weight:决定这个控制效应在图片中呈现出来的强度。后面两个选项,会影响在图像不断扩散的过程中什么时候加入ControlNet的影响。默认的0到1代表从头到尾全程生效。

3、比较流形的5个ControlNet模型
在这里插入图片描述

(1)Openpose模型
直接掌握了人物体态呈现的“命脉”。

下图为openpose-hand
在这里插入图片描述

下面为openpose-face
在这里插入图片描述

(2)Depth模型
它的重点是对场景的描绘还原,尤其是富有空间感的多层次场景
在这里插入图片描述

(3)Canny模型
来自于图像处理领域的一种边缘检测算法。
在这里插入图片描述

(4)HED模型
整体边缘线条检测。
在这里插入图片描述

输入的线条相对Canny更加模糊,两者对比如下:
在这里插入图片描述

Canny更关注人物内部的细节,HED这一类处理只会把大的轮廓保留下来,内部其实是有更大的发挥空间的。

(5)Scribble模型
涂鸦。
在这里插入图片描述

得到:
在这里插入图片描述

3、MultiControlNet
多重ControlNet

AI绘画所有方向的学习路线思维导图

这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了:
在这里插入图片描述

👉stable diffusion新手 0基础入门PDF👈

在这里插入图片描述

👉AI绘画必备工具👈

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
在这里插入图片描述

👉AI绘画基础+速成+进阶使用教程👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

👉12000+AI关键词大合集👈

在这里插入图片描述

这份完整版的AI绘画资料我已经打包好,戳下方蓝色字体,即可免费领取!

CSDN大礼包:《全套AI绘画基础学习资源包》免费分享

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/646239.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CES 2024的亮点仅仅聚焦AI深度赋能和产业创新吗?| DALL-E 3、Stable Diffusion等20+ 图像生成模型综述

随着科技飞速发展,CES(国际消费电子展)已然成为全球科技产业的风向标,每年的CES大会都是业界瞩目的盛事。回顾2024年CES大会,不难发现其亮点纷呈,其中以人工智能的深度赋能为最引人注目之处。AI技术的深入应…

如何在Linux环境下安装Redis呢?

第一步:创建存放redis存放的文件夹 mkdir /usr/local/redis使用cd切换到上述创建的目录 第二步:从官网下载redis压缩包 wget https://download.redis.io/releases/redis-6.0.5.tar.gz下图为下载成功示例 第三步:解压下载的压缩包 tar -zv…

TA百人计划学习笔记 3.1.2深度测试

资料 源视频 【技术美术百人计划】图形 3.1 深度与模板测试 传送门效果示例_哔哩哔哩_bilibili ppt 3100-模板测试与深度测试(1) 参考 Unity Shader: 理解Stencil buffer并将它用于一些实战案例(描边,多边形填充,反射区域限定,阴影…

文字转语音在线合成掩码系统 让你的文字自动转为语音 带完整的安装部署教程

互联网的快速发展,人们对文字转语音(TTS)的需求日益增长。无论是需要为视障人士提供语音阅读的内容,还是想要为视频内容添加语音旁白,都需要一个高效、准确的文字转语音系统。然而,市面上的许多TTS工具都存…

是用原生js创建红包雨效果

需求: 创建红包雨 答案: // 红包雨代码 开始 // 添加遮罩层 const addOverlay () > {const overlay document.createElement(div);overlay.className overlay;overlay.style.position fixed;overlay.style.top 0;overlay.style.left 0;overlay.style.width 100%;o…

Unity_使用Image和脚本生成虚线段

生成如图样式的虚线段 原理:使用Image做一条线段,这个方法的原理就是给固定的片元长度,对Image进行分割,把片元添加到一个列表中,然后循环对列表中的偶数位进行隐藏,也可以调整线段的宽度 缺陷&#xff1…

无公网IP实现远程访问MongoDB文件数据库【内网穿透】

最近,我发现了一个超级强大的人工智能学习网站。它以通俗易懂的方式呈现复杂的概念,而且内容风趣幽默。我觉得它对大家可能会有所帮助,所以我在此分享。点击这里跳转到网站。 文章目录 前言1. 安装数据库2. 内网穿透2.1 安装cpolar内网穿透2…

支持向量机(SVM)详解

支持向量机(support vector machines,SVM)是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。 1、线性可分支持向量机与硬间隔最大化 1.1、线性可分支持向量机 考虑一个二分…

Disruptor挖坑MemoryAnalyzer来填

Disruptor挖坑MemoryAnalyzer来填 1、起因背景2、初步定位3、细化定位3.1、内存文件导出命令3.2、MemoryAnalyzer分析xxx.hprof文件 4、思考5、花絮 1、起因背景 博主练手写的并发项目订单服务出现了程序一直处于加载未完成的状态,电脑温度升高,CPU使用…

springboot125汽车资讯网站

简介 【毕设源码推荐 javaweb 项目】基于springbootvue 的125汽车资讯网站 适用于计算机类毕业设计,课程设计参考与学习用途。仅供学习参考, 不得用于商业或者非法用途,否则,一切后果请用户自负。 看运行截图看 第五章 第四章 获…

springboot家乡特色推荐系统源码和论文

在Internet高速发展的今天,我们生活的各个领域都涉及到计算机的应用,其中包括家乡特色推荐的网络应用,在外国家乡特色推荐系统已经是很普遍的方式,不过国内的管理网站可能还处于起步阶段。家乡特色推荐系统采用java技术&#xff0…

UDS Flash刷写用例简单介绍

文章目录 1.Boot的功能1.1 目的1.2 功能 2.测试用例设计2.1 设计框架2.2 正向测试2.1.1 刷写流程2.1.2 重复刷写2.1.3压力刷写 2.3 逆向测试2.2.1 断电后刷写2.2.2 中断通讯后刷写2.2.3 篡改刷写数据2.2.4 修改软件校验数据2.2.5 修改刷写流程2.2.6 高负载刷写2.2.7 高低压刷写…

JuiceSSH结合内网穿透实现移动端设备公网远程访问Linux虚拟机

文章目录 1. Linux安装cpolar2. 创建公网SSH连接地址3. JuiceSSH公网远程连接4. 固定连接SSH公网地址5. SSH固定地址连接测试 处于内网的虚拟机如何被外网访问呢?如何手机就能访问虚拟机呢? cpolarJuiceSSH 实现手机端远程连接Linux虚拟机(内网穿透,手机端连接Linux虚拟机) …

Linux下安装 Redis7

Linux下安装 Redis7 三、Linux下安装 Redis7【redis-7.2.4.tar.gz】3.1.下载redis的安装包3.1.1.手动下载Redis压缩包并上传【redis-7.2.4.tar.gz】3.1.2.wget工具下载redis-7.2.4.tar.gz 3.2.将安装包进行解压缩3.3.进入redis的安装包3.4.检查是否有gcc 环境3.5.编译和安装并指…

VS Code C++ 开发:入门和 IntelliSense 配置

你是否在满天星空下琢磨如何在 VS Code 中配置用于 C 开发的智能感知功能(IntelliSense)? 你是否想知道,有没有一种最简单的方法来运行你的 C 代码? 好消息是:我们在 C 扩展中添加了一些新功能,有了这些好东西&#xf…

Redis——关于它为什么快?使用场景?以及使用方式?为何引入多线程?

目录 1.既然redis那么快,为什么不用它做主数据库,只用它做缓存? 2.Redis 一般在什么场合下使用? 3.redis为什么这么快? 4.Redis为什么要引入了多线程? 1.既然redis那么快,为什么不用它做主数据…

解决Sublime Text V3.2.2中文乱码问题

目录 中文乱码出现情形通过安装插件来解决乱码问题 中文乱码出现情形 打开一个中文txt文件,显示乱码,在File->Reopen With Encoding里面找不到支持简体中文正常显示的编码选项。 通过安装插件来解决乱码问题 安装Package Control插件 打开Tool->…

Windows本地如何部署Jupyter+Notebook并结合内网穿透实现远程访问?

文章目录 1.前言2.Jupyter Notebook的安装2.1 Jupyter Notebook下载安装2.2 Jupyter Notebook的配置2.3 Cpolar下载安装 3.Cpolar端口设置3.1 Cpolar云端设置3.2.Cpolar本地设置 4.公网访问测试5.结语 1.前言 在数据分析工作中,使用最多的无疑就是各种函数、图表、…

2024全网超全的测试类型详解,再也不怕面试答不出来了!

在软件测试工作过程中或者在面试过程中经常会被问到一些看起来简单但是总是有些回答不上的问题,比如你说说“黑盒测试和白盒测试的区别?”,“你们公司做灰度测试么?", ”α测试和β测试有什么不一样?“&#xff0…

MVC模式

Model-View-Controller : 模型-视图-控制器模式,用于应用程序的分层开发。 Model(模型):代表一个存取数据的对象。也可以带有逻辑,在数据变化时更新控制器。 View(视图):代表模型包含的数据的可视化。 Controller(控制器)&#xf…