【StableDiffusion】SD1.4、1.5、2.0、2.1 和 SDXL0.9-1.0、SDXL turbo 等的区别

总览

1.基础sd base model家族：SD1.4、SD1.5、SD1.5-LCM、SD2.0、SD2.0-768、SD2.1、SD2.1-768、SD2.1-UNCLIP
2.升级sdxl base model家族：SDXL0.9、SDXL1.0、SDXL1.0-LCM、SDXL-DISTILLED、SDXL-TURBO
3.专门用于视频生成的 SVD 家族：SVD、SVD-XT
4.最新科研：playground-v2、PixArt-α

在这里插入图片描述

一、基础sd base model家族

1.SD1.4

没什么好说的，古老的SD模型，现在已经几乎不使用了

2.SD1.5

生态较好，使用此版本的模型还是比较多的

3.SD1.5-LCM

将 attention 换为 T 个什么玩意来着忘了然后在这些小块里实现 self-attention

4.SD2.0

升级迭代，使用 512*512 像素的图片数据集来训练

5.SD2.0-768

使用 768*768 像素的图片数据集来训练，更精准清晰

6.SD2.1

升级迭代，使用 512*512 像素的图片数据集来训练

7.SD2.1-768

使用 768*768 像素的图片数据集来训练，更精准清晰

8.SD2.1-UNCLIP

借鉴了 OpenAI 的 DALL`2 模型

二、升级sdxl base model家族

1.SDXL0.9

1.0 的内测版本，仅供研究使用

2.SDXL1.0

· 正式发布的 SDXL1.0
· 模型参数更大，基础模型所使用的Unet包含了2.6B（2.6亿）的参数，相比SD1.5的860M（8600万）参数，相差超过三倍。
· 语义理解能力更强，使用了两个CLIP模型的组合，提高了对语言的理解能力。
· 训练数据库更大，通过改进训练方法，将图片尺寸也作为训练参数，大大扩展了训练的图片数量。
· 可以生成种类更加丰富、质量更高的图片，采用两阶段生图流程，第一阶段使用基础模型生成，第二阶段使用细化模型进一步提升画面细节表现。
· 生图分辨率更高，最佳分辨率达到了1024x1024，原生支持更多不同的分辨率。
· 可以在图片中直接生成文本，使得SDXL可以进行海报设计等需要在图片中添加文字的工作。