总览
1.基础sd base model家族:SD1.4、SD1.5、SD1.5-LCM、SD2.0、SD2.0-768、SD2.1、SD2.1-768、SD2.1-UNCLIP
2.升级sdxl base model家族:SDXL0.9、SDXL1.0、SDXL1.0-LCM、SDXL-DISTILLED、SDXL-TURBO
3.专门用于视频生成的 SVD 家族:SVD、SVD-XT
4.最新科研:playground-v2、PixArt-α
一、基础sd base model家族
1.SD1.4
没什么好说的,古老的SD模型,现在已经几乎不使用了
2.SD1.5
生态较好,使用此版本的模型还是比较多的
3.SD1.5-LCM
将 attention 换为 T 个 什么玩意来着 忘了 然后在这些小块里实现 self-attention
4.SD2.0
升级迭代,使用 512*512 像素的图片数据集来训练
5.SD2.0-768
使用 768*768 像素的图片数据集来训练,更精准清晰
6.SD2.1
升级迭代,使用 512*512 像素的图片数据集来训练
7.SD2.1-768
使用 768*768 像素的图片数据集来训练,更精准清晰
8.SD2.1-UNCLIP
借鉴了 OpenAI 的 DALL`2 模型
二、升级sdxl base model家族
1.SDXL0.9
1.0 的内测版本,仅供研究使用
2.SDXL1.0
· 正式发布的 SDXL1.0
· 模型参数更大,基础模型所使用的Unet包含了2.6B(2.6亿)的参数,相比SD1.5的860M(8600万)参数,相差超过三倍。
· 语义理解能力更强,使用了两个CLIP模型的组合,提高了对语言的理解能力。
· 训练数据库更大,通过改进训练方法,将图片尺寸也作为训练参数,大大扩展了训练的图片数量。
· 可以生成种类更加丰富、质量更高的图片,采用两阶段生图流程,第一阶段使用基础模型生成,第二阶段使用细化模型进一步提升画面细节表现。
· 生图分辨率更高,最佳分辨率达到了1024x1024,原生支持更多不同的分辨率。
· 可以在图片中直接生成文本,使得SDXL可以进行海报设计等需要在图片中添加文字的工作。
3.SDXL1.0-LCM
潜在一致性模型,说人话,用更少的步骤、更快的速度生成和 SDXL 一致的图片
4.SDXL-DISTILLED
一个特殊模型,专门为了速度而生,采用了特殊的蒸馏方式
5.SDXL-TURBO
使用蒸馏技术的究极nb版本,由对抗扩散蒸馏 (ADD) 的训练方法提供支持,出图贼快,效果几乎和 SDXL 一致(较比 SDXL 较弱,但几乎无影响)
三、专门用于视频生成的 SVD 家族
1.SVD
支持 14 fps 视频生成
用于 文字转视频、图片转视频,用了巨大的数据集(5.8亿个视频剪辑恐怖如斯)来支持训练
2.SVD-XT
支持 25 fps 视频生成
四、最新科研的 Playground-v2、PixArt-α、
1.Playground-v2
恐怖到能让用户评判分数高出 SDXL1.0 的 2.5倍的最新成果
实际上,好像和 SDXL 差不太多,但是确实 Playgroundv2 的艺术感更强
2.PixArt-α
华为研发的,训练成本极低的一个模型,质量和美感都还不错