一、判别式模型和生成式模型
1)判别式模型Discriminative
①给某一个样本,判断属于某个类别的概率,擅长分类任务,计算量少。(学习策略函数Y =f(X)或者条件概率P(YIX))
②不能反映训练数据本身的特性
③学习成本低(需要的训练样本量少)
④无法转为生成式
2)生成式模型Generative
①学习联合概率密度分布概率P(X,Y,学习所有数据的分布
②能够反映训练数据本身的特性
,能掌握数据本身的边界信息
③学习成本高(需要的样本数更多)0
④一定条件下可以转换为判别式
- 示意图
二、生成式模型技术路径
2.1 AutoEncoder自编码器
- 组成
编码器和解码器(其实就是特征压缩和特征拟合) - 示意图
- 注意
①AE中的隐变量是不具有语义特性的
2.2 VAE变分自编码器(解决生成特定内容图像的问题)
- 原理
每一个特征对应一个正态分布的区间,比如微笑、皮肤、性别、胡须、毛发颜色等采样取差值
- 使用
那我们只需要修改某个特征分布就可以达到想要的效果 - 缺陷
联合高斯密度生成信息损失大,图片比较粗糙
2.3 Diffusion Model扩散模型
- 需求
保留更多图片信息 - 包括两个过程
①正向扩散过程:向输入数据中逐渐加入噪声的过程
②反向去噪过程:通过去噪方式学习数据生成过程 - 示意图
+ 预测的是什么?
预测的是前一步正向扩散加的噪声 - 步骤
①每一步迭代都是从数据集中取一个初始的图像样本作为Xo
②把Xo从0到1000之间采样一个时间步的Xt,就是步数,比如取500步,就是给图片加500步噪声
③训练利用X500得到X499这样一个去噪过程 - 公式
- 使用模型案例
DiT Block
2.4 Stabel Diffusion 模型结构
-
与DM的不同(引入条件信息:对象分类、文本、排版布局、图片参考)
-
特点
①引入VAE模型减少计算量(图像特征压缩到原始尺寸的1/4),推理的时间复杂度会降低很多
②通过统一方式注入条件类型到模型
③CLIP只支持英文 -
版本更新迭代(以前用的CLIP,普遍有文本内容理解问题,容易生成图文不对齐的情况)
-
特制模型(C站扩展举例)
- Indigo Furry mix
模型地址:https://civitai.com/models/34469?modelVersionId=109229
发布者:indigowing(个人主页:https://civitai.com/user/indigowing/models)
介绍:这是一系列的模型,主要专注于雄性兽/龙人(还有非全年龄向内容)。其模型有偏混合向的,偏动漫向的,还有偏现实向的。所以可根据你想画什么风格画风的画,来选择对应表现较好的模型 作者:琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处:bilibili
2. Crosskemono(furry_model&human_model)
模型地址:https://civitai.com/models/11888?modelVersionId=47368
注:此系列模型附带VAE,配合它来一起使用(VAE的作用可以理解为滤镜,在生成 AI 绘画时,会对输出的颜色和线条产生影响)
发布者:toynya(个人主页:https://civitai.com/user/toynya/models)
介绍:这个系列的模型主要是萌系日系那种风格的,可生成可爱的雄性或者雌性兽人,据演示图来看还可以生成兽娘(Furry程度表中的2级福瑞)。不过需要注意,这个模型也会生成非全年龄向的内容 作者:琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处:bilibili
- 定制路线
①阶段一:图文对其训练,得出基础模型
②阶段二:图文对其训练,得出社区微调模型 - 使用