基于transformer
以前UNET架构,基于卷积,现在把卷积换成transformer
Diffusion transformer
数据更少,文本数据就要更优质
训好了,通过增加额外模块,提高文本质量
如果给的文本时粗粒度的,那么生成的图片,额外信息,随即补全
按类别引导,而不是按文本引导?
衡量图像文本对的匹配程度
重参数技巧
Σ:
VAE
提高分辨率
压缩QKV
三个阶段,灾难遗忘
前面用简单的数据,后面用好一点的数据
高质量评估数据集
文本编码器的语义理解能力不足,导致编码得到的特征不完全
好的prompt,关键词堆砌起来
送到gpt里,问他怎么才是一只漂亮的猫
不是在语言层面去做,在特征层面去做
人工设计的prompt来约束gpt,不让他自由发挥
大预言模型,推理慢
蒸馏成一个adapter,大模型来弥补简单prompt和复杂prompt之间的差距
LLM编码出来的特征语义信息更丰富
让LLM编码出来的特征 和 简单 text encoder编码出来的特征尽可能近
LLM编码出来的特征和 简单 text encoder编码出来的特征 加权
蒸馏的方案不太好,可能蒸馏的太小了,流量就这么多
训练语料的质量不够高
文生图 prompt
8k,分辨率,训练语料里面
像个暗语,8k按时要求生成高分辨率图片
隐含语义(复杂prompt没表达出来的) 包含在 复杂prompt里
不是一段连贯的话
KL散度