整体目标 文本生成图片;文本+图片生成图片 网络结构 CLIP的文本编码器和图片生成器组成图像生成器,输入是噪声经过UNet得到图像特征,最后解码得到图像 前向扩散 模型直接预测图片难度比较大,所有让模型预测噪音然后输入-噪音可得到原图 逆向扩散 预测模型UNet 改进后的UNet 代码讲解 参考链接