该论文解决的问题
1 简要描述
2 在之前的工作中存在下述问题
计算过程需要计算:
1 unconditional的unet
2 conditional(w text)的unet
下图展示了计算过程
对应的代码
pipelines->
stable_diffusion->
pipline_stable_diffusion.py->
StableDiffusionPipeling->
7. Denoising loop
输入合并 torch.cat([latents*2])
下面是自己试验
输出拆分 noise_pred_uncond和noise_pred_text