Diffusion Models专栏文章汇总:入门与实战
前言:2022年年底Meta AI提出了Make-A-Video,一年过去了依旧是文生视频领域的SOTA工作,在主流数据集上依旧保持着最先进的指标。论文利用了预训练的Text-to-Image模型扩展到Text-to-Video任务,大大降低了视频生成的门槛;论文中提出的伪三维卷积层和伪三维注意力层也被后来的研究广泛借鉴。这篇博客详细解读Make-A-Video的论文和源代码,并给出一些博主的思考和见解。
目录
贡献概述
方法详解
整体结构