Diffusion models需要多步迭代采样才能生成一张图片,这导致生成速度很慢。Consistency models的提出是为了加速生成过程。
Consistency models可以直接一步采样就生成图片,但是也允许进行多步采样来提高生成的质量。
Consistency models可以从预训练的扩散模型蒸馏得到,也可以作为独立的生成模型从头训练得到。
感觉Consistency models和EDM1有共同之处,都想直接恢复出 x 0 \mathbf x_0 x0。
给定一个PF ODE(Probability Flow Ordinary Differential Equation) { x t } t ∈ [ ϵ , T ] \{\mathbf x_t\}_{t\in[\epsilon, T]} {xt}t∈[ϵ,T],一致性函数(consistency function)被定义为 f : ( x t , t ) → x ϵ f:(\mathbf x_t, t) \rightarrow \mathbf x_\epsilon f:(xt,t)→xϵ,其中 ϵ \epsilon ϵ是一个接近0的小正数,是ODE求解器停止的位置。一致性函数具有self-consistency性,即对于PF ODE轨迹上的任意点输出都是一样的。一致性模型 f θ f_\theta fθ的是从数据中估计的一致性函数。
给一个训练好的一致性模型 f θ ( ⋅ , ⋅ ) f_\theta(\cdot, \cdot) fθ(⋅,⋅),可以通过一致性模型一步生成了结果:首先从初始分布中采样 x ^ T ∼ N ( 0 , T 2 I ) \mathbf{\hat x_T} \sim \mathcal N(\mathbf 0, T^2 \mathbf I) x^T∼N(0,T2I),然后用一致性模型计算 x ^ ϵ = f θ ( x ^ T , T ) \mathbf{\hat x_\epsilon} = f_\theta(\mathbf{\hat x_T}, T) x^ϵ=fθ(x^T,T)。也可以调用一致性模型多次生成更准确的结果,如算法1所示,迭代的去噪和添加噪声。
《Elucidating the design space of diffusion-based generative models》 ↩︎