前言
StabilityAI在春节期间发布了新的一代文生图模型Stable Cascade,Stable Cascade是基于Wuerstchen架构包含三阶段的文生图扩散模型,为质量、灵活性、微调和效率设定了新的标准,着重于进一步消除硬件障碍。相比Stable Diffusion XL,它不仅更快而且效果更好。
-
Huggingface模型下载:https://huggingface.co/stabilityai/stable-cascade
-
AI快站模型免费加速下载:https://aifasthub.com/models/stabilityai/stable-cascade
技术细节
Stable Cascade与我们的Stable Diffusion系列模型不同,它基于包含三个不同模型的管道:阶段A、B和C。这种架构允许对图像进行分层压缩,利用高度压缩的潜在空间实现卓越的输出。让我们看看每个阶段是如何协同工作的:
潜在生成器阶段,阶段C,将用户输入转化为紧凑的24x24潜在表示,然后传递给潜在解码器阶段(阶段A&B),用于压缩图像,类似于Stable Diffusion中VAE的工作,但实现了更高的压缩比。
通过将文本条件生成(阶段C)与解码到高分辨率像素空间的过程(阶段A&B)分离,我们可以单独对阶段C进行额外的训练或微调,包括ControlNets和LoRAs,这比训练一个类似大小的Stable Diffusion模型成本降低了16倍。阶段A和B可以选择性地进行微调以获得额外的控制,但这将类似于微调Stable Diffusion模型中的VAE。对于大多数用途,仅训练阶段C并使用原始状态的阶段A和B就足够了。
阶段C和B将发布两种不同的模型:阶段C的1B和3.6B参数模型,阶段B的700M和1.5B参数模型。推荐使用3.6B参数的阶段C模型,因为该模型具有最高质量的输出。然而,对于那些希望专注于最低硬件要求的用户,可以使用1B参数版本。对于阶段B,两者都能获得出色的结果,然而,15亿参数的版本在重建细节方面更为出色。得益于Stable Cascade的模块化方法,推理所需的VRAM预计可以控制在大约20GB,但通过使用较小的变体(如前所述,这可能也会降低最终输出质量),可以进一步降低。
比较
在我们的评估中,我们发现Stable Cascade在几乎所有模型比较中,无论是提示对齐还是美学质量方面,都表现最佳。下图展示了使用一系列parti提示和美学提示进行人类评估的结果:
上图比较了Stable Cascade(30个推理步骤)与Playground v2(50个推理步骤)、SDXL(50个推理步骤)、SDXL Turbo(1个推理步骤)和Würstchen v2(30个推理步骤)。
上图展示了Stable Cascade、SDXL、Playground v2和SDXL Turbo之间的推理速度差异。
Stable Cascade专注于效率,通过其架构和更高压缩的潜在空间得以体现。尽管最大模型比Stable Diffusion XL多出14亿参数,但如它的推理时间仍然更快。
附加功能
除了标准的文图生成外,Stable Cascade还可以生成图像变体和图像到图像生成。
图像变体通过使用CLIP从给定图像中提取图像嵌入,然后将其返回给模型来工作。下面你可以看到一些示例输出。左侧图像为原图,其右侧的四张为生成的变体。
图像到图像工作通过简单地向给定图像添加噪声,然后以此为起点进行生成。这里有一个示例,对左侧图像进行噪声处理,然后从那里开始生成。
Stability AI还发布了用于训练、微调、ControlNet和LoRA的所有代码,以降低进一步试验这一架构的要求。以下是我们将与模型一起发布的一些ControlNets:
修复/外扩:输入一张图像并配对一个遮罩和文本提示。模型将按照提供的文本提示填充图像的遮罩部分。
Canny Edge:按照给定图像输入到模型的边缘生成新图像。根据Stability AI 的测试,它还可以扩展草图。
2倍超分辨率:将图像放大到其边的2倍(例如,将1024x1024图像转换为2048x2048输出),也可以用于由阶段C生成的潜在表示。
模型下载
Huggingface模型下载
https://huggingface.co/stabilityai/stable-cascade
AI快站模型免费加速下载
https://aifasthub.com/models/stabilityai/stable-cascade