Stable Cascade发布:比SDXL更快、更强的图像生成模型

前言

StabilityAI在春节期间发布了新的一代文生图模型Stable Cascade,Stable Cascade是基于Wuerstchen架构包含三阶段的文生图扩散模型,为质量、灵活性、微调和效率设定了新的标准,着重于进一步消除硬件障碍。相比Stable Diffusion XL,它不仅更快而且效果更好。

  • Huggingface模型下载:https://huggingface.co/stabilityai/stable-cascade

  • AI快站模型免费加速下载:https://aifasthub.com/models/stabilityai/stable-cascade

技术细节

Stable Cascade与我们的Stable Diffusion系列模型不同,它基于包含三个不同模型的管道:阶段A、B和C。这种架构允许对图像进行分层压缩,利用高度压缩的潜在空间实现卓越的输出。让我们看看每个阶段是如何协同工作的:

潜在生成器阶段,阶段C,将用户输入转化为紧凑的24x24潜在表示,然后传递给潜在解码器阶段(阶段A&B),用于压缩图像,类似于Stable Diffusion中VAE的工作,但实现了更高的压缩比。

通过将文本条件生成(阶段C)与解码到高分辨率像素空间的过程(阶段A&B)分离,我们可以单独对阶段C进行额外的训练或微调,包括ControlNets和LoRAs,这比训练一个类似大小的Stable Diffusion模型成本降低了16倍。阶段A和B可以选择性地进行微调以获得额外的控制,但这将类似于微调Stable Diffusion模型中的VAE。对于大多数用途,仅训练阶段C并使用原始状态的阶段A和B就足够了。

阶段C和B将发布两种不同的模型:阶段C的1B和3.6B参数模型,阶段B的700M和1.5B参数模型。推荐使用3.6B参数的阶段C模型,因为该模型具有最高质量的输出。然而,对于那些希望专注于最低硬件要求的用户,可以使用1B参数版本。对于阶段B,两者都能获得出色的结果,然而,15亿参数的版本在重建细节方面更为出色。得益于Stable Cascade的模块化方法,推理所需的VRAM预计可以控制在大约20GB,但通过使用较小的变体(如前所述,这可能也会降低最终输出质量),可以进一步降低。

比较

在我们的评估中,我们发现Stable Cascade在几乎所有模型比较中,无论是提示对齐还是美学质量方面,都表现最佳。下图展示了使用一系列parti提示和美学提示进行人类评估的结果:

上图比较了Stable Cascade(30个推理步骤)与Playground v2(50个推理步骤)、SDXL(50个推理步骤)、SDXL Turbo(1个推理步骤)和Würstchen v2(30个推理步骤)。

上图展示了Stable Cascade、SDXL、Playground v2和SDXL Turbo之间的推理速度差异。

Stable Cascade专注于效率,通过其架构和更高压缩的潜在空间得以体现。尽管最大模型比Stable Diffusion XL多出14亿参数,但如它的推理时间仍然更快。

附加功能

除了标准的文图生成外,Stable Cascade还可以生成图像变体和图像到图像生成。

图像变体通过使用CLIP从给定图像中提取图像嵌入,然后将其返回给模型来工作。下面你可以看到一些示例输出。左侧图像为原图,其右侧的四张为生成的变体。

图像到图像工作通过简单地向给定图像添加噪声,然后以此为起点进行生成。这里有一个示例,对左侧图像进行噪声处理,然后从那里开始生成。

Stability AI还发布了用于训练、微调、ControlNet和LoRA的所有代码,以降低进一步试验这一架构的要求。以下是我们将与模型一起发布的一些ControlNets:

修复/外扩:输入一张图像并配对一个遮罩和文本提示。模型将按照提供的文本提示填充图像的遮罩部分。

Canny Edge:按照给定图像输入到模型的边缘生成新图像。根据Stability AI 的测试,它还可以扩展草图。

2倍超分辨率:将图像放大到其边的2倍(例如,将1024x1024图像转换为2048x2048输出),也可以用于由阶段C生成的潜在表示。

模型下载

Huggingface模型下载

https://huggingface.co/stabilityai/stable-cascade

AI快站模型免费加速下载

https://aifasthub.com/models/stabilityai/stable-cascade

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/708367.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《Decoupling Representation and Classifier for Long-Tailed Recognition》阅读笔记

论文标题 《Decoupling Representation and Classifier for Long-Tailed Recognition》 用于长尾识别的解耦表示和分类器 作者 Bingyi Kang、Saining Xie、Marcus Rohrbach、Zhicheng Yan、 Albert Gordo、Jiashi Feng 和 Yannis Kalantidis 来自 Facebook AI 和 新加坡国…

Linux笔记--文件权限

一、相关概念 Linux最优秀的地方之一就在于多人多任务环境。为了让各个使用者有较为保密的文件数据,文件的权限管理尤为重要。 ●文件的可存取身份: owner:文件拥有者 group:文件所属用户组 others:其他人 ●文件权限: r: read,读 文件:是否能查看文件内…

Carla自动驾驶仿真八:两种查找CARLA地图坐标点的方法

文章目录 前言一、通过Spectator获取坐标二、通过道路ID获取坐标总结 前言 CARLA没有直接的方法给使用者查找地图坐标点来生成车辆,这里推荐两种实用的方法在特定的地方生成车辆。 一、通过Spectator获取坐标 1、Spectator(观察者)&#xf…

2W字-35页PDF谈谈自己对QT某些知识点的理解

2W字-35页PDF谈谈自己对QT某些知识点的理解 前言与总结总体知识点的概况一些笔记的概况笔记阅读清单 前言与总结 最近,也在对自己以前做的项目做一个知识点的梳理,发现可能自己以前更多的是用某个控件,以及看官方手册,但是没有更…

深入探究【观察者模式】:简单音乐会售票系统案例分析

文章目录 1.观察者模式概述基本概念:工作原理: 2.案例-音乐会抢票2.1.具体实现2.1.1.被观察者接口2.1.2.被观察者实现类2.1.3.定义观察者接口2.1.3.定义观察者实现类2.1.4.测试观察者 3.总结3.1.优点和局限性3.2.思考 1.观察者模式概述 观察者模式是一种…

如何远程访问内网数据库?

远程访问内网数据库是在安全可靠的前提下,能够实现从外部网络访问内网数据库的一种技术。在现代信息化的背景下,随着企业发展和分布式办公的普及,远程访问内网数据库成为了一项必需的技术。通过远程访问内网数据库,企业可以在不同…

2.3~2.7碎片

P是位置,v是速度

弹窗内容由后端返回,如何让点击按钮的事件交由前端控制?

一、场景 背景:因为系统里经常有新活动或者公告需要通知所有用户,希望前端维护的这个弹窗里的内容可以由后端接口返回。这样就不需要每次上新活动的时候,前端项目都发版了。因此,前端维护了这个弹窗和它的关闭事件,至…

qt5.15 升级 qt 6.5 部分问题 解决修复

报错 QT5_USE_MODULES 升级 QT6_ADD_RESOURCES qt_add_resources Compiles binary resources into source code. CMake Commands in Qt6 Core | Qt Core 6.6.2

用Flutter开发App:助力您的移动业务腾飞

一、Flutter简介 Flutter是Google推出的用于构建多平台应用程序的开源UI框架。它使用Dart语言编写,可以编译为原生机器代码,从而提供卓越的性能和流畅的用户体验。 二、Flutter的优势 一套代码,多平台部署:Flutter可以使用一套代…

《互联网的世界》第二讲-最短路径优先

昨天讲 dns 时讲过,“你问一个当地人最近的厕所在哪,路人给你一个地址…”,可是只有地址还不够,如何到达那里呢?这是本节的内容。 自然的方式是,一边走一边问,根据路人的指示继续一边走一边问…

德人合科技 | 天锐绿盾终端安全管理系统

德人合科技提到的“天锐绿盾终端安全管理系统”是一款专业的信息安全防泄密软件。这款软件基于核心驱动层,为企业提供信息化防泄密一体化方案。 www.drhchina.com 其主要特点包括: 数据防泄密管理:天锐绿盾终端安全管理系统能够确保数据在创…

CUMT---图像处理与视觉感知---期末复习重点

文章目录 一、概述 本篇文章会随课程的进行持续更新中! 一、概述 1. 图像的概念及分类。  图像是用各种观测系统以不同形式和手段观测客观世界而获得的、可以直接或间接作用于人的视觉系统而产生的视知觉实体。  图像分为模拟图像和数字图像:(1) 模拟图…

51单片机(6)-----直流电机的介绍与使用(通过独立按键控制电机的运行)

前言:感谢您的关注哦,我会持续更新编程相关知识,愿您在这里有所收获。如果有任何问题,欢迎沟通交流!期待与您在学习编程的道路上共同进步。 目录 一. 直流电机模块介绍 1.直流电机介绍 2.电机参数 二. 程序设计…

JAVA泛型浅析

Java范型generics,是JDK1.5引入的新特性,是一种编译时类型安全检测机制,可以在编译时检测到非法的类型。范型的本质是将类型参数化,将类型指定成一个参数。java中的集合就有使用,并且对外提供的三方库和SDK中使用也极为…

返回数据(返回视图所需要的数据)

在上篇文章中,小编带领大家了解到:返回静态数据-CSDN博客,但是,仅仅返回一个静态页面,对于静态页面的数据没正常返回! 所以,本篇文章便讲述如何返回数据?? 还是先不管前…

从win11切换到ubuntu20的第1天

我不想做双系统,反正win11也没有意思,打游戏直接去网吧,所以电脑直接重装了ubuntu20,为什么不是ubuntu22?因为版本太新,很多东西不支持。为什么不装ubuntu18?因为我电脑装完了之后不支持外界显示…

react 路由的基本原理及实现

1. react 路由原理 不同路径渲染不同的组件 有两种实现方式 ● HasRouter 利用hash实现路由切换 ● BrowserRouter 实现h5 API实现路由切换 1. 1 HasRouter 利用hash 实现路由切换 1.2 BrowserRouter 利用h5 Api实现路由的切换 1.2.1 history HTML5规范给我们提供了一个…

Android studio (一) 新建一个Android项目 编程语言为Java

一、下载Android studio 下载 Android Studio 和应用工具 - Android 开发者 | Android Developers 这里我下载的是2023年的 二、新建项目 选择如下模板。 填写项目名、项目保存位置、编程语言、最低支持Android API的版本、打包编译模式 三、报错Connection refused: no …

进程的通信以及信号的学习

一,进程的通信: 种类:1.管道 2.信号 3.消息队列 4.共享内存 5.信号灯 6.套接字 1.管道: 1.无名管道 无名管道只能用于具有亲缘关系的进程间通信 pipe int pipe(int pipefd[2]); 功能: 创建一个无名管道 …