StabilityAI最新发布了Stable Diffusion 3.5,这次公开发布包括多个模型,包括Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo。此外,Stable Diffusion 3.5 Medium将于10月29日发布。这些模型因其大小而具有高度的可定制性,可以在消费级硬件上运行,并且根据宽容的Stable AI社区许可证,可以免费用于商业和非商业用途。目前已经可以Hugging Face下载模型,同时推理代码也已经开源:
-
Hugging Face:https://huggingface.co/stabilityai
-
GitHub:https://github.com/Stability-AI/sd3.5
Stable Diffusion 3.5是Stable Diffusion 3的升级版,主要有三个版本:
-
Stable Diffusion 3.5 Large:8B参数大小,具有卓越的出图质量和提示词遵循能力,是Stable Diffusion家族中最强大的模型。这个模型非常适合专业使用案例,尤其是在1百万像素分辨率下。
-
Stable Diffusion 3.5 Large Turbo:作为Stable Diffusion 3.5 Large的蒸馏版本,它在仅4步内就能生成高质量图像,并且具有出色的提示词遵循能力,使其比Stable Diffusion 3.5 Large快得多。
-
Stable Diffusion 3.5 Medium(将于10月29日发布):2.5B参数大小,通过改进的MMDiT-X架构和训练方法,旨在在消费级硬件上“即开即用”,在质量和定制便捷性之间取得平衡。它能够生成分辨率在0.25到2百万像素之间的图像。
SD 3.5模型开发优先考虑了可定制性。为了实现这一点,这里将Query-Key Normalization集成到了transformer block中,稳定了模型训练过程,并简化了进一步的微调和开发。同时为了支持这种下游任务的灵活性,模型也做出一些权衡。比如使用不同种子从同一提示生成的输出可能会有更大的变化,这是有意为之的,因为它有助于在基础模型中保留更广泛的知识库和多样化的风格。然而,结果可能是,缺乏具体性的提示可能会导致输出的不确定性增加,而且审美水平可能会有所不同。对于SD 3.5 Medium,其架构和训练策略进行了几项调整,以增强质量、连贯性和多分辨率生成能力。
Stable Diffusion 3.5的主要特色是:
-
可定制性:轻松微调模型以满足您的特定创意需求,或基于定制的工作流程构建应用程序。
-
高效性能:优化后可以在标准消费级硬件上运行,没有过高的要求,特别是Stable Diffusion 3.5 Medium和Stable Diffusion 3.5 Large Turbo模型。
-
多样化输出:创建代表世界的图像,而不仅仅是某一类人,具有不同的肤色和特征,无需大量的提示。
- 多风格:能够生成广泛的风格和美学,如3D、摄影、绘画、线条艺术以及几乎任何可以想象的视觉风格。
Stable Diffusion 3.5 Large 在提示遵循方面领先,并且在图像质量上与更大的模型相媲美。
Stable Diffusion 3.5 Large Turbo 提供了与其规模相比一些最快的推理时间,同时在图像质量和提示遵循方面保持高度竞争力,即使与未蒸馏的类似规模模型相比也是如此。
Stable Diffusion 3.5 Medium 在其他中等规模模型中表现优异,提供了提示遵循和图像质量之间的平衡,使其成为高效、高质量性能的首选。
虽然SD 3.5并不是完全的可商用开源,但是开源协议是宽松的Stability AI 社区许可证:
-
免费用于非商业用途:个人和组织可以免费使用该模型进行非商业用途,包括科学研究。
-
免费用于商业用途(年收入高达100万美元):初创企业、中小型企业以及创作者可以免费将该模型用于商业目的,只要他们的年总收入少于100万美元。
-
输出所有权:保留生成的媒体的所有权,而无需受限制的许可含义。
这意味着个人基本可以免费使用SD 3.5模型。
目前最新版的diffusers已经集成了SD 3.5,使用示例如下所示:
import torch from diffusers import StableDiffusion3Pipeline pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16) pipe = pipe.to("cuda") image = pipe( "A capybara holding a sign that reads Hello World", num_inference_steps=28, guidance_scale=3.5, ).images[0] image.save("capybara.png")
而且官方还提供了模型微调的教程,具体见Stable Diffusion 3.5 Large Fine-tuning Tutorial。
在线体验:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large
而且ComfyUI官方提供了示例工作流,尤其对于 RAM 低于 32GB的用户,comfyanonymous制作了额外的scaled fp8 clip,大家可以试试看!
🔹如何使用: https://blog.comfy.org/sd3-5-comfyui/
🔹工作流:https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/tree/main
🔹scaled fp8 clip (by comfyanonymous):https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/sd3.5_large_fp8_scaled.safetensors
为了帮助大家更好地掌握 ComfyUI,我在去年花了几个月的时间,撰写并录制了一套ComfyUI的基础教程,共六篇。这套教程详细介绍了选择ComfyUI的理由、其优缺点、下载安装方法、模型与插件的安装、工作流节点和底层逻辑详解、遮罩修改重绘/Inpenting模块以及SDXL工作流手把手搭建。
由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取
一、ComfyUI配置指南
- 报错指南
- 环境配置
- 脚本更新
- 后记
- …
二、ComfyUI基础入门
- 软件安装篇
- 插件安装篇
- …
三、 ComfyUI工作流节点/底层逻辑详解
- ComfyUI 基础概念理解
- Stable diffusion 工作原理
- 工作流底层逻辑
- 必备插件补全
- …
四、ComfyUI节点技巧进阶/多模型串联
- 节点进阶详解
- 提词技巧精通
- 多模型节点串联
- …
五、ComfyUI遮罩修改重绘/Inpenting模块详解
- 图像分辨率
- 姿势
- …
六、ComfyUI超实用SDXL工作流手把手搭建
- Refined模型
- SDXL风格化提示词
- SDXL工作流搭建
- …
由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取