Stable Diffusion 3 开源发布可下载体验

本文来自huggingface翻译

Stable Diffusion 3 Medium是一种多模态扩散变换器 (MMDiT) 文本到图像模型,其在图像质量、排版、复杂提示理解和资源效率方面的性能有极大提升。
有关更多技术细节,请参阅研究论文。
请注意:此模型是根据 Stability 非商业研究社区许可证发布的。如需创建者许可证或企业许可证,请访问 Stability.ai 或联系我们获取商业许可详情。

模型描述

  • 开发者: Stability AI
  • 模型类型: MMDiT 文本到图像生成模型
  • **模型描述:**这是一个可以根据文本提示生成图像的模型。它是一个多模态扩散变换器(https://arxiv.org/abs/2403.03206),使用三个固定的、预训练的文本编码器(OpenCLIP-ViT/G、CLIP-ViT/L和T5-xxl)

执照

  • 非商业用途:稳定扩散 3 介质在稳定性 AI 非商业研究社区许可证下发布。该模型可免费用于学术研究等非商业用途。
  • 商业用途:未经 Stability 单独商业许可,此模型不可用于商业用途。我们鼓励专业艺术家、设计师和创作者使用我们的创作者许可。请访问https://stability.ai/license了解更多信息。

模型来源

对于本地或自托管使用,我们建议使用ComfyUI进行推理。
稳定扩散 3 培养基可在我们的稳定性 API 平台上使用。
稳定扩散 3 模型和工作流程可通过稳定助手 (Stable Assistant)和 Discord (Stable Artisan)获得。

  • ComfyUI: https://github.com/comfyanonymous/ComfyUI
  • StableSwarmUI: https://github.com/Stability-AI/StableSwarmUI
  • 技术报告: https://stability.ai/news/stable-diffusion-3-research-paper
  • 演示: https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
  • 扩散器支持: https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers

训练数据集

我们使用合成数据和经过筛选的公开数据来训练我们的模型。该模型已在 10 亿张图像上进行了预训练。微调数据包括 3000 万张专注于特定视觉内容和风格的高质量美学图像,以及 300 万张偏好数据图像。

文件结构

├── comfy_example_workflows/
│   ├── sd3_medium_example_workflow_basic.json
│   ├── sd3_medium_example_workflow_multi_prompt.json
│   └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── sd3_medium_incl_clips_t5xxlfp16.safetensors

为方便用户使用,我们准备了三种包装版本的 SD3 中型型号,每种型号都配备了相同的 MMDiT 和 VAE 重量组。

  • sd3_medium.safetensors 包括 MMDiT 和 VAE 权重,但不包括任何文本编码器。
  • sd3_medium_incl_clips_t5xxlfp16.safetensors包含所有必要的权重,包括 T5XXL 文本编码器的 fp16 版本。
  • sd3_medium_incl_clips_t5xxlfp8.safetensors包含所有必要的权重,包括 T5XXL 文本编码器的 fp8 版本,在质量和资源要求之间提供平衡。
  • sd3_medium_incl_clips.safetensors包括除 T5XXL 文本编码器之外的所有必要权重。它需要的资源很少,但如果没有 T5XXL 文本编码器,模型的性能会有所不同。
  • 该text_encoders文件夹包含三个文本编码器及其原始模型卡链接,以方便用户使用。text_encoders 文件夹中的所有组件(以及嵌入在其他包中的等效组件)均受其各自的原始许可证约束。
  • 该example_workfows文件夹包含舒适的工作流程示例。

与扩散器一起使用

确保升级到最新版本的扩散器:pip install -U 扩散器。然后你可以运行:

import torch
from diffusers import StableDiffusion3Pipelinepipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")image = pipe("A cat holding a sign that says hello world",negative_prompt="",num_inference_steps=28,guidance_scale=7.0,
).images[0]
image

有关优化和图像到图像支持的更多详细信息,请参阅文档。

用途

预期用途

预期用途包括:

  • 创作艺术作品并用于设计和其他艺术过程。
  • 在教育或创意工具中的应用。
  • 生成模型的研究,包括了解生成模型的局限性。

该模型的所有使用都应符合我们的可接受使用政策。

超出范围的用途

该模型并未经过训练以真实地代表人物或事件。因此,使用该模型生成此类内容超出了该模型的能力范围。

安全

作为我们安全设计和负责任的 AI 部署方法的一部分,我们在模型开发的整个过程中实施安全措施,从开始预训练模型到每个模型的持续开发、微调和部署。我们实施了许多安全缓解措施,旨在降低严重危害的风险,但我们建议开发人员进行自己的测试并根据其特定用例应用其他缓解措施。
有关我们的安全方法的更多信息,请访问我们的安全页面。

评估方法

我们的评估方法包括结构化评估以及针对特定严重危害(例如儿童性虐待和剥削、极端暴力和血腥、露骨色情内容以及非自愿裸露)的内部和外部红队测试。测试主要以英语进行,可能无法涵盖所有可能的危害。与任何模型一样,该模型有时可能会对用户提示产生不准确、有偏见或令人反感的响应。

已识别的风险及缓解措施:

  • 有害内容:我们在训练模型时使用了经过过滤的数据集,并实施了保护措施,试图在实用性和防止危害之间取得适当的平衡。然而,这并不能保证所有可能的有害内容都被删除。该模型有时可能会生成有毒或有偏见的内容。所有开发人员和部署人员都应谨慎行事,并根据其特定的产品政策和应用程序用例实施内容安全护栏。
  • 滥用:技术限制以及对开发者和最终用户的教育有助于缓解模型的恶意应用。所有用户都必须遵守我们的可接受使用政策,包括在应用微调和及时工程机制时。有关我们产品的违规使用的信息,请参阅 Stability AI 可接受使用政策。
  • 侵犯隐私:鼓励开发人员和部署人员采用尊重数据隐私的技术来遵守隐私法规。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/26621.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C# —— 条件运算符

条件运算符的作用: 用于比较两个变量或者常量 // > // < // // ! // > // < 条件运算符 一定存在左右两边的内容 左边内容 条件运算符 右边内容 int a 30; int b 50; 条件运算符 不…

java面试题:hashMap扩容机制

初始容量和加载因子&#xff1a; HashMap在初始化时有一个默认的初始容量&#xff08;capacity&#xff09;&#xff0c;通常是16。这个容量也可以在创建HashMap时通过构造函数指定。 HashMap还有一个加载因子&#xff08;load factor&#xff09;&#xff0c;这是一个表示Has…

【全开源】快递寄件小程序源码(FastAdmin+ThinkPHP+原生微信小程序)

&#x1f4e6;快递寄件小程序&#xff1a;轻松寄送&#xff0c;便捷生活 &#x1f69a;一、引言&#xff1a;告别繁琐&#xff0c;让寄件更简单 在繁忙的生活中&#xff0c;寄送快递往往成为我们的一大难题。传统的寄件方式需要前往快递公司网点&#xff0c;填写繁琐的寄件信…

单目标应用:基于蛇鹫优化算法SBOA的微电网优化(MATLAB代码)

一、微电网模型介绍 微电网多目标优化调度模型简介_vmgpqv-CSDN博客 参考文献&#xff1a; [1]李兴莘,张靖,何宇,等.基于改进粒子群算法的微电网多目标优化调度[J].电力科学与工程, 2021, 37(3):7 二、蛇鹫优化算法求解微电网 2.1算法简介 蛇鹫优化算法&#xff08;Secre…

基于python多光谱遥感数据处理、图像分类、定量评估及机器学习

原文链接&#xff1a;基于python多光谱遥感数据处理、图像分类、定量评估及机器学习 普通数码相机记录了红、绿、蓝三种波长的光&#xff0c;多光谱成像技术除了记录这三种波长光之外&#xff0c;还可以记录其他波长&#xff08;例如&#xff1a;近红外、热红外等&#xff09;光…

企业中的绩效管理

背景 企业中为何需要绩效管理&#xff0c;企业绩效管理为何比较难&#xff0c;这在企业管理中是非常难&#xff0c;同样也是非常有价值的命题&#xff0c;那么首先应该对这个命题有清晰的认知&#xff0c;特别是要想明白为何企业需要绩效管理&#xff0c;应该先明白企业。 企…

Uniapp实现页面滚动Tab吸顶,点击tab内容滚动到对应tab内容位置

1.template结构 <view class"content-tabs-box"><view class"content-tabs" :class"{is-fixed: isTabFixed}"><viewv-for"(item, index) in detailTabs" :key"index" class"tab" :class"{act…

【git使用四】git分支理解与操作(详解)

目录 &#xff08;1&#xff09;理解git分支 主分支&#xff08;主线&#xff09; 功能分支 主线和分支关系 将分支合并到主分支 快速合并 非快速合并 git代码管理流程 &#xff08;2&#xff09;理解git提交对象 提交对象与commitID Git如何保存数据 示例讲解 &a…

lnmp的介绍与源码部署以及 |什么是正向、反向、透明代理 | 常见的集群有哪些

lnmp 文章目录 lnmp1.LNMP是什么2. lnmp简介3.系统特点4.优点5.lnmp部署5.1 nginx安装5.2 mysql安装5.3 php安装5.4配置nginx服务处理php 6.扩展知识点1.什么是集群2.常见的集群有哪些集群的分类1、高可用集群2、负载均衡集群3、分布式计算集群4、高性能集群(High Performance …

TCP标志

SYN (Synchronize) 和 ACK (Acknowledgement) 是TCP协议中的两种重要标志&#xff08;flags&#xff09;&#xff0c;用于建立和维护连接。它们通常在TCP三次握手过程中使用。 1、SYN标志&#xff1a; 当客户端想要建立于服务器的TCP连接时&#xff0c;它会发送一个带有SYN白…

嵌入式常用调试方法

目录 调试工具 日志打印 1. Debug日志打印 2. RTT日志打印 3. 串口日志打印 总结 嵌入式系统的调试是一个复杂且关键的过程&#xff0c;涉及多种工具和技术的综合应用。以下是对嵌入式常见调试工具、日志打印方式的全面报告&#xff0c;包括Debug、RTT&#xff08;Real-T…

重生奇迹mu魔法师介绍

魔法师擅长&#xff1a;远距作战、攻击&辅助魔法使用 转职&#xff1a;魔导师&#xff08;2转&#xff09;&#xff0c;神导师&#xff08;3转&#xff09; 魔法师可以通过多样的魔法&#xff0c;展现华丽的效果和强大的实力。成长初期因为体力少&#xff0c;经常受到死亡…

Linux Shell命令vim使用

一、引例 以判断引出&#xff08;学过C其他语言容易接受&#xff09;。 简单命令说明&#xff1a; -e 测试文件是否存在 -f 测试文件是否为普通文件 -d 测试文件是否为目录 -r 测试当前用户对某文件是否具有“可读”权限 -w 测试当前用户对某文件是否具有“可写”权限…

线程池前置知识

并发和并行 并发是指在单核CPU上&#xff0c;多个线程占用不同的CPU时间片。线程在物理上还是串行执行的&#xff0c;但是由于每个线程占用的CPU时间片非常短&#xff08;比如10ms&#xff09;&#xff0c;看起来就像是多个线程都在共同执行一样&#xff0c;这样的场景称作并发…

Python私教张大鹏 Vue3整合AntDesignVue之Cascader 级联选择

何时使用 需要从一组相关联的数据集合进行选择&#xff0c;例如省市区&#xff0c;公司层级&#xff0c;事物分类等。 从一个较大的数据集合中进行选择时&#xff0c;用多级分类进行分隔&#xff0c;方便选择。 比起 Select 组件&#xff0c;可以在同一个浮层中完成选择&#…

聊聊C/S模式架构的优缺点

C/S模式架构&#xff0c;即客户端-服务器&#xff08;Client/Server&#xff09;架构&#xff0c;是一种常见的软件系统架构&#xff0c;以下是C/S模式架构的优缺点分析。 C/S架构优点部分&#xff1a; 性能高效&#xff1a;由于客户端直接与服务器进行数据交换&#xff0c;没…

关于创建Cloudeflare的r2桶以及如何使用rclone连接

一、名词解释 r2桶是cloudflare给用户的免费10G储存空间&#xff0c;可与自定义域创建链接的储存storge。 rclone是开源工具&#xff0c;用于在本地通过软件链接云储存storege&#xff0c;让用户可以修改、同步、删除云储存中的内容。 rcloneBrowser是rclone的GUI版本&#x…

足底筋膜炎怎样才能彻底治愈

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

4.MongoDB sharding Cluster 分片集群

MongoDB分片集群的介绍&#xff1a; 是MongoDB提供的一种可水平扩展的数据存储解决方案。 当单个MongoDB服务器无法满足数据存储需求或吞吐量要求时&#xff0c;可以使用分片集群来分散数据量和查询负载。分片集群的结构组成&#xff1a; 1.分片&#xff08;shards&#xff09;…

windows中安装libreOffice最新版本24.2.4

windows中安装libreOffice最新版本24.2.4 一. 介绍二. 安装过程2.1 下载 LibreOffice2.2 安装过程2.3 页面展示 三. 参考文档 前言 这是我在这个网站整理的笔记,有错误的地方请指出&#xff0c;关注我&#xff0c;接下来还会持续更新。 作者&#xff1a;神的孩子都在歌唱 一. 介…