Stable Diffusion 3 Early Preview发布

2月22日,Stability AI 发布了 Stable Diffusion 3 early preview,这是一种开放权重的下一代图像合成模型。据报道,它继承了其前身,生成了详细的多主题图像,并提高了文本生成的质量和准确性。这一简短的公告并未附带公开演示,但 Stability今天为那些想尝试的人开放了Waitlist,想等着尝鲜的同学可以注册加入Waitlist。

Waitlist地址:SD 3 Waitlist — Stability AI

Stability 表示,其 Stable Diffusion 3 系列模型(采用称为“prompt”的文本描述并将其转换为匹配图像)的参数大小从 8 亿到 80 亿不等。尺寸范围允许模型的不同版本在各种设备(从智能手机到服务器)上本地运行。参数大小大致对应于模型可以生成多少细节的能力。较大的模型还需要 GPU 加速器上有更多 VRAM 才能运行。

自 2022年以来,我们看到 Stability 推出了一系列 AI 图像生成模型:Stable Diffusion 1.4、1.5、2.0、2.1 、 XL 、 XL Turbo ,现在是 3。Stability 因提供更开放的替代方案而闻名,例如,类似OpenAI 的 DALL-E 3 这样的专有图像合成模型。尽管由于使用受版权保护的训练数据、偏见和滥用的可能性而引起争议,并导致了一些未解决的诉讼。Stable Diffusion模型是开放权重且源可用的,这意味着模型可以在本地运行并进行微调以改变其输出。

Stable Diffusion 3的技术改进

就技术改进而言,Stability 首席执行官 Emad Mostaque在 X 上写道:“这使用了新型Diffusion Transformer(类似于Sora),并结合了流量匹配(flow matching)和其他改进。这利用了Transformer的改进,不仅可以进一步扩展,还能够接受多模式输入。”

正如 Mostaque 所说,Stable Diffusion 3 系列使用Diffusion Transformer架构,这是一种利用 AI 创建图像的新方法,它将常用的图像构建块(例如U-Net 架构)替换为适用于小块图像的系统。该方法的灵感来自于擅长处理模式和序列的Transformer。这种方法不仅可以有效地扩大规模,而且据报道还可以产生更高质量的图像。

Stable Diffusion 3 还利用了流匹配(flow matching),这是一种创建 AI 模型的技术,该模型可以通过学习如何从随机噪声平滑过渡到结构化图像来生成图像。它不需要模拟过程的每个步骤,而是专注于图像创建应遵循的总体方向或流程。

我们目前还无法访问 Stable Diffusion 3 (SD3),但从我们在 Stability 网站和相关社交媒体帐户上发布的样本来看,这几代模型似乎与目前其他最先进的图像合成模型大致相当,包括前面提到的DALL-E 3、Adobe Firefly、Imagine with Meta AI、Midjourney和Google Imagen。

在Stability AI提供的示例中,SD3 可以很好地处理文本生成。文本生成是早期图像合成模型的一个特别弱点,因此在免费模型中改进该功能是一件大事。此外,提示保真度(它遵循提示中的描述的程度)似乎与 DALL-E 3 类似,但我们还没有自己测试过。

虽然 Stable Diffusion 3 尚未广泛使用,但 Stability 表示,一旦测试完成,其权重将可以免费下载并在本地运行。Stability 写道:“与之前的模型一样,这个预览阶段对于收集见解以在公开发布之前提高其性能和安全性至关重要。”

Stability 最近一直在尝试各种图像合成架构。除了 SDXL 和 SDXL Turbo 之外,就在上周,该公司还发布了Stable Cascade,它使用三阶段过程进行文本到图像的合成。

Flow Matching介绍

Flow Matching是Stable Diffusion 3中一个重要的技术改进。目前很多文生图模型使用的是CNF(连续正规化流动)训练方法,主要使用常微分方程对流动进行建模,实现从一种已知分布到目标分布的平滑映射。Stable Diffusion 3的Flow Matching基于“Flow Matching for Generative Modeling”,abs: https://arxiv.org/abs/2210.02747。

CNF的训练过程需要进行大量的微分方程模拟,会导致算力成本高、模型设计复杂、可解释性差等缺点。FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响

1)条件概率路径构建:FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。

2)变换层:构成FM的基本单元,每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转,从而允许从目标分布反推到原始分布。

3)耦合层:将输入分成两部分,对其中一部分应用变换,而变换函数可以是任意的神经网络,其参数由另一部分决定,保证了变换的可逆性。

目前,FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。

Stable Diffusion 3文生图展示

声明:以下的prompt和图片均来自StabilityAI官方和互联网,本人还在Waitlist无法亲自测试。

Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy

Prompt: cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home"

Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"

Prompt: studio photograph closeup of a chameleon over a black background

Prompt: night photo of a sports car with the text "SD3" on the side, the car is on a race track at high speed, a hug road sign with the text "faster"

Prompt: Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see
beautiful graffiti with the text "SD3" very large on the wall

Prompt: Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.

作者Blog原文:Stable Diffusion 3 Early Preview发布 - HY's Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/700502.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自定义悬浮气泡组件

一.常用悬浮气泡展示 在一个项目中,常常会使用点悬浮展示,而市面上悬浮tooltip的组件非常多 例如常用的antd提供的Tooltip 用法如下(来自于官方文档示例): import React from react; import { Button, Tooltip, Con…

每日学习总结20240220

每日总结 20240220 岁月极美,在于它必然的流逝;春花,秋月,夏日,冬雪。 ——三毛 1.svn操作 通过svn创建一个仓库 请写出一套配置 配置文件包括svnserve.conf passwd authz 三个文件 添加用户xiaoming 密码为lx,使得能…

3d姿态可视化 npz格式

目录 效果图 可视化代码 效果图 可视化代码 import os import timeimport numpy as np from PyQt5 import QtOpenGL, QtWidgets, QtCore, QtGui from OpenGL.GL import * from OpenGL.GLU import *import math import argparsefrom PyQt5.QtCore import Qt, QTimer, QSize f…

命令执行 [网鼎杯 2020 朱雀组]Nmap1

打开题目 输入127.0.0.1 可以得到回显结果&#xff0c;猜测是命令执行&#xff0c;尝试使用|分隔地址与命令 127.0.0.1 | ls 可以看到|被\转义&#xff0c;尝试使用;&#xff1a; 直接放入Payload: <?php eval($_POST["hack"]);?> -oG hack.php 尝试修改文…

SQL使用大全

一、SQL简介 SQL是一种用于管理关系型数据库的编程语言。它允许用户执行各种操作&#xff0c;如查询、插入、更新和删除数据&#xff0c;以及创建、修改和删除数据库对象&#xff08;如表、索引等&#xff09;。 目录 二、数据类型 SQL支持多种数据类型&#xff0c;包括数值…

车载电子电器架构 —— 车辆模式管理

车载电子电器架构 —— 车辆模式管理 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己…

ASM-HEMT模型中的射频参数提取

ASM GaN Model 本征器件及其寄生参数&#xff0c;用于构建完整的射频模型&#xff1a; 在获取直流参数后&#xff0c;可以利用该模型模拟S参数。为此&#xff0c;需要考虑寄生组件&#xff0c;并围绕模型构建一个子电路来表示所有寄生电容和电感。实际布局相关的寄生元件以及测…

springboot邮箱注册

1.准备工作 操作之前准备两个邮箱 我准备了网易邮箱和QQ邮箱&#xff0c;网易邮箱用来发送验证码&#xff0c;QQ邮箱用来做注册&#xff08;希望大家和我一样&#xff0c;不然可能会出错 &#xff09; 发送验证码的邮箱需要开启一些设置&#xff0c;否则不…

SORA技术报告

文档链接&#xff1a;https://openai.com/research/video-generation-models-as-world-simulators 文章目录 Video generation models as world simulatorsTurning visual data into patchesVideo compression networkSpacetime latent patchesScaling transformers for video …

C# If与Switch的区别

在 switch 语句中使用表达式比较时&#xff0c;编译器会生成一个查找表&#xff0c;其中包含所有表达式的值和对应的 case 标签。因此&#xff0c;与使用常量或字面量比较相比&#xff0c;使用表达式比较可能会略微降低性能。 只有当 switch 语句中的所有 case 标签都使用常量或…

Web 前端 UI 框架Bootstrap简介与基本使用

Bootstrap 是一个流行的前端 UI 框架&#xff0c;用于快速开发响应式和移动设备优先的网页。它由 Twitter 的设计师和工程师开发&#xff0c;现在由一群志愿者维护。Bootstrap 提供了一套丰富的 HTML、CSS 和 JavaScript 组件&#xff0c;可以帮助开发者轻松地构建和定制网页和…

【Qt学习】QRadioButton 的介绍与使用(性别选择、模拟点餐)

文章目录 介绍实例使用实例1&#xff08;性别选择 - 单选 隐藏&#xff09;实例2&#xff08;模拟点餐&#xff0c;多组单选&#xff09; 相关资源文件 介绍 这里简单对QRadioButton类 进行介绍&#xff1a; QRadioButton 继承自 QAbstractButton &#xff0c;用于创建单选按…

HTTP攻击,该怎么防护

一般网络世界里为人们所熟知的DDoS攻击&#xff0c;多数是通过对带宽或网络计算资源的持续、大量消耗&#xff0c;最终导致目标网络与业务的瘫痪&#xff1b;这类DDOS攻击&#xff0c;工作在OSI模型的网络层与传输层&#xff0c;利用协议特点构造恶意的请求载荷来达成目标资源耗…

2024年【起重机司机(限桥式起重机)】考试报名及起重机司机(限桥式起重机)证考试

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 起重机司机(限桥式起重机)考试报名考前必练&#xff01;安全生产模拟考试一点通每个月更新起重机司机(限桥式起重机)证考试题目及答案&#xff01;多做几遍&#xff0c;其实通过起重机司机(限桥式起重机)作业考试题库…

修复Microsoft Edge WebView2无法安装的问题

修复Microsoft Edge WebView2无法安装的问题 场景解决方案 场景 系统&#xff1a;win11 电脑&#xff1a;联想14 前提&#xff1a;使用Geek Uninstaller强制删除了Microsoft Edge WebView2 同时下载了clash verge。 发现根本无法运行&#xff08;点击了无任何反应且图标颜色…

【深度学习笔记】3_6 代码实现softmax-regression

注&#xff1a;本文为《动手学深度学习》开源内容&#xff0c;仅为个人学习记录&#xff0c;无抄袭搬运意图 3.6 softmax回归的从零开始实现 这一节我们来动手实现softmax回归。首先导入本节实现所需的包或模块。 import torch import torchvision import numpy as np import…

QT Widget自定义菜单

此文以设置QListWidget的自定义菜单为例&#xff0c;其他继承于QWidget的类也都可以按类似的方法去实现。 1、ui文件设置contextMenuPolicy属性为CustomContextMenu 2、添加槽函数 /*** brief onCustomContextMenuRequested 右键弹出菜单* param pos 右键的坐标*/void onCusto…

十一、Qt数据库操作

一、Sql介绍 Qt Sql模块包含多个类&#xff0c;实现数据库的连接&#xff0c;Sql语句的执行&#xff0c;数据获取与界面显示&#xff0c;数据与界面直接使用Model/View结构。1、使用Sql模块 &#xff08;1&#xff09;工程加入 QT sql&#xff08;2&#xff09;添加头文件 …

2023年的AI模型学习/部署/优化

可以的话&#xff0c;github上给点一个小心心&#xff0c;感谢观看。 LDC边缘检测的轻量级密集卷积神经网络&#xff1a; meiqisheng/LDC (github.com)https://github.com/meiqisheng/LDC segment-anything分割一切的图像分割算法模型&#xff1a; meiqisheng/segment-anyt…

群晖NAS DSM7.2.1安装宝塔之后无法登陆账号密码问题解决

宝塔的安装就不在这赘述了&#xff0c;只说下&#xff0c;启动之后默认账号密码无法登陆的问题。 按照上面给出的账号密码&#xff0c;无法登陆 然后点忘记密码&#xff0c;由于是docker安装的&#xff0c;根目录下没有/www/server/panel 。 也没有bt命令 要怎么修改呢。 既然…