终于来啦!Stable Diffusion 3将在6月12日正式开源

6月3日晚,著名开源大模型平台Stability AI的联合首席执行官Christian Laforte,在AMD的产品发布会上宣布,文生图模型 Stable Diffusion 3将于6月12日在Hugging Face开源权重。

本次开源的是Stable Diffusion 3的Medium模型,有20亿参数,在照片真实感、样式、图片质量、算力资源消耗等方面都进行了大幅度优化,将比前两代更好。

同时Stable Diffusion 3也是对标闭源文生图产品Midjourney、DALL·E 3的最佳模型之一,该系列已经被全球数百万开发者使用,很多文生视频/3D模型也借鉴了该架构。

今年2月22日,Stability AI首次预览了Stable Diffusion 3,其逼真的图片质量、更好的文本语义理解与文字嵌入,使得全球开发者们对这个模型相当期待。

但在3月23日,Stability AI的首席执行官Emad Mostaque被辞退,随后又爆出财务危机正在寻求买家等不少负面新闻,大家开始担心Stable Diffusion 3的开源还能否顺利进行。

好在Stability AI都挺过来了,而此时其新上任的联合首席执行官在AMD的产品发布会宣布这个事情,估计已经获得了AMD的赞助还很可能被全资收购。

与英伟达相比,AMD在大模型、生成式AI的部署、开发等方面略处于落后,Stability AI开源的大语言模型、扩散模型等的下载量合计超过千万级别,拿下它等同于收获了一大批开发者。

图片

Stable Diffusion 3架构简单介绍

根据Stable Diffusion 3论文显示,使用了与Sora相同的架构Diffusion Transformer。

Diffusion模型作为生成模型的一种,主要通过数据到噪声的逆过程来创造新的数据点。这种方法在图像和视频生成方面应用非常广泛。

但是随着Diffusion不断迭代,预训练、推理对算力需求呈指数级增长,对于中小企业、个人开发者来说非常不友好。

所以,在Diffusion基础之上又融合了大模型界非常知名的Transformer架构,通过独立的权重处理图像和文本模态,并实现了这两种模态之间的双向信息流。

图片

Diffusion Transformer架构引入新的噪声采样技术,改进了训练Rectified Flow模型的方法。通过偏向感知上相关的尺度,提高了训练的效率和性能。

该架构采用了模拟无关的流训练方法,直接回归一个向量场,用于生成数据分布和噪声分布之间的概率路径,有效避免了求解常微分方程所带来的超高算力成本,同时也极大增强了文本语义理解、文字嵌入和图片样式等。

图片

Stable Diffusion 3生成展示

其实在Stability AI发布预览版时,已经公布了一大批Stable Diffusion 3生成的图片,基本上与Midjourney、DALL·E 3这两款知名产品差不多。

例如,教室里,黑板上用白色粉笔写着 "GPUs go brrmr",这是一个肯定而幽默的场景。黑板前,一群学生正在庆祝。这些学生被独特地描绘成鳄梨,长着小胳膊小腿,脸上洋溢着喜悦和兴奋的表情。

这个场景捕捉到了一种充满童趣和想象力的氛围,将传统教室的概念与牛油果学生的奇特形象融为一体。

图片

一只半透明的猪,里面是一只更小的猪。

图片

一只青蛙坐在20世纪50年代的快餐厅里,穿着皮夹克,戴着礼帽。桌子上有一个巨大的汉堡和一个写着“Froggy Fridays”的牌子。

图片

一只巨大、威严的白色巨龙,它有多个角和类似须的触角,翱翔在崎岖的山脉景观之上。

这条龙有着明亮的橙色眼睛,似乎在清澈的蓝天下飞翔在蓬松的白云之间。周围有尖锐的积雪覆盖的山峰,以及一座类似古代寺庙或塔楼的小建筑。

图片

目前,Stable Diffusion 3 Medium模型只能用于学术研究无法商业化。如果在正式开源后,想商业化的开发者可以联系Stability AI。

想使用Stable Diffusion 3 Turbo和其他版本的需要开通Stability AI的会员。

申请地址:https://stability.ai/stablediffusion3

本文素材来源Stability A官网,如有侵权请联系删除

END

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/22119.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

武汉盛势启创科技携手三品软件 EDM系统助力企业图文档数字化

客户简介 武汉盛势启创科技有限公司(以下简称“盛世启创”)是一家专注于新能源汽车零部件领域的科技型企业,其主要业务涵盖新能源汽车三电系统智能传感器、智能座舱及线控底盘控制器的芯片开发、硬件设计、嵌入式系统开发。以及相关产品的生产…

C++第二十三弹---深入理解STL中list的使用

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 目录 1、list的介绍 2、list的使用 2.1、构造函数 2.2、赋值操作符重载 2.3、迭代器使用 2.4、容量操作 2.5、元素访问 2.6、修改操作 2.7、其…

从0开始学人工智能测试节选:Spark -- 结构化数据领域中测试人员的万金油技术(三)

分布式计算原理 分布式计算的原理总结一句话就是:分而治之。 把数据分片,存在不同的机器中,解决数据存储的压力。客户端和服务端之间通过相关协议来自动的完成在不同的机器之间进行数据的存取,用户并不感知数据的物理存储结构。 用…

UIKit之App界面Demo

需求 实现简单的APP界面 功能: 实现滚动实现上层、下层横栏滚动时穿透效果(永远浮在表面,不跟着滚动)。暂用UIView代替,还没学Bar。 分析: 知识点: 实现鼠标拖动的上下滚动:当…

小红书前端2轮面试期望22K,全程问低代码设计

一面(通过) 1、好,那我们开始把,先简单介绍一下自己的一个经历,以及自己有亮点的项目?balabala 2、你可以这样介绍:在这里边主要负责哪几个项目,哪些项目是比较有亮点的&#xff0…

智享直播(三代)2024年:打造24/7实景无人直播,引领年轻资产创业新纪元!

在21世纪的数字化浪潮中,直播行业以其独特的魅力和无限的可能性,正在全球范围内掀起一场前所未有的( keJ0277 )创业革命。而在这场革命中,智享直播(三代)以其创新的技术理念和前瞻的战略布局,立志于2024年打…

怎么用电脑录制视频?小白也能快速上手

随着网络技术的发展,电脑录制视频已经成为了许多人的日常需求,无论是游戏玩家想录制自己的精彩操作,还是上班族需要录制屏幕演示,一款好用的录屏软件变得尤为重要。可是你知道怎么用电脑录制视频吗?本文将介绍两种电脑…

I2C通信协议

I2C通信协议 项目要求是,通过通信线,是实现单片机读写外挂模块寄存器的功能,至少实现,在指定位置写寄存器和在指定位置读寄存器,实现了读写寄存器,就实现对模块的控制。 MPU6050,OLED&#xf…

【ARM】Fusa Compiler 6.16 LTS的安全认证报告获取

【更多软件使用问题请点击亿道电子官方网站】 1、 文档目标 了解ARM的Arm Compiler for Embedded FuSa 6.16 LTS的安全认证证书和报告的获取 2、 问题场景 对于使用了ARM DS Gold/Platinum、MDK pro或者Arm Compiler for Embedded FuSa 6.16 LTS产品的客户。在对于最终的产品…

生产问题排查:springboot项目启动时注册nacos失败或运行时从nacos闪退

文章目录 一、引出问题二、解决方案1、使用actuator健康检查2、项目启动时判断nacos是否正常连接3、k8s设置探针 一、引出问题 生产项目是用k8s部署的,最近经常遇到启动时注册不到nacos(查找nacos的host地址找不到),或者运行的好…

有文字转语音真人发声吗?这5个配音工具堪比真人配音

青春是一首永不老去的歌,它镌刻在生命的唱片上,永不退色。 每当我们听到那些熟悉的旋律,心中总会涌起一股暖流,仿佛回到了那个充满活力和梦想的年代。借助现代科技的力量,我们可以通过文字转语音软件,让这…

.NET集成DeveloperSharp实现图片的裁剪、缩放、与加水印

🏆作者:科技、互联网行业优质创作者 🏆专注领域:.Net技术、软件架构、人工智能、数字化转型、DeveloperSharp、微服务、工业互联网、智能制造 🏆欢迎关注我(Net数字智慧化基地),里面…

Apache Doris 基础 -- 数据表设计(表索引)

1、索引概述 索引用于帮助快速过滤或搜索数据。目前,Doris支持两种类型的索引:内置智能索引和用户创建的二级索引。 内置智能索引 排序键和前缀索引:Apache Doris基于排序键以有序的方式存储数据。它为每1024行数据创建一个前缀索引。索引中的键是当前1024行组的…

初级网络工程师之入门到入狱(一)

本文是我在学习过程中记录学习的点点滴滴,目的是为了学完之后巩固一下顺便也和大家分享一下,日后忘记了也可以方便快速的复习。 网络工程师从入门到入狱 前言一、交换机二、路由器三、DHCP(动态主机配置协议)四、路由器配置 DHCP自…

Transformer系列:Greedy Search贪婪搜索解码流程原理解析

解码器预测流程简述 Encoder-Decoder这类框架需要在解码器中分别拿到前文已经翻译的输入,以及编码器的输出这两个输入,一起预测出下一个翻译的单词。在训练阶段,一个句子通过右移一位的方式转化为从第二个词到最后一个词的逐位预测任务&…

Springboot vue elementui 前后端分离 事故灾害案例管理系统

源码链接 系统演示:https://pan.baidu.com/s/1hZQ25cpI-B4keFsZdlzimg?pwdgw48

Java集合概述

分类 分为两大类:Collection接口类和Map接口类 这两个接口都继承自一个共同的接口:Iterable接口,意为可迭代的 Iterable接口当中有一个Iterator迭代器接口对象,作为接口的变量(public static final修饰)…

Win10字体模糊?记好这5个方法,解决问题很简单!

“我的电脑是win10的,不知道是什么原因,电脑字体总是很模糊,大家有什么方法可以解决这个问题吗?” 在数字时代的浪潮中,Win10以其出色的性能和丰富的功能赢得了广大用户的青睐。然而,就像任何一款操作系统一…

广东电网突破2亿千瓦,华火新能源电燃灶引领绿色烹饪“灶”未来

近日,广东电网统调装机容量历史性突破2亿千瓦,标志着广东省在电力发展上迈出了坚实的步伐。这一重大成就不仅彰显了广东在能源领域的强劲实力,也为华火新能源电燃灶等绿色技术的普及应用提供了有力的支撑。 广东电网统调装机容量的突破&#…

【 0 基础 Docker 极速入门】镜像、容器、常用命令总结

Docker Images(镜像)生命周期 Docker 是一个用于创建、部署和运行应用容器的平台。为了更好地理解 Docker 的生命周期,以下是相关概念的介绍,并说明它们如何相互关联: Docker: Docker 是一个开源平台&#…