拒绝信息差!一篇文章说清Stable Diffusion 3到底值不值得冲

前言

就在几天前,Stability AI正式开源了Stable Diffusion 3 Medium(以下简称SD3M)模型和适配CLIP文件。这家身处风雨飘摇中的公司,在最近的一年里一直处于破产边缘,就连创始人兼CEO也顶不住压力提桶跑路。

即便这样,它依然被誉为生成式AI的Top3之一,比肩OpenAI和Midjourney的存在……没错,Stability AI就是那个唯一的开源公司。真正的Open Source半死不活,闭源公司万人追捧,这就是真实的世界,首先挣钱,再谈尊严。

SDXL发布的时候,我就写过深度测评,这次同样拒绝信息差,没有废话,给一个SD3M最直观的感受。

以下只讨论官方发布的基础版本模型,不包括开源社区发布的融合版。

Q:作为当前主流SD1.5,SDXL与SD3M有什么区别?

A:主要有三点区别

最显著的是模型规模和参数:

SD1.5参数为8600万;SDXL包含2.6亿参数,是1.5的3倍;SD3的模型参数范围从8亿到80亿,对应模型体积也不相同。

显而易见,以SD3M模型本体4GB的大小,在它之上至少还有1-2个体积更大的版本(已知SD3 Ultra存在)没有开源。

其次是语义理解能力:

SD1.5虽然采用了CLIP模型将自然语言与图像对应,但实际效果只能说聊胜于无,稍微复杂一点的长句就歇菜;

SDXL有所改进,一个CLIP不够两个来凑,能理解长句,还能勉强画出特定语种的文字,比如英文;

SD3M更进一步,直接在训练时就引入Transformer,直接搭建Diffusion-Transformer俗称DiT的结构(没错年初红极一时的Sora也是这个路径),带来的好处显而易见,就是真的能“听懂人话”,这里暂且不表,下一段再展开来说。

最后是出图质量:

正如真理只在大炮射程之内,画质的高低同样取决于像素。能堆出的像素越多,画面看起来就越精致,简单粗暴。

SD1.5默认像素512x512,如果过度提高像素(1024以上),很多时候会出现畸变导致画面崩坏;

SDXL默认像素1024起步,画面精细度肉眼可见的提高,但相比之下对GPU资源的消耗倍增,经常炼丹的朋友应该深有感受,动辄700m,大至1.3G的微调模型,真的难顶;

SD3M同样是1024起步,画质好于SDXL,主要是在对颜色和光影的把控上更为精准,8G显存就能带得动,直觉上感到这会是SDXL的平行替代品。

Q:相比起前几个版本,SD3M最显著的突破在哪里?

A:重点就在DiT这里,更具体一点,官方将其称为Multimodal Diffusion Transformer (MMDiT)

流程图看上去很复杂,实际上翻译成人话就是:模型现在更能看懂你想表达的意思。

经常抽卡的朋友应该深有体会,在文生图时,如果不加入控制条件,你让人物头戴一束花环,那么大概率在图的背景中同样会出现鲜花;又比如描述人物穿着的上衣绣着小猫图案,那么很大的可能这只小猫会出现在人的脚边;更不必说同一场景中描述多人物,简直就是一场难以形容的灾难。

大语言模型的加入解决了一个重要的问题:语义理解。

经常研究U-Net潜空间的朋友都知道,从SD1.5开始潜空间深度学习是成对的,一边是文字标签caption,一边是对应的图像表达,经过多轮加噪声和去像素,最终保存成经过预训练的文件。

然而现实世界中很少有词或词组是唯一概念,比如我们说“这只猫真好看”,有可能这是一只真的猫,有可能是一只玩偶,还有可能只是鞋子上的Hello Kitty……离开了对上下文的语义理解,即便有插件辅助,抽卡依然是很痛苦的事。

举个具体的例子,这样一段提示词:

三人走在城市街道上,华人,左边的男人穿着浅红色夹克和蓝色牛仔裤,拿着相机,中间的女人穿着酒红色毛衣,灰色裙子,戴着眼镜,右边的女人穿着海军蓝连衣裙,拿着手提包,天空晴朗,城市景观,逼真风格

Three people walk in the city street,asian chinese,the man on the left is wearing a light red jacket and blue jeans,holding a camera,the woman in the middle is wearing a wine red sweater,gray skirt,wearing glasses,the woman on the right is wearing a navy blue dress,holding a handbag,the sky is clear,the city landscape,realistic style

这段提示词里包括了多人场景,每个人物的服装特征,甚至还定义了相对位置。经常出图的朋友可以打开SD跑一张文生图试试,这种场景对于SDXL也是一场灾难。

而在SD3M这里,如下图所示:

没有抽卡,一步到位。不仅服装穿搭严格遵照了提示词的指引,连人物的左中右站位都是正确的。更进一步,如果你熟悉前几个版本SD模型对颜色的复现,不难看出SD3M对色彩的控制力有大幅强化(比如酒红)。

举个更直观的例子,下图将上衣颜色改成淡蓝、天蓝和海军蓝,三者的差异肉眼可见。

这还只是4GB的官方底模,基础能力恐怖如斯。

Q:在SD3M之外,难道还有其他版本?

A:已知至少存在Ultra版本,目前可以通过官方API调用,文生图单价约0.5元/张。

Q:再来几张图看看档次

A:以下提示词相同,相比上面的例子减少了右边的人。

漫画风格

在这里插入图片描述

3D风格

像素风+英文

黏土风+英文

Q:SD3M缺点在哪里?

A:主要有三点

**非完全体。**如果官方发布的Ultra版效果图保真的话,那效果至少是比肩Midjourney V5.2以上的存在。毕竟Stability也是要吃饭的,只能说理解。

**依然会肉眼可见的出错。**手的问题,四肢协调的问题,脸的问题,亟待开源社区补充方案。

**生态环境问题。**从SD1.5到SDXL,没人会用官方发布的底模,生态的丰富依赖模型创作者、插件作者,以及工作流设计师的共同努力。从现在算起,一个月之内应该能看到一些成果面世。

Q:硬件配置和软件环境?

A:SD3M需求8G显存,基于Comfy UI和Swarm UI可以运行,相信WebUI也不会迟到太久。

Q:最值得期待的是什么?

A:当然是微调模型!

底模代表了基座,微调模型就是建立在基座上的特定形式。底模能力越强大,就意味着能提供的精度越高,越能支撑微调模型的特征表达,最终展现出来的结果,很可能就是更好的复现物理世界的真实场景,或者更具有泛化能力的风格基调。

4GB的底模,体量仅仅相当于经典的Chilloumix,微调模型应该不至于像SDXL生态下的1.3GB这般臃肿吧。

更进一步来说,视频本身就是多个静态帧基于时间顺序的连接,从这个角度来看,图像模型能力的提升,最终能力会外延到视频领域,提高整体画面表现力的同时,部分打破或者削弱闭源视频的壁垒。

**简单总结,SD3M并不完美,但进步很大,值得上手。**至于NSFW什么的,那不重要,真的不重要。


关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!
在这里插入图片描述

对于0基础小白入门:

如果你是零基础小白,想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!

零基础AI绘画学习资源介绍

👉stable diffusion新手0基础入门PDF👈

(全套教程文末领取哈)
在这里插入图片描述

👉AI绘画必备工具👈

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉AI绘画基础+速成+进阶使用教程👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉12000+AI关键词大合集👈

在这里插入图片描述

这份完整版的AI绘画全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/39750.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[leetcode]minimum-absolute-difference-in-bst 二叉搜索树的最小绝对差

. - 力扣(LeetCode) /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(null…

java如何在字符串中间插入字符串

java在字符串中插入字符串,需要用到insert语句 语法格式为 sbf.insert(offset,str) 其中,sbf是任意字符串 offset是插入的索引 str是插入的字符串 public class Insert {public static void main(String[] args) {// 将字符串插入到指定索引StringBuffer sbfn…

FFmpeg5.0源码阅读——格式检测

摘要:在拿到一个新的格式后,FFmpeg总是能够足够正确的判断格式的内容并进行相应的处理。本文在描述FFmpeg如何进行格式检测来确认正在处理的媒体格式类型,并进行相应的处理。   关键字:FFmpeg,format,probe 在调用FFmpeg的APIav…

变量的定义和使用

1.定义 变量,就是用来表示数据的名字 Python 中定义变量非常简单,只需将数据通过等号()赋值给一个符合命名规范的标识符即可 name"Camille" name 123 变量的使用 变量的使用是指在程序中引用一个已经定义的变量。 例如,如果…

LeetCode 196, 73, 105

目录 196. 删除重复的电子邮箱题目链接表要求知识点思路代码 73. 矩阵置零题目链接标签简单版思路代码 优化版思路代码 105. 从前序与中序遍历序列构造二叉树题目链接标签思路代码 196. 删除重复的电子邮箱 题目链接 196. 删除重复的电子邮箱 表 表Person的字段为id和email…

昇思MindSpore学习总结七——模型训练

1、模型训练 模型训练一般分为四个步骤: 构建数据集。定义神经网络模型。定义超参、损失函数及优化器。输入数据集进行训练与评估。 现在我们有了数据集和模型后,可以进行模型的训练与评估。 2、构建数据集 首先从数据集 Dataset加载代码&#xff0…

检测站机动车授权签字人试题附答案

16、___的轮胎胎冠上花纹深度不得小于3.2mm。( ) A、乘用车 B、摩托车 C、货车的转向轮(正确答案) D、挂车 17、最大设计时速≥100km/h的机动车其转向盘自由转动量不大于__。( ) A、30 度 B、20 度(正确答案) C、45 度 D、40度…

在windows上安装objection

安装命令pip install objection -i https://mirrors.aliyun.com/pypi/simple hook指定进程 objection -g 测试 explore 进程名不定是包名,也可能是app名字,如“测试”就是app的名字 若出现如下错误,说明python 缺少setuptools 直接安装setu…

掷骰子游戏 、 求绝对值,平方根,对数,正弦值 题目

题目 JAVA33 掷骰子游戏分析:代码: JAVA34 求绝对值,平方根,对数,正弦值分析:代码: JAVA33 掷骰子游戏 描述开发一个掷骰子游戏,即每次运行程序时,产生一个[1,6]之间的随…

秋招突击——设计模式补充——单例模式、依赖倒转原则、工厂方法模式

文章目录 引言正文依赖倒转原则工厂方法模式工厂模式的实现简单工厂和工厂方法的对比 抽线工厂模式最基本的数据访问程序使用工厂模式实现数据库的访问使用抽象工厂模式的数据访问程序抽象工厂模式的优点和缺点使用反射抽象工厂的数据访问程序使用反射配置文件实现数据访问程序…

检索增强生成RAG系列6--RAG提升之查询结构化(Query Construction)

系列5中讲到会讲解3个方面RAG的提升,它们可能与RAG的准确率有关系,但是更多的它们是有其它用途。本期来讲解第二部分:查询结构化(Query Construction)。在系列3文档处理中,我们着重讲解了文档解析&#xff…

C++ dll导出类的方法

要在C动态库中导出类,可以使用以下步骤: 定义一个类并实现其成员函数。在类的声明前加上__declspec(dllexport)标记(Windows平台)或__attribute__((visibility("default")))标记(Linux平台)&…

C语言学习笔记--第一个程序

第一个C语言程序 #include<stdio.h> //引用输入输出头文件&#xff0c;每一次都需要引用这个文件 //.h是头文件 // .c是源文件 // .cpp是C源文件&#xff0c;兼容C //C的第一个程序 // 行注释&#xff08;只能注释这一行&#xff09; /*块注释 */ int main() {printf(&…

能保存到相册的风景视频在哪下载?下载风景视频网站分享

在当今以视觉为核心的时代&#xff0c;高清美丽的风景视频不仅能够丰富我们的日常生活&#xff0c;还能提供心灵上的慰藉。无论是为了制作视频项目&#xff0c;还是仅仅想要珍藏一些精美的风景画面&#xff0c;获取高质量的风景视频素材显得尤为重要。许多人可能会问&#xff1…

PTrade量化软件常见问题整理系列2

一、研究界面使用get_fundamentals函数报错&#xff1a;error_info:获取token失败&#xff1f; 研究界面使用get_fundamentals函数报错&#xff1a;error_info:获取token失败&#xff1f; 1、测试版本202202.01.052&#xff0c;升级202202.01.051版本后&#xff0c;为了解决不…

在虚拟仿真中学习人工智能,可以达到什么目标?

人工智能已经成为引领社会创新的关键力量&#xff0c;想要在这个充满机遇的领域中脱颖而出&#xff0c;掌握扎实的专业技能和积累丰富的实践经验至关重要。然而&#xff0c;许多学习者在追求这一目标的过程中面临着几个主要问题&#xff1a;专业技术掌握有难度、实践经验积累存…

linux中awk,sed, grep使用

《linux私房菜》这本书中将sed和awk一同归为行的修改这一点&#xff0c;虽然对&#xff0c;但不利于实际处理问题时的思考。因为这样的话&#xff0c;当我们实际处理问题时&#xff0c;遇到比如说统计文本打印内容时&#xff0c;我们选择sed还是awk进行处理呢&#xff1f; 也因…

​香橙派AIpro测评:usb鱼眼摄像头的Camera图像获取

一、前言 近期收到了一块受到业界人士关注的开发板"香橙派AIpro",因为这块板子具有极高的性价比&#xff0c;同时还可以兼容ubuntu、安卓等多种操作系统&#xff0c;今天博主便要在一块832g的香橙派AI香橙派AIpro进行YoloV5s算法的部署并使用一个外接的鱼眼USB摄像头…

React 中如何使用 Monaco

Monaco 是微软开源的一个编辑器&#xff0c;VSCode 也是基于 Monaco 进行开发的。如果在 React 中如何使用 Monaco&#xff0c;本文将介绍如何在 React 中引入 Monaco。 安装 React 依赖 yarn add react-app-rewired --dev yarn add monaco-editor-webpack-plugin --dev yarn…

学习和发展人工智能:新兴趋势和成功秘诀

人工智能(AI)继续吸引组织&#xff0c;因为它似乎无穷无尽地提高生产力和业务成果。在本博客中&#xff0c;了解学习和发展(L&D)部门如何利用人工智能改进流程&#xff0c;简化工作流程&#xff1f; 学习与发展(L&D)部门领导开始探索如何提高和支持人工智能能力的劳动…