如何看待SD3 版本,和SDXL相比有何优势?

胖友们好!!!痴迷AI的本枕又来写Stable Diffusion了……

SD社区群众们翘首企盼的SD3的weights总算在huggingface上发布了

于是我也在当天非常激动地用ComfyUI生成了一些图像……

这篇文章算是半个评测半个心得吧,因为有些东西是我认为很重要、玩SD3如果要玩出它的正常水平一定一定需要知道的,另外一些内容就是我自己的一些测试图片,那些也不是很重要……

※以下内容仅针对SD3的Medium+T5XXL版本

※别看T5XXL版本有整整10GB,我的4070跑起来完全没有问题,速度只比SDXL慢一点点

相较于 SDXL,SD3 拥有更强的语义理解能力,更真实的人像体验,更丰富的细节,更准确的文字生成。

stable-diffusion-3-medium 的模型一共有三个:sd3_medium_incl_clips.safetensors、sd3_medium_incl_clips_t5xxlfp8.safetensors、sd3_medium_incl_clips_t5xxlfp16.safetensors,带 t5xxlf 的模型相比不带 t5xxlf 的模型就是文字生成能力更强,fp8 相对于 fp16 就是质量生成方面会有所降低,但是更省资源,达成一个质量换资源的平衡。

基础模型大概需要 8G 显存,t5xxlfp8 大概需要 12G 的显存,t5xxlfp16 大概需要 16G 的显存。

其实官方是提供了 4 个模型的,不过最最小的那个模型需要特殊的工作流并且搭配特定的文本编码器才行,还得下十几个 G 的模型没必要,直接用上边这三个模型就可以了,已经把文本编码器内置了。

使用以上这三个模型的话,我们只需要最基础的文生图工作流就可以搞定。

先用官方默认的提示词来对比下三个模型的出图效果吧。

提示词这里就直接翻译成中文显示了。

提示词:一个留着飘逸长发的女性角色,看起来是由类似北极光或北极光的空灵漩涡图案制成的。背景以深蓝色和紫色为主,营造出一种神秘而富有戏剧性的氛围。这个角色的脸是平静的,苍白的皮肤和引人注目的特征。她穿了一套深色的衣服,上面有精致的花纹。艺术品的整体风格让人想起奇幻或超自然的流派。

看起来区别不是很大,t5xxlfp8 和 t5xxlfp16 的效果更接近一些。

所以如果内存比较小的话,使用最小的模型就可以了,也不用纠结。

我们再来看看生成文字方面的效果。

提示词:桌子上摆着三个精致的瓶子,左边的瓶子写着"S",中间的瓶子写着"D",右边的瓶子写着"3"

基础模型也不是不行,起码SD两个字母是输出了,只不过正确率没有后边两个模型高,把 3 给漏了。

提示词:一块精致的黑板上写着“I've walked through this time”

多试几次基础模型也可以生成准确的文字,这里后边两个模型都翻车了,所以只能说明后边两个模型生成准确文字的概率更大,但是不代表基础模型就不行。

生成文字就先到这里了,然后我们来看看他们的语义理解能力吧。

提示词:红色的草地上有一张蓝色的桌子,桌子上有三个玻璃瓶子,左边的瓶子是白色的,中间的瓶子是红色的,右边的瓶子是黑色的。

没啥问题,颜色也都是准确的。

再来看看 SD3 的空间理解能力。

提示词:有一个三层的立方体,一个红色的立方体在顶部,放在绿色的立方体上,绿色的立方体在中间,放在一个蓝色的立方体上,蓝色的立方体在底部。

也不错,当然凡事都是有概率的,没法保证每次生成的结果都如我们的心意,多试几次就好了。

再来看看 SD3 的对于不同物体的融合效果,或者创造性如何。

提示词:一个沙发,形状和梨很像

融合效果也不错,还是能大体看出来梨的形状的。

再来试试人物生成吧。

提示词:拍摄一个美丽、充满活力的(年轻:1.2)女人,(25:1.1)岁,在(电影:1.4)环境中,用(复杂:1.3)细节和(生动:1.2)颜色,以(杰作:1.5)绘画的风格,50毫米。电影,4k史诗般的细节,4k的史诗般的详细,在柯达拍摄的照片,详细的电影,hbo深色moody,35mm照片,颗粒,小插曲,复古,柯达彩色,Lomography,染色,高度详细,找到的镜头

大家自己看效果吧。

不过在某些情况下,基础模型的理解以及表现力比后两个模型的确要差点意思,毕竟人家模型小嘛,总是会牺牲一些质量的。

翻译成中文总感觉差点意思,就不翻译了。

提示词:cinematic photo a ghost,(by Kawacy:1.1),(by ahegao:1.3),Embrace the fragmented beauty of a mosaic break free from the face,bleeding with hints of mechanical wonder,Explore the eloquence of shattered body parts in an evocative artistic expression,8k,atmospheric,ecstasy of translucent musical notes,streaming musical notes visible,aesthetic,creative,surreal,beautiful,inspired,artistic,elegant,stylish,. 35mm photograph,film,bokeh,professional,4k,highly detailed,

基础模型在细节上的打磨还是差点意思,遗漏了一些细节,抽卡了很多次都出不来后边两张图的效果,感觉就是语义理解上有些问题。

不过大多数情况下,这三个模型的区别不是很大,当然如果配置够的话,建议大家使用 t5xxlfp8 的模型,和 t5xxlfp16 的语义理解以及出图效果都有的一拼,主要是省了 4G 显存。

好了,今天的分享就到这里了,感兴趣的小伙伴快去试试吧!

 最后想说

AIGC(AI Generated Content)技术,即人工智能生成内容的技术,具有非常广阔的发展前景。随着技术的不断进步,AIGC的应用范围和影响力都将显著扩大。以下是一些关于AIGC技术发展前景的预测和展望:

1、AIGC技术将使得内容创造过程更加自动化,包括文章、报告、音乐、艺术作品等。这将极大地提高内容生产的效率,降低成本。2、在游戏、电影和虚拟现实等领域,AIGC技术将能够创造更加丰富和沉浸式的体验,推动娱乐产业的创新。3、AIGC技术可以帮助设计师和创意工作者快速生成和迭代设计理念,提高创意过程的效率。

未来,AIGC技术将持续提升,同时也将与人工智能技术深度融合,在更多领域得到广泛应用。感兴趣的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程。

对于从来没有接触过AI绘画的同学,我已经帮你们准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

AIGC学习必备工具和学习步骤

工具都帮大家整理好了,安装就可直接上手

现在AI绘画还是发展初期,大家都在摸索前进。

但新事物就意味着新机会,我们普通人要做的就是抢先进场,先学会技能,这样当真正的机会来了,你才能抓得住。

如果你对AI绘画感兴趣,我可以分享我在学习过程中收集的各种教程和资料。

学完后,可以毫无问题地应对市场上绝大部分的需求。

这份AI绘画资料包整理了Stable Diffusion入门学习思维导图、Stable Diffusion安装包、120000+提示词库,800+骨骼姿势图,Stable Diffusion学习书籍手册、AI绘画视频教程、AIGC实战等等。

【Stable Diffusion安装包(含常用插件、模型)】

img

【AI绘画12000+提示词库】

img

【AI绘画800+骨骼姿势图】

img

【AI绘画视频合集】

img

还有一些已经总结好的学习笔记,可以学到不一样的思路。

实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/854629.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解禁日大涨,爱玛科技的投资前景值得信任吗?

6月17日,爱玛迎来6.28亿股、金额超190亿元的解禁,占总股本72.91%。不过,爱玛股价在巨量解禁中反而迎来涨势,因为这部分股票中,创始人张剑持有的限售股数量几乎就占了爱玛总股本的七成。某种意义上,市场认为…

Windows系统下制作Windows Server系统U盘启动及安装指导

Windows系统下制作Windows Server系统U盘启动及安装指导 一、准备工作 U盘不得小于8G(推荐使用usb3.0接口);下载好对应的系统镜像;下载RUFUS或者软通碟U盘制作启动软件; 二、Windows操作系统下制作U盘启动(这里以使用RUFUS软件…

面向对象和面向过程

Python完全采用了面向对象的思想,是真正面向对象的编程语言,完全支持面向对象的基本功能,例如:继承、多态、封装等。 Python支持面向过程、面向对象、函数式编程等多种编程方式。而Java编程语言支持面向对象的编程方式&#xff0…

基于WPF技术的换热站智能监控系统16--动态数据绑定

1、实现思路 1)实时读取到的数据绑定到前台UI控件上,这个通过MVVM模式实现,同时注意实时读取必须通过任务task异步方式,这就需要读取PLC数据。 2)UI控件的动作,如开或关水泵,必定能够将值写入…

Java基础 - 练习(一)打印等腰三角形

Java基础练习 打印等腰三角形,先上代码: public static void main(String[] args) {// 打印等腰三角形System.out.println("打印等腰三角形:");isoscelesTriangle(); } public static void isoscelesTriangle() {// for循环控制行…

ollama模型CPU轻量化部署

一、定义 ollama 定义环境部署demo加载本地模型方法基本指令关闭开启ollamaollama 如何同时 运行多个模型, 多进程ollama 如何分配gpu修改模型的存储路径 二、实现 ollama 定义 ollama 是llama-cpp 的进一步封装,更加简单易用,类似于docker. 模型网址…

【深度学习】AI换脸,EasyPhoto: Your Personal AI Photo Generator【一】

论文:https://arxiv.org/abs/2310.04672 文章目录 摘要IntroductionTraining Process3 推理过程3.1 面部预处理3.3 第二扩散阶段3.4 多用户ID 4 任意ID5 实验6 结论 下篇文章进行实战。 摘要 稳定扩散Web UI(Stable Diffusion Web UI,简称…

Linux_理解程序地址空间和页表

目录 1、进程地址空间示意图 2、验证进程地址空间的结构 3、验证进程地址空间是虚拟地址 4、页表-虚拟地址与物理地址 5、什么是进程地址空间 6、进程地址空间和页表的存在意义 6.1 原因一(效率性) 6.2 原因二(安全性) …

DOS INT 21H中断 2号功能暗改AL

注意此时AX0200,DX0057 执行INT 21H之后: 可以看到执行完“??? [BXSI]”之后,AL就变为了57H,和DL相同。 部分INT 21H功能表: 所以究竟是什么原因呢? -------------------------------------------…

MDK 代码烧录到RAM区运行

MDK 代码烧录到RAM区运行 环境配置设置分散加载文件启动文件修改设置外部调试器烧录 建立函数入口半主机问题导致BKPT 0xAB 有一个需求,除了IAR以及GCC的版本工程还需要MDK版本,为了实现最小的工程环境,flash烧录算法也没有,这时需…

【C++】:list容器的基本使用

目录 🚀前言一,list的介绍二,list的基本使用2.1 list的构造2.2 list迭代器的使用2.3 list的头插,头删,尾插和尾删2.4 list的插入和删除2.5 list 的 resize/swap/clear 🚀前言 list中的接口比较多&#xff…

SpringBootWeb 篇-入门了解 Apache POI 使用方法

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 Apache POI 概述 2.0 使用 Apache POI 读写 Excel 文件 2.1 写入 Excel 文件 2.2 写入 Excel 文件代码演示 2.3 读取 Excel 文件 2.4 读取 Excel 文件代码演示 1.…

使用Multipass编译OpenHarmony工程

Multipass 是一个轻量级虚拟机管理器,支持 Linux、Windows 与 macOS,这是为希望使用单个命令提供全新 Ubuntu 环境的开发人员而设计的。使用 Linux 上的 KVM、Windows 上的 Hyper-V 和 macOS 上的 HyperKit 来以最小的开销运行 VM,同时它还可…

【网络安全学习】使用Kali做渗透情报收集-02-<指纹识别+目录扫描>

1.指纹识别 指纹识别是指通过一些特征或特定文件来识别目标网站或系统的类型、版本、组件等信息,以便寻找相应的漏洞或攻击方法。 主动指纹识别 通过向目标系统发送正常和异常的请求以及对文件内容的查找,记录响应方式,然后与指纹库进行对比…

【系统架构设计师】一、计算机系统基础知识(指令系统|存储系统|输入输出技术|总线结构)

目录 一、指令系统 1.1 计算机指令 1.2 指令寻址方式 1.3 CISC 与 RISC 1.4 指令流水线 二、存储系统 2.1 分级存储体系 2.2 地址映射 2.3 替换算法 2.4 磁盘 2.4.1 磁盘结构和参数 2.4.2 磁盘调度算法 三、输入输出技术 四、总线结构 五、考试真题练习 一、指令…

12.1 Go 测试的概念

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

VM4.3 二次开发02 方案加载、执行及显示

效果 这是二次开发的第二个文章&#xff0c;所以不重复说明环境配置相关的内容。如果不懂的可以看本专栏的上一个文章。 海康视觉算法平台VisionMaster 4.3.0 C# 二次开发01 加载方案并获取结果-CSDN博客 界面代码 <Window x:Class"VmTestWpf.App.MainWindow"x…

element-plus的Tour 漫游式引导怎么去绑定Cascader 级联选择器

首先官方例子是用的button 官方.$el这个log出来是&#xff1a; 知道是以元素为准就拿对应的元素就行 级联选择器.$el是这样的&#xff1a; 你可以移入这个元素部分去看看是哪个要用的&#xff08;好像火狐直接放上去就可以看到元素表示&#xff0c;谷歌要双击或者右键选择去看…

手机ip地址怎么换成成都的

随着互联网的快速发展&#xff0c;我们越来越依赖于网络进行各种操作。而在某些情况下&#xff0c;为了更好地享受网络服务或保护个人隐私&#xff0c;我们可能需要改变手机的IP地址。本文将详细介绍如何将手机IP地址换成成都的&#xff0c;同时提醒大家在操作过程中需要注意的…

【AI开发】CRAG、Self-RAG、Adaptive-RAG

先放一张基础RAG的流程图 https://blog.langchain.dev/agentic-rag-with-langgraph/ 再放一个CRAG和self-RAG的LangChain官方博客 Corrective RAG(CRAG) 首先需要知道的是CRAG的特色发生在retrieval阶段的最后开始&#xff0c;即当我们获得到了近似的document&#xff08;或者…