Stable Diffusion vs DALL·E3

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

Stability AI最近因正式开源 Stable Diffusion 3 Medium而成为头条新闻,这是一种图像生成模型,在大多数情况下,该模型在生成更复杂和更具视觉吸引力的细节方面优于其前身 SD2。此外,它展示了对冗长提示的理解力,然而,尽管有这些进步,SD3在人体生成方面还是会存在一些缺陷,经常产生怪诞的图片。

Stability AI在一份官方声明中表示:“Stable Diffusion 3 Medium是Stability AI迄今为止最先进的文本到图像开放模型,包含20亿个参数,该模型的较小尺寸使其非常适合在消费类PC和笔记本电脑以及企业级GPU上运行。它的尺寸合适,可以成为文本到图像模型的下一个标准。

SD3的主要功能包括照片级真实感、及时遵守、排版、资源效率和微调功能。它克服了手部和面部的常见伪影,无需复杂的工作流程即可提供高质量的图像。

扩散模型

Stable Diffusion和DALL·E3是目前可用的两个最好的AI图像生成模型,它们的工作方式大致相同。这两个模型都是在数百万或数十亿个文本-图像对上训练的。这使他们能够理解狗、猎鹿者帽子和黑暗的喜怒无常的灯光等概念,这也是他们如何理解像“一幅梵高派画作,一个道长倒骑着毛驴,边抽着旱烟,边路过一片白桦林”这样的提示,然后创作出对应的图像。

对于图像生成,Stable Diffusion和DALL·E3都依赖于称为扩散的过程。图像生成器从随机的噪声场开始,然后通过一系列步骤对其进行编辑以匹配对应的提示。

扩散模型通过添加噪音平滑地扰动数据,然后反向这一过程以从噪音中生成新数据。在反向过程中的每个去噪步骤通常需要估计得分函数(见右侧示意图),该函数的梯度优化是朝着可能性更高且噪音更少的方向行进。

尽管这两种型号具有相似的技术基础,但它们之间存在很多差异。Stability AI(Stable Diffusion的制造商)和OpenAI(DALL·E3)对人工智能工具的工作方式存在不同的哲学认知,包括采用的训练数据集也不一致,并在此训练过程中做了不同的设计和决策。

DALL·E3只能通过 ChatGPT、Bing Image Creator、Microsoft Paint 和其他使用其 API 的服务使用。Stable Diffusion是开源模型,可以通过 Stability AI的DreamStudio应用程序(或者以更基本的形式,通过 Clipdrop)访问它,但您也可以下载最新版本的 Stable Diffusion,将其安装在您自己的计算机上,甚至可以根据定制化的数据对其进行训练。

能力不先上下

Stable Diffusion和DALL·E3能够生成令人难以置信的 AI 生成的图像。实际上,这两种模式在客观上,甚至在主观上都不比另一种模式好。至少不是一致的。

如果被迫强调模型的不同之处,使用过的读者都会深有感触Stable Diffusion 倾向于更逼真的图像,尽管它可能会巧妙地弄乱面部等内容,而 DALL·E3使事物看起来更抽象或计算机生成。DALL·E3感觉“对齐”更好,因此会看到不那么刻板的结果。DALL·E3有时可以从较短的提示中产生比 Stable Diffusion更好的结果。

DALL·E3使用起来非常简单。打开 ChatGPT,只要是ChatGPT Plus的订阅者,就可以聊天并提出请求。若需要一点灵感,甚至可以尝试不同的想法和风格的建议。若不是ChatGPT Plus的订阅者,仍然可以查看DALL·E 2,它有更多的编辑选项。

当然还可以尝试通过Bing Chat或Microsoft Image Creator去感受DALL·E3。

开箱即用方面,Stable Diffusion的用户友好性稍差,这里还有更多读者不知道的复杂的选项。例如:可以选择一种样式(增强、动漫、摄影、数字艺术、漫画书、奇幻艺术、模拟电影、霓虹朋克、等距、低多边形、折纸、线条艺术、工艺粘土、电影、3D模型或像素艺术)。还有两个提示框:一个用于常规提示,另一个用于否定提示,即不希望在图像中看到的内容。您甚至可以将图像用作提示的一部分。当然,安装和训练定制化的Stable Diffusion是完全不同的事情,并且需要更多的技术知识。

“对于SD3 Medium(20 亿个参数),我们建议使用16GB的GPU VRAM以获得更高的速度,但 VRAM 较低的人仍然可以使用至少5GB的GPU VRAM运行它,”。该公司补充说:“SD3具有模块化结构,允许它与所有3个文本编码器、3个文本编码器的较小版本或仅与其中的一个子集一起使用。大部分VRAM用于文本编码器。也有可能在CPU中运行最大的文本编码器,即T5-XXL。

Stable Diffusion(在除 Clipdrop 之外的每次迭代中)为用户提供更多选项和控制。正如上面提到的,可以设置步数、初始种子和提示强度,并且可以进行否定提示,所有这些都在 DreamStudio Web 应用程序中完成。若想构建一个基于特定数据(例如自己的脸部、徽标或其他任何东西)进行定制训练的生成式 AI,使用Stable Diffusion更容易做到。后续小编将带来两者之间的技术差异的专题报道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/28172.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于System-Verilog的流水灯设计与仿真

文章目录 一、system Verilog1.语言基本介绍2.过程赋值和连续赋值 二、编写testbench仿真1.流水灯testbench2.2位全加器3.实验结果 一、system Verilog 1.语言基本介绍 像 Verilog 和 VHDL 之类的硬件描述语言 (HDL) 主要用于描述硬件行为,以便将其转换为由组合门…

海底管缆先敷后埋与边敷边埋有什么区别?

海缆铺设有两种方式:“边敷边埋”和“先敷后埋”。 “边敷边埋”冲埋式埋设犁施工法———通过埋设犁(水力开沟机)泵送高压水,在海底冲出一条沟槽的同时,将海缆平铺下去,然后利用在潮汐作用下海床面自行回填(必要时采取压盖保护施工)。主要施…

[linux]如何跟踪linux 内核运行的流程呢

前面已经可以把内核编译出来,但是作为技术狗想看到内核是怎么运行的怎么办? 内核很多代码都是C语言写的,那简单,添加2行代码: include/linux/printk.h 529和530原来的: #define pr_info(fmt, ...) \ …

vue input 限制输入,小数点后保留两位 以及 图片垂直居中显示 和 分享 git 小技巧

&#xff08;1&#xff09;input 限制输入&#xff0c;小数点后保留两位 <template><div><el-input v-model"number" input"checkNumber" blur"completeNumber" placeholder"请输入"></el-input></div>…

文章解读与仿真程序复现思路——电工技术学报EI\CSCD\北大核心《计及台风时空特性和灵活性资源协同优化的配电网弹性提升策略》

本专栏栏目提供文章与程序复现思路&#xff0c;具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

鸿蒙轻内核M核源码分析系列二一 03 文件系统LittleFS

2.2 文件信息数组操作 函数LfsAllocFd()设置文件信息数组元素信息。参数fileName为文件路径信息&#xff0c;传出参数fd为文件描述符即数组索引。遍历文件信息数组&#xff0c;遍历到第一个未使用的元素标记其为已使用状态&#xff0c;设置文件路径信息&#xff0c;把数组索引…

gbase8s数据库阻塞检查点和非阻塞检查点的执行机制

1. 检查点的描述 为了便于数据库系统的复原和逻辑恢复&#xff0c;数据库服务器生成的一致性标志点&#xff0c;称为检查点&#xff0c;其是建立在数据库系统的已知和一致状态时日志中的某个时间点检查点的目的在于定期将逻辑日志中的重新启动点向前移动 如果存在检查点&#…

Windows 服务器Nginx 下载、部署、配置流程(图文教程)

不定期更新 目录 一、下载Nginx安装包 二、上传安装包 三、启动Nginx 四、Nginx常用命令 五、Nginx&#xff08;最小&#xff09;配置详解 六、Nginx&#xff08;基础&#xff09;配置详解 七、反向代理 八、负载均衡 九、动静分离 十、报错 一、下载Nginx安装包 四…

【源码】综合股票币币合约交易所源码/etf交易所源码/美股港股台股交易所源码

支持多国语言 全开源可二开的一个版本&#xff01;支持虚拟货币 ETF 外汇 美股 A股 港股 台股。 前端是VUE开发&#xff08;带vue工程源码&#xff09;后端JAVA开发&#xff01;搭建也相对简单。 总的来说功能非常强大&#xff0c;适合线上运营的一个版本&#xff0c;有兴趣的可…

【因果推断python】38_预测模型1

目录 工业界中的机器学习 之前的部分涵盖了因果推理的核心。那里的技术是众所周知和成熟的。他们经受住了时间的考验。第一部分建立了我们可以依赖的坚实基础。用更专业的术语来说&#xff0c;第一部分侧重于定义什么是因果推理&#xff0c;哪些偏差会阻止相关性成为因果关系&…

Techo TVP技术 沙龙

Techo TVP技术 沙龙 今天参加了 在上海 徐汇 腾讯云大厦 举办的 Techo TVP 技术沙龙&#xff08;主要介绍 AI agent 让我感受很深&#xff09; &#xff0c;那什么是 AI Agent呢&#xff1f; 是一个智能体&#xff0c;由大语言模型驱动&#xff0c;具有自主理解、感知、规划、…

MISSING COURSE-shell

shell 01 what is the shell q: linux如何操作计算机硬件cpu 内存 磁盘 显示器等 a:使用linux的内核操作 1.shell -is命令 shell通过编写shell命令 发送给linux内核 去执行 操作就是计算机硬件 so shell 是用户操作计算机 类似于windows里的dos命令 shell是一门程序设计语言…

《分析模式》漫谈03- Unified Method并不是RUP

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 在《分析模式》第2章 &#xff0c;Fowler提到了“Rational Softwares Unified Method”&#xff0c; 而且给出了引用的参考文献&#xff0c;是Rational公司的一份文档&#xff1a; 200…

数字电路中二进制的数据表达

文章目录 1. 二进制数据表达 1.1 二进制简介 1.2 用二进制表达文字 1.2.1 最开始的表达方式 1.2.2 通讯系统的编码和解码 1.2.3 集成电路 1.2.4 ASCII编码 1.2.5 GBK编码 1.2.6 Unicode编码 2. 用二进制表达图像 2.1 图片像素化 2.2 像素数字化 2.3 二值图像 2.4…

Git冲突解决指南:如何优雅地解决代码合并冲突

在团队协作开发中&#xff0c;使用版本控制系统Git是非常常见的。然而&#xff0c;在多人同时对同一文件进行修改时&#xff0c;就可能出现代码合并冲突。这时就需要我们学会如何优雅地解决这些冲突&#xff0c;保证代码的完整性和质量。本文将为您介绍Git冲突解决的基本原则和…

string类的使用手册

1.构造函数 补充&#xff1a;npos&#xff1a;size_t类型数据的最大值 default (1) string(); 构造空的string类对象 copy (2) string (const string& str); 拷贝构造函数&#xff08;深拷贝&#xff09; substring (3) string (const string& str, size_t pos, size_…

自动化测试火狐下载文件

本篇文章介绍selenium中火狐浏览器如何下载文件。比如我想把这个MP4的视频文件下载下来。 点击之后查看下载的类型是video/mp4 指定使用火狐浏览器 profile webdriver.FirefoxOptions() # 设置firefox默认的下载路径&#xff0c;0表示桌面&#xff0c;1表示我的下载&#xf…

Qt自定义日志输出

Qt自定义日志输出 简略版&#xff1a; #include <QApplication> #include <QDebug> #include <QDateTime> #include <QFileInfo> // 将日志类型转换为字符串 QString typeToString(QtMsgType type) {switch (type) {case QtDebugMsg: return "D…

Mysql的联合索引

一、前言 上一篇中已经讲过了索引相关的知识&#xff0c;为什么还要在讲一下联合索引&#xff08;二级索引&#xff09;&#xff0c;是因为这个知识点特别重要&#xff0c;不论是在面试中&#xff0c;还是在实际的使用过程中&#xff0c;理解和掌握联合索引&#xff0c;是我们…

回归预测 | Matlab实现GWO-ESN基于灰狼算法优化回声状态网络的多输入单输出回归预测

回归预测 | Matlab实现GWO-ESN基于灰狼算法优化回声状态网络的多输入单输出回归预测 目录 回归预测 | Matlab实现GWO-ESN基于灰狼算法优化回声状态网络的多输入单输出回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现GWO-ESN基于灰狼算法优化回声状态…