Stable Diffusion vs DALL·E3

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

Stability AI最近因正式开源 Stable Diffusion 3 Medium而成为头条新闻,这是一种图像生成模型,在大多数情况下,该模型在生成更复杂和更具视觉吸引力的细节方面优于其前身 SD2。此外,它展示了对冗长提示的理解力,然而,尽管有这些进步,SD3在人体生成方面还是会存在一些缺陷,经常产生怪诞的图片。

Stability AI在一份官方声明中表示:“Stable Diffusion 3 Medium是Stability AI迄今为止最先进的文本到图像开放模型,包含20亿个参数,该模型的较小尺寸使其非常适合在消费类PC和笔记本电脑以及企业级GPU上运行。它的尺寸合适,可以成为文本到图像模型的下一个标准。

SD3的主要功能包括照片级真实感、及时遵守、排版、资源效率和微调功能。它克服了手部和面部的常见伪影,无需复杂的工作流程即可提供高质量的图像。

扩散模型

Stable Diffusion和DALL·E3是目前可用的两个最好的AI图像生成模型,它们的工作方式大致相同。这两个模型都是在数百万或数十亿个文本-图像对上训练的。这使他们能够理解狗、猎鹿者帽子和黑暗的喜怒无常的灯光等概念,这也是他们如何理解像“一幅梵高派画作,一个道长倒骑着毛驴,边抽着旱烟,边路过一片白桦林”这样的提示,然后创作出对应的图像。

对于图像生成,Stable Diffusion和DALL·E3都依赖于称为扩散的过程。图像生成器从随机的噪声场开始,然后通过一系列步骤对其进行编辑以匹配对应的提示。

扩散模型通过添加噪音平滑地扰动数据,然后反向这一过程以从噪音中生成新数据。在反向过程中的每个去噪步骤通常需要估计得分函数(见右侧示意图),该函数的梯度优化是朝着可能性更高且噪音更少的方向行进。

尽管这两种型号具有相似的技术基础,但它们之间存在很多差异。Stability AI(Stable Diffusion的制造商)和OpenAI(DALL·E3)对人工智能工具的工作方式存在不同的哲学认知,包括采用的训练数据集也不一致,并在此训练过程中做了不同的设计和决策。

DALL·E3只能通过 ChatGPT、Bing Image Creator、Microsoft Paint 和其他使用其 API 的服务使用。Stable Diffusion是开源模型,可以通过 Stability AI的DreamStudio应用程序(或者以更基本的形式,通过 Clipdrop)访问它,但您也可以下载最新版本的 Stable Diffusion,将其安装在您自己的计算机上,甚至可以根据定制化的数据对其进行训练。

能力不先上下

Stable Diffusion和DALL·E3能够生成令人难以置信的 AI 生成的图像。实际上,这两种模式在客观上,甚至在主观上都不比另一种模式好。至少不是一致的。

如果被迫强调模型的不同之处,使用过的读者都会深有感触Stable Diffusion 倾向于更逼真的图像,尽管它可能会巧妙地弄乱面部等内容,而 DALL·E3使事物看起来更抽象或计算机生成。DALL·E3感觉“对齐”更好,因此会看到不那么刻板的结果。DALL·E3有时可以从较短的提示中产生比 Stable Diffusion更好的结果。

DALL·E3使用起来非常简单。打开 ChatGPT,只要是ChatGPT Plus的订阅者,就可以聊天并提出请求。若需要一点灵感,甚至可以尝试不同的想法和风格的建议。若不是ChatGPT Plus的订阅者,仍然可以查看DALL·E 2,它有更多的编辑选项。

当然还可以尝试通过Bing Chat或Microsoft Image Creator去感受DALL·E3。

开箱即用方面,Stable Diffusion的用户友好性稍差,这里还有更多读者不知道的复杂的选项。例如:可以选择一种样式(增强、动漫、摄影、数字艺术、漫画书、奇幻艺术、模拟电影、霓虹朋克、等距、低多边形、折纸、线条艺术、工艺粘土、电影、3D模型或像素艺术)。还有两个提示框:一个用于常规提示,另一个用于否定提示,即不希望在图像中看到的内容。您甚至可以将图像用作提示的一部分。当然,安装和训练定制化的Stable Diffusion是完全不同的事情,并且需要更多的技术知识。

“对于SD3 Medium(20 亿个参数),我们建议使用16GB的GPU VRAM以获得更高的速度,但 VRAM 较低的人仍然可以使用至少5GB的GPU VRAM运行它,”。该公司补充说:“SD3具有模块化结构,允许它与所有3个文本编码器、3个文本编码器的较小版本或仅与其中的一个子集一起使用。大部分VRAM用于文本编码器。也有可能在CPU中运行最大的文本编码器,即T5-XXL。

Stable Diffusion(在除 Clipdrop 之外的每次迭代中)为用户提供更多选项和控制。正如上面提到的,可以设置步数、初始种子和提示强度,并且可以进行否定提示,所有这些都在 DreamStudio Web 应用程序中完成。若想构建一个基于特定数据(例如自己的脸部、徽标或其他任何东西)进行定制训练的生成式 AI,使用Stable Diffusion更容易做到。后续小编将带来两者之间的技术差异的专题报道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/28172.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络编程(五)IO模型

文章目录 一、 阻塞IO(一)阻塞IO模式(二)示例 二、非阻塞IO(一)特点(二)fcntl(三)示例 三、IO多路复用(一)实现原理(二&am…

基于System-Verilog的流水灯设计与仿真

文章目录 一、system Verilog1.语言基本介绍2.过程赋值和连续赋值 二、编写testbench仿真1.流水灯testbench2.2位全加器3.实验结果 一、system Verilog 1.语言基本介绍 像 Verilog 和 VHDL 之类的硬件描述语言 (HDL) 主要用于描述硬件行为,以便将其转换为由组合门…

【实用技巧】Unity中的3D物理系统:刚体——使用技巧

在使用Unity的3D物理系统中的刚体(Rigidbody)时,有一些技巧可以帮助你更有效地实现物理效果和优化性能。以下是一些使用刚体的技巧: 合理使用Is Kinematic属性: 对于那些不需要物理计算的对象,比如玩家控制…

海底管缆先敷后埋与边敷边埋有什么区别?

海缆铺设有两种方式:“边敷边埋”和“先敷后埋”。 “边敷边埋”冲埋式埋设犁施工法———通过埋设犁(水力开沟机)泵送高压水,在海底冲出一条沟槽的同时,将海缆平铺下去,然后利用在潮汐作用下海床面自行回填(必要时采取压盖保护施工)。主要施…

[linux]如何跟踪linux 内核运行的流程呢

前面已经可以把内核编译出来,但是作为技术狗想看到内核是怎么运行的怎么办? 内核很多代码都是C语言写的,那简单,添加2行代码: include/linux/printk.h 529和530原来的: #define pr_info(fmt, ...) \ …

python查看包的版本

在Python中,有多种方法可以查看已安装包的版本。以下是几种常用的方法: 使用pip命令: 在命令行或终端中,你可以使用pip命令来查看已安装包的版本。例如,要查看numpy的版本,可以运行: pip show numpy这将显示numpy包的详细信息,包括版本号。 如果你使用的是pip3(对应于…

vue input 限制输入,小数点后保留两位 以及 图片垂直居中显示 和 分享 git 小技巧

&#xff08;1&#xff09;input 限制输入&#xff0c;小数点后保留两位 <template><div><el-input v-model"number" input"checkNumber" blur"completeNumber" placeholder"请输入"></el-input></div>…

解析如何在vue3中使用Element-UI组件以及main.js文件

关于vue的环境配置在前文《Vue3项目——配置vue环境和构建一个vue项目》有讲。 配置Vue项目 今天我们配置vue项目时&#xff0c;直接勾选Default即可。 安装Element-UI组件库 首先是对Element-UI组件的安装&#xff0c;正常安装的命令为 npm install element-ui --save但是…

文章解读与仿真程序复现思路——电工技术学报EI\CSCD\北大核心《计及台风时空特性和灵活性资源协同优化的配电网弹性提升策略》

本专栏栏目提供文章与程序复现思路&#xff0c;具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

78、区间选点

区间选点 题目描述 给定N个闭区间[ai,bi]&#xff0c;请你在数轴上选择尽量少的点&#xff0c;使得每个区间内至少包含一个选出的点。 输出选择的点的最小数量。 位于区间端点上的点也算作区间内。 输入格式 第一行包含整数N&#xff0c;表示区间数。 接下来N行&#xf…

鸿蒙轻内核M核源码分析系列二一 03 文件系统LittleFS

2.2 文件信息数组操作 函数LfsAllocFd()设置文件信息数组元素信息。参数fileName为文件路径信息&#xff0c;传出参数fd为文件描述符即数组索引。遍历文件信息数组&#xff0c;遍历到第一个未使用的元素标记其为已使用状态&#xff0c;设置文件路径信息&#xff0c;把数组索引…

【LeetCode最详尽解答】167-两数之和 II-输入有序数组 Two-Sum-II-Input-Array-Is-Sorted

欢迎收藏Star我的Machine Learning Blog:https://github.com/purepisces/Wenqing-Machine_Learning_Blog。如果收藏star, 有问题可以随时与我交流, 谢谢大家&#xff01; 链接&#xff1a; 167-两数之和 II-输入有序数组 直觉 这是一个典型的双指针问题。 输入&#xff1a…

gbase8s数据库阻塞检查点和非阻塞检查点的执行机制

1. 检查点的描述 为了便于数据库系统的复原和逻辑恢复&#xff0c;数据库服务器生成的一致性标志点&#xff0c;称为检查点&#xff0c;其是建立在数据库系统的已知和一致状态时日志中的某个时间点检查点的目的在于定期将逻辑日志中的重新启动点向前移动 如果存在检查点&#…

HTML DOM 对象

HTML DOM 对象 1. 概述 HTML DOM(文档对象模型)是一个跨平台和语言独立的接口,它允许程序和脚本动态地访问和更新文档的内容、结构和样式。在HTML DOM中,文档被表示为节点树,其中每个节点代表文档中的一个部分,例如元素、文本或属性。HTML DOM对象是构成这个节点树的基…

Windows 服务器Nginx 下载、部署、配置流程(图文教程)

不定期更新 目录 一、下载Nginx安装包 二、上传安装包 三、启动Nginx 四、Nginx常用命令 五、Nginx&#xff08;最小&#xff09;配置详解 六、Nginx&#xff08;基础&#xff09;配置详解 七、反向代理 八、负载均衡 九、动静分离 十、报错 一、下载Nginx安装包 四…

【源码】综合股票币币合约交易所源码/etf交易所源码/美股港股台股交易所源码

支持多国语言 全开源可二开的一个版本&#xff01;支持虚拟货币 ETF 外汇 美股 A股 港股 台股。 前端是VUE开发&#xff08;带vue工程源码&#xff09;后端JAVA开发&#xff01;搭建也相对简单。 总的来说功能非常强大&#xff0c;适合线上运营的一个版本&#xff0c;有兴趣的可…

(53)MOS管专题--->(08)MOS管N沟道MOS管

(08)MOS管N沟道MOS管 1 目录 (a)IC简介 (b)数字IC设计流程 (c)Verilog简介 (d)MOS管N沟道MOS管 (e)结束 1 IC简介 (a)在IC设计中,设计师使用电路设计工具(如EDA软件)来设计和模拟各种电路,例如逻辑电路、模拟电路、数字信号处理电路等。然后,根据设…

【因果推断python】38_预测模型1

目录 工业界中的机器学习 之前的部分涵盖了因果推理的核心。那里的技术是众所周知和成熟的。他们经受住了时间的考验。第一部分建立了我们可以依赖的坚实基础。用更专业的术语来说&#xff0c;第一部分侧重于定义什么是因果推理&#xff0c;哪些偏差会阻止相关性成为因果关系&…

支付数据安全

支付数据安全是确保支付系统和用户信息安全的关键环节&#xff0c;以下是一些可以采取的措施来增强支付数据的安全性&#xff1a; 数据加密&#xff1a;使用强加密算法来保护存储和传输中的支付数据&#xff0c;确保即使数据被截获也无法被未授权者读取[26]。 使用安全的通信协…

自定义防抖注解

问题场景 在开发中由于可能存在的网络波动问题导致用户重复提交&#xff0c;所以自定义一个防抖注解。设计思路&#xff1a;自定义注解加在接口的方法上&#xff0c;注解中设置了SPEL表达式&#xff0c;可以通过SPEL表达式从接口参数中提取Redis的Key&#xff0c;以这个Key作为…