稳定扩散AI 纹理生成器

推荐基于稳定扩散(stable diffusion) AI 模型开发的自动纹理工具: DreamTexture.js自动纹理化开发包 - NSDT

什么是稳定扩散?

从技术上讲,Stable Diffusion 是一种用于机器学习的潜在扩散模型 (LDM)。这种类型的专用深度学习模型使用概率分布来生成在统计上与模型训练数据相似的输出。

除了生成新图像外,Stable Diffusion 还可用于修复或修复现有图像中的元素,以及图像到图像的转换。

  • 修复是填充图像中缺失或损坏部分的过程。它是图像恢复和编辑中的常见任务,可用于从图像中删除对象、修复损坏的照片或完成不完整的图像。
  • Outpainting 是将图像扩展到其原始边界之外的过程。它可用于创建更大的图像、向图像添加新元素或更改图像的纵横比。
  • 图像到图像转换是将输入图像映射到输出图像的过程。它可用于更改图像的艺术风格、更改图像中对象的外观或通过增加对比度或颜色密度来提高图像质量。

稳定扩散如何工作?

Stable Diffusion 最初是在从互联网上抓取的人类标记图像上训练的。该模型学会了如何通过使用一种称为人类反馈强化学习 (RLHF) 的技术来改进其输出。

在初始训练阶段,基础模型的任务是分析标记训练数据中潜在变量的概率分布。潜在变量捕获训练图像的底层结构和细节,并允许模型了解特定图像与人类创建的文本标签匹配的可能性。

Stable Diffusion 的工作原理是将扩散滤波器应用于随机像素的图像,该图像对相邻像素的值进行平均。在深度学习过程的每次迭代期间,过滤器都会从图像中去除更多噪点,直到剩余像素在统计上与提供的文本描述匹配。

基础模型的最新版本 SDXL 1.0 于 2023 年 3 月发布。据说它已经用 5 亿个参数和数千个超参数进行了训练。根据 Stability AI 网站的说法,该模型之所以运行得如此之好,是因为它在发布前进行了大规模测试,有超过 10,000 名 beta 测试人员平均每天创建 1 万张图像。

下面是使用文本提示“灰松鼠嗅黄花”创建的稳定扩散图像的示例。

稳定的扩散生成松鼠嗅花的图像。

来源:DreamStudio.ai

下面是使用文本提示“折纸灰松鼠嗅黄色花朵”创建的稳定扩散图像示例。

折纸灰松鼠嗅黄色的花

来源:DreamStudio.ai

稳定扩散与 DALL-E,Midjourney 相比

Stable Diffusion 经常被拿来与 DALL-E 相提并论,DALL-E 是由 ChatGPT 的创造者 Open AI 开发的专有生成式 AI 图像应用程序。

虽然这两个 AI 模型都是在大量图像数据上训练的,并且都能够生成有用的图像,但 DALL-E 是一种条件扩散模型,它使用外部信息来指导图像生成过程。用户的提示为模型提供了有关生成的图像应类似于或包含的内容的具体指导。

相比之下,Stable Diffusion 是一种开源的潜在扩散模型,它使用文本或图像提示对所需图像的潜在表示进行编码。潜在表示指导扩散过程,以确保生成的图像在统计上与用户的提示相似。

Midjourney 是一种专有的潜在扩散模型,用于生成图像。它只能通过付费订阅获得。没有免费或免费增值版本可供个人使用。

历史

Stable Diffusion 于 2022 年首次发布,由一家相对较新的研发 (R&D) 公司 Stability AI 资助。

该公司与 Amazon Web Services (AWS) 的合作使开发人员能够访问 Ezra-1 UltraCluster 超级计算机,并为 Stability AI 提供了开发用于图像、音乐和代码生成的复杂人工智能 (AI) 模型所需的处理能力。

Stability AI 的既定使命是“让 AI 更易于访问和包容”。然而,在 2023 年 <> 月,一些媒体报道称,用户被禁止在 Google Cloud Platform (GCP) 上运行 Stable Diffusion。

谷歌集团产品经理克里斯·佩里(Chris Perry)在推特上回应说,该公司没有禁止生成式人工智能应用程序,但他们确实对免费账户进行了限制,因为Stable Diffusion已经变得如此受欢迎。Stability AI创始人穆罕默德·埃马德·莫斯塔克(Mohammad Emad Mostaque)在推特上表示,他认为这一决定是公平的。

如何使用稳定扩散

可以通过访问 Stability AI 网站或使用 DreamStudio 或 Clipdrop 免费访问和试用 Stable Diffusion。DreamTexture.js自动纹理化开发包 使用 Stable Diffusion 应用程序编程接口 (API)可用于webGL应用3D模型AI自动纹理化工具。

要使用 Stable Diffusion,请按照下列步骤操作:

  1. 打开 Stable Diffusion 用户界面。
  2. 输入描述图像的文本提示,或上传图像并输入有关如何更改图像的文本提示。
  3. 单击“生成”按钮,根据文本提示生成少量图像。
  4. 如果需要,可以调整文本提示和模型的潜在变量,以控制输出的各个方面,例如样式、内容或主题。
  5. 模型生成所需结果后,将其保存在本地以备将来使用。

使用稳定扩散的 3 个技巧

  • 创建文本提示时要具体。这可以说是使用Stable Diffusion最困难的方面。文本提示越具体,输出效果越好。如果模型的初始输出不是最优的,请考虑使用更具体的提示再次启动该过程。
  • 使用否定提示从模型的输出中排除特定元素。例如,要生成不戴帽子的牛仔图像,请使用否定提示“不戴帽子”。
  • 如果模型在本地运行,请考虑使用较小的数据集对其进行微调,以满足特定的创意需求。

在本地运行稳定的扩散

为了避免为大规模使用 Stable Diffusion 付费,同意 Stability AI 可接受使用政策 (AUP) 的技术娴熟用户可以在具有至少 7GB 视频随机存取内存 (VRAM) 的显卡的商用台式计算机上本地安装 LDM 模型。

在不久的将来,Stability AI 预计将发布其 LDM 模型的优化版本,以提高模型性能和输出质量。他们还计划发布一些版本,使 Stable Diffusion 能够在 AMD、Macbook M1/M2 和其他芯片组上运行。(目前,建议使用NVIDIA芯片。

对于想要大规模生成免费图像、离线生成图像、保持图像私密性或微调 Stable Diffusion 输出以满足特定用例的用户来说,在本地运行 Stable Diffusion 是一个不错的选择。

例如,开发人员可以在本地运行 Stable Diffusion,为他们正在开发的游戏生成纹理和图像。

如何安装稳定扩散

在用户访问 Stability.ai 网站并验证其计算机满足最新的最低要求后,他们将需要下载并安装 Python 和 Git。他们还需要在 Hugging Face 创建一个免费帐户以获取模型重量,然后按照以下步骤操作:

步骤1: 要获取 Stable Diffusion 项目文件,请访问此项目的 GitHub 页面。在右上角,找到并单击绿色的“代码”按钮。从下拉菜单中,选择“下载 ZIP”。下载后,解压缩ZIP文件内容。此操作将创建一个名为“stable-diffusion-webui-master”的文件夹。若要简化安装,请将整个文件夹(以及所有提取的文件)复制到主机的 C: 驱动器的根目录。

步骤2:访问 Hugging Face 网站并搜索或浏览“768-v-ema.ckpt”文件的下载链接。此文件非常大,因此在下载过程中预计会有很多等待时间。下载完成后,导航到以下位置:“C:\stable-diffusion-webui-master\models\Stable-diffusion”。在此文件夹中,找到一个名为“在此处放置稳定扩散检查点 .txt”的文件并插入“768-v-ema.ckpt”文件。

第 3 步:在从 GitHub 下载的 ZIP 文件中找到配置 YAML 文件。导航到“C:\stable-diffusion-webui-master\models\Stable-diffusion”文件夹并将 YAML 文件保存在那里。将文件名更改为“768-v-ema.yaml”,同时保留“.yaml”扩展名。

第 4 步:移动到“stable-diffusion-webui-master”文件夹并运行“webui-user.bat”文件。等待几分钟。命令窗口最终应显示一条消息,内容为:“在本地 URL 上运行”,后跟包含本地计算机的 IP 地址和端口号的 URL。将整个 URL(包括端口号)复制并粘贴到 Web 浏览器中。此操作将打开 Stable Diffusion 应用程序。

第 5 步:出现提示时输入所需图像的描述。(可选)在“否定提示”框中指定要排除的任何文本。调整参数,根据需要修改批次计数和大小,然后单击“生成”按钮。然后,应用程序将根据提供的输入显示请求的图像数量。

许可

Stable Diffusion 根据 CreativeML Open RAIL-M 许可证获得许可,该许可证允许将模型及其输出用于商业和非商业用途。

需要注意的是,该许可证不涵盖可用于生成具有 Stable Diffusion 的图像的任何基础材料的版权。

这意味着,如果通过添加或替换图像中的元素(上漆)、扩展以使图像变大(上漆)或使其类似于梵高的画作(图像到图像的翻译)来更改受版权保护的照片,则新生成的图像的版权仍属于原始照片的版权所有者。

 转载:稳定扩散AI 纹理生成器 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/138162.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【dbeaver】添加mysql高低版本选择驱动

添加mysql高低版本选择驱动 连接到数据库->全部->查询mysql MySQL 版本驱动 8.0 MySQL 5 版本驱动 5.7.x 其他需要就&#xff1a;https://downloads.mysql.com/archives/c-j/ 密码查看 项目设置密码&#xff1a; File -> Project security ->设置密码 It i…

Ubuntu 22.04 安装水星无线 USB 网卡

我的 USB 网卡是水星 Mercury 的&#xff0c; 在 Ubuntu 22.04 下面没有自动识别。 没有无线网卡的时候只能用有线接到路由器上&#xff0c;非常不方便。 寻思着把无线网卡驱动装好。折腾了几个小时装好了驱动。 1.检查网卡类型 & 安装驱动 使用 lsusb 看到的不一定是准确…

法治智能起航 | 拓世法宝AI智慧政务一体机重塑法治格局,开启智能司法新篇章

在科技的巨轮推动下&#xff0c;我们的社会正快速迈向一个以数据和智能为核心的新时代。在这个波澜壮阔的变革中&#xff0c;人工智能&#xff08;AI&#xff09;显得尤为突出&#xff0c;它不仅是科技进步的象征&#xff0c;更是未来发展的助力者。 2023年&#xff0c;最高人…

医学影像系统源码(MRI、CT三维重建)

一、MRI概述 核磁共振成像&#xff08;英语&#xff1a;Nuclear Magnetic Resonance Imaging&#xff0c;简称NMRI&#xff09;&#xff0c;又称自旋成像&#xff08;英语&#xff1a;spin imaging&#xff09;&#xff0c;也称磁共振成像&#xff08;Magnetic Resonance Imag…

Labview利用声卡捕获波形

一般的计算机上自带的声卡&#xff0c;均既有A/D功能&#xff0c;又有D/A功能&#xff0c;就是一款具备基本配置的数据采集卡&#xff0c;并且技术成熟&#xff0c;性能稳定。 后台如下&#xff1a;

【Word自定义配置,超简单,图文并茂】自定义Word中的默认配置,比如标题大小与颜色(参考科研作图配色),正文字体等

▚ 01 自定义样式Styles中的默认标题模板 &#x1f4e2;自定义标题的显示效果&#xff0c;如下图所示&#xff1a; 1.1 自定义标题的模板Normal.dotm 1.1.1 选择所需修改的标题 新建一个空白Word文档&#xff0c;依次选择菜单栏的开始Home&#xff0c;样式Styles&#xff0c;…

光刻掩膜版怎么制作的?

光掩膜版基本上是 IC 设计的“主模板”。掩模版有不同的尺寸。常见尺寸为 6 x 6 英寸一般的掩膜版由石英或玻璃基板组成。光掩膜版涂有不透明薄膜。更复杂的掩模版使用其他材料。 一般来说&#xff0c;术语“photo mask”用于描述与 1X 步进机或光刻系统一起使用的“主模板”。…

Ubuntu 安装常见问题

1. 安装oh my zsh 搜狗输入法不能用 vim /etc/environmentexport XIM_PROGRAMfcitx export XIMfcitx export GTK_IM_MODULEfcitx export QT_IM_MODULEfcitx export XMODIFIERS“imfcitx” export LANG“zh_CN.UTF-8”配置完后重启&#xff0c;稍等一会&#xff0c;右上角会有个…

Windows下Python及Anaconda的安装与设置之保姆指南

学习Python编程需要安装基本的开发环境。 &#xff08;1&#xff09;python ——编译器&#xff1b;这个是任何语言都需要的&#xff1b;必需&#xff01; &#xff08;2&#xff09;Anaconda ——主要的辅助工具&#xff0c;号称是 Python‘OS&#xff1b;必需&#xff01; …

python机器学习——随机森林

随机森林 随机森林&#xff08;Random Forest&#xff09;是一种集成学习方法&#xff0c;它通过构建多个决策树并结合它们的预测结果来进行分类或回归。 算法原理&#xff1a; 决策树&#xff08;Decision Tree&#xff09;: 随机森林由多个决策树组成。决策树是一种基于树…

Pytorch实战教程(一)-神经网络与模型训练

0. 前言 人工神经网络 (Artificial Neural Network, ANN) 是一种监督学习算法,其灵感来自人类大脑的运作方式。类似于人脑中神经元连接和激活的方式,神经网络接受输入,通过某些函数在网络中进行传递,导致某些后续神经元被激活,从而产生输出。函数越复杂,网络对于输入的数…

云架构师学习------腾讯云通识-存储与数据库

云架构师学习------腾讯云通识-存储与数据库 云架构师学习------腾讯云通识-存储与数据库存储基础存储服务对象存储-COS产品概述功能概览产品优势 云硬盘-CBS产品概述产品功能产品优势云硬盘类型 文件存储-CFS产品概述产品功能产品优势文件存储类型及性能规格存储类型性能与规格…

图论09-桥和割点

文章目录 1 寻找桥的算法2 桥的代码实现3 寻找割点的算法4 割点的代码实现 1 寻找桥的算法 2 桥的代码实现 package Chapt06_Bridge;import java.util.ArrayList;public class FindBridges {private Graph G;private boolean[] visited;//ord数组记录访问的顺序private int or…

51单片机PCF8591数字电压表数码管显示设计( proteus仿真+程序+设计报告+讲解视频)

PCF8591数字电压表数码管显示 1.主要功能&#xff1a;讲解视频&#xff1a;2.仿真3. 程序代码4. 设计报告5. 设计资料内容清单&&下载链接资料下载链接&#xff08;可点击&#xff09;&#xff1a; 51单片机PCF8591数字电压表数码管设计( proteus仿真程序设计报告讲解视…

计蒜客详解合集(2)期

目录 T1126——单词倒排 T1617——地瓜烧 T1612——蒜头君的数字游戏 T1488——旋转单词 T1461——校验信用卡号码 T1437——最大值和次大值 T1126——单词倒排 超级水的一道题&#xff0c;和T1122类似但更简单&#xff0c;分割后逆序输出即可~ 编写程序&#xff0c;读入…

2023最新版本 从零基础入门C++与QT(学习笔记) -2- 命名空间的使用

&#x1f38f;在不同的命名空间变量名可相同 创建(如下方代码块) &#x1f384;分析一下构成 &#x1f388;-1- namespace 关键字命名空间 &#x1f388;-2- wm9 空间名称 &#x1f388;-3-括号里边正常定义变量即可 namespace wm9 {int a 99;char b A;float c 9.99;char…

Django——orm模块创建表关系

django orm中如何创建表关系 1. 表关系分析 表与表之间的关系: 一对多 多对多 一对一 没有关系 判断表关系的方法: 换位思考用4张表举例: 图书表 出版社表 作者表 作者详情表图书和出版社是一对多的关系 外键字段建在多的那一方图书和作者是多对多的关系 需要创建第三张表来…

振南技术干货集:研发版本乱到“妈不认”? Git!(1)

注解目录 1、关于 Git 1.1Git 今生 (Git 和 Linux 的生父都是 Linus&#xff0c;振南给你讲讲当初关于 Git 的爱恨情愁&#xff0c;其背后其实是开源与闭源两左阵营的明争暗斗。) 1.2Git的爆发 (Git 超越时代的分布式思想。振南再给你讲讲旧金山三个年轻人创办 GitHub&…

普华永道于进博会首发“企业数据资源会计处理一体化平台”

11月6日&#xff0c;在第六届中国国际进口博览会上&#xff0c;普华永道发布企业数据资源会计处理一体化平台&#xff08;英文名为Data Accounting Platform&#xff0c;简称DAP&#xff09;。该产品以普华永道“五步法”数据资源入表路径为理论依据&#xff0c;依托多年来普华…

现在个人想上架微信小游戏已经这么难了吗...

点击上方亿元程序员关注和★星标 引言 大家好&#xff0c;最近我突然想起来我还有一款微信小游戏还没有上架&#xff0c;于是捣鼓了一天把游戏完善了一下&#xff0c;然后准备提交审核&#xff0c;却发现异常的艰难… 1.为什么难&#xff1f; 相信大家都大概知道&#xff0c…