文生图领域经典-ControlNet介绍

引言

2023年的计算机视觉领域顶级学术会议ICCV上,一篇颠覆文生图AI领域的论文《Adding Conditional Control to Text-to-Image Diffusion Models》——ControlNet 荣膺最佳论文奖(Marr奖)。
在这里插入图片描述

自开源以来,ControlNet已经在GitHub上揽获25k星。无论是对扩散模型、还是对整个计算机视觉领域而言,这篇论文获奖都可以说是实至名归。
在这里插入图片描述

基本原理

ControlNet 是一种尖端神经网络,旨在增强图像生成模型的功能,特别是基于Stable Diffuison等扩散过程的模型。
在这里插入图片描述
从本质上讲,ControlNet 充当基于扩散的文本到图像生成模型的指导。虽然传统的图像生成模型可以产生令人惊叹的视觉效果,但它们通常缺乏指导,因此无法生成符合用户所需图像合成的图像。ControlNet 通过允许额外的图像输入来改变游戏规则,该输入可用于调节(影响)最终图像生成。充当指导角色的可以是任何东西,从简单的涂鸦到复杂的深度图或边缘图。通过对这些输入图像进行调节,ControlNet 指示Stable Diffusion模型生成与用户意图紧密一致的图像。

想象一下,能够勾画出粗略的轮廓或提供基本的深度图,然后让人工智能填充细节,生成高质量、连贯的图像。应用范围广泛,从数字艺术和视频游戏设计到高级模拟和虚拟现实。借助 ControlNet,指导和完善图像生成过程的能力现在掌握在用户手中,从而缩小了人类创造力和机器精度之间的差距。

随着我们不断突破人工智能的极限,ControlNet 等工具提醒我们,内容创作的未来不仅仅在于自动化,还在于人与机器之间的协作。

技术架构

ControlNet 是Stable Diffusion模型的迭代。对于那些熟悉复杂神经网络设计的人来说,嵌入 ControlNet 中的 U-Net 模型可能看起来很熟悉。这是因为它是原始SD模型的直接后代。它锁定原始稳定扩散模型,并创建原始模型的可训练副本以及以调节向量 c 作为输入的零卷积层。
在这里插入图片描述
但 ControlNet 真正的亮点在于其创新性的补充。其中包括一个可训练的编码器,它本质上是 U-Net Stable Diffusion编码器的分身。然而,这对双胞胎不仅仅是为了摆样子,它被设计为完全可训练的,赋予它在空间上影响输出图像结果的卓越能力。这是通过向该编码器提供噪声和边缘来实现的。对于外行来说,这里的边缘是目标图像轮廓的表示,提供了构建图像的框架或脚手架。本质上,ControlNet 克隆扩散模型的权重,然后训练克隆的权重以根据输入条件的任务来控制原始模型。

但是那些神秘的“零卷积”层呢?这些层充当控制编码器和Stable Diffusion U-Net 之间的重要管道。ControlNet 上下文中的“零卷积”特指一维卷积层,其中权重和偏差都初始化为零。现在,在神经网络架构的宏伟计划中,权重初始化至关重要。通常,权重和偏差是用小的随机值设置的。这种随机性是战略性的,可确保在训练过程中,神经元不仅同步进化,而且会发散,每个神经元都学习不同的特征和模式。

但 ControlNet 偏离此约定是有原因的。将这些一维卷积层初始化为零有一个独特且深思熟虑的目的。由于零卷积不会向网络添加噪声,因此模型应该始终能够生成高质量的图像。

应用例

让我们一起看看不同领域的 ControlNet 的一些有趣用例。

时尚

借助 ControlNet,时装设计师可以勾勒出服装的粗略想法或轮廓,系统可以生成这些设计的真实描述,并包含复杂的图案、纹理和颜色。这种快速的可视化可以帮助设计师对款式、剪裁和整体设计美学做出快速决策。
在这里插入图片描述

建筑与改造

建筑师可以将建筑设计的草图或基本轮廓输入 ControlNet。然后,系统可以提供详细的可视化效果,填充纹理、材料和潜在的照明场景,从而提供最终结构的更全面的视图。
在这里插入图片描述
装修者和室内设计师可以让他们的客户在 ControlNet 的帮助下直观地了解改造其住宅或家居室内装饰后的输出效果。
在这里插入图片描述

城市规划者可以使用 ControlNet 来可视化城市布局或公园设计。只需向其提供基本的深度图或涂鸦,规划人员就可以清楚地了解开发后整个城市街区或绿地的样子。这些可视化将有助于做出更明智的规划决策,并使利益相关者和当地社区达成共识。

营销

ControlNet 可以帮助营销人员无缝地个性化和调整视觉内容,确保不同地区和文化的不同受众感到得到代表和迎合。

通过将文本提示与输入图像相集成,ControlNet 可以修改种族、性别、年龄、颜色和图案等视觉元素,以符合当地的审美和文化规范,从而简化本地化过程。

这种在生成个人和文化共鸣营销材料方面的灵活性和精确性使企业能够与目标人群更深入地联系,确保更有效和更具吸引力的活动。
在这里插入图片描述

ControlNet 的流行控制机制

控制机制可满足不同的需求,并为用户提供广泛的选项来指导和定制 ControlNet 的图像生成过程。让我们看一下稳定扩散 ControlNet 中使用的一些流行控件及其用例:

ControlNet Canny

Canny方法是计算机视觉领域最流行的边缘检测技术之一。它以其创建者的名字命名,旨在检测图像中的各种边缘。

ControlNet 的功能:当合并到 ControlNet 中时,Canny 方法可以充当引导输入,以关注图像中的突出边缘和结构。给定原始图像或草图,Canny 会提取图像的轮廓和边缘,可能适合用于建筑可视化或时尚草图的图像生成。

在这里插入图片描述

控制网络深度

深度图表示图像场景中物体与视点的距离,通常以灰度形式表示,其中白色表示近距离物体,黑色表示远处物体。

ControlNet 的功能: ControlNet Depth 将利用这些深度图来指导生成具有三维感的图像。这对于虚拟现实或游戏设计等交互式技术的图像生成非常有用,其中理解和可视化深度和空间关系是关键。

ControlNet OpenPose

OpenPose是一个实时多人系统,可在单张图像上联合检测人体、手部和面部关键点。

ControlNet 的功能:通过 ControlNet OpenPose,用户可以输入人物图像,并指导系统以准确的姿势/姿势生成图像。这对于舞蹈、瑜伽、时尚和运动设计特别有利,在这些领域中,生成模仿身体姿势和运动细节的图像至关重要。
在这里插入图片描述

ControlNet 涂鸦

涂鸦是粗糙的手绘图或涂鸦。

ControlNet 的功能: ControlNet Scribble 将允许用户通过这些徒手输入来指导图像生成。例如,用户可能会画出粗略的轮廓或涂鸦,ControlNet 会连贯地填充细节。这种方法促进了一种更具互动性和实践性的方法,适合艺术家和设计师。
在这里插入图片描述

ControlNet M-LSD

M -LSD算法的优势在于能够高精度地提取和描述直线。通过辨别这些线性结构,它为AI提供了一个清晰的框架,使其能够渲染具有清晰、明确的边缘和直线的图像。这种复杂的线条识别使其能够高度可靠地描绘设计的结构方面。

ControlNet 的功能: M-LSD ControlNet 在建筑领域大放异彩。它对于可视化房间内部尤其有价值,因为墙壁、地板和天花板之间的区别至关重要。此外,它对于等距建筑设计非常有效,结构线的准确表示可确保忠实地描绘建筑愿景。

ControlNet SoftEdge

SoftEdge 专注于图像中对象和背景之间的柔和过渡,而不是锐利边缘检测。

ControlNet 的功能: SoftEdge ControlNet 将指导图像生成过程,以产生更柔和、更混合的过渡的视觉效果。这对于创建环境、梦幻或空灵的视觉效果(例如背景或环境艺术)特别有益。

结论

ControlNet 开创了用户引导图像生成的新时代,展示了各个领域的巨大潜力。现在,创造力的掌控力比以往任何时候都更加掌握在​​创作者自己的手中。通过允许人类创造者指导生成过程,它不仅提供了精确性,而且还增强了创造力的协作方面。

资源

[1] 官方论文
[2] 官方实现: 基于Stable Diffusion 1.5
[3] HuggingFace 实现: 基于Stable Diffusion 2.1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/180855.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue项目多个不同的服务器请求地址管理

vue项目多个不同的服务器请求地址管理 在vue项目开发过程中,获取不同的数据可能会出现需要请求多个不同服务器地址的域名,这个时候需要对不同域名的请求地址进行管理以及跨域的代理。 一、单服务器域名地址的跨域代理和请求配置: 跨域配置&…

C#:程序发布的大小控制

.net不讨喜有个大原因就是.net平台本身太大了,不同版本没有兼容性,程序依赖哪个版本用户就要安装哪个版本,除非你恰好用的是操作系统默认安装的版本——问题是不同版本操作系统默认安装的不一样。 所以打包程序就很头疼,不打包平台…

深度解读:为什么要做数据合规?如何做到数据合规?

数据资源“入表”在即,企业更需筑牢数据合规防线。但企业主企业购买数据、获取数据到底是否合法合规,入表如何防范合规风险?上周三,亿信华辰邀请到北京鑫诺律师事务所高级合伙人、管委会副主任武婕将和大家分享《数据入表法律合规…

每天五分钟计算机视觉:经典架构的力量与启示

在深度学习和计算机视觉领域,卷积神经网络(Convolutional Neural Networks,简称CNN)无疑是最为经典的架构之一。近年来,随着研究的不断深入和新架构的不断涌现,许多初学者可能会忽视这些经典架构的重要性。然而,理解并学习这些经典架构,对于我们深入理解卷积神经网络的…

Docker+Anaconda+CUDA+cuDNN

一、导语 因为要复现文献的需求和实验室里师兄想要给我提升能力的多方面因素在一起,所以学习并实现了相关安装。在这里做一个记录,方便日后查看,如果能给其他同学带来便捷就更好了。 在这篇文章中,我的目标是搭建一个可以使用Py…

鸿蒙4.0开发笔记之ArkTS语法的基础数据类型[DevEco Studio开发](七)

文章目录 一、基本数据类型的定义1、变量声明2、数字类型3、字符串类型4、布尔类型5、数组类型6、元组类型7、枚举类型8、联合类型(少用)9、未知Unkown类型10、未定义和空值类型 二、数据类型的使用1、组件内部声明变量不需要使用let关键字2、使用Divide…

从戴森发明的“球轮手推车”看专利

今天跟大家分享一个特别有意思的专利,那就是戴森发明的球状轮子的手推车。 相信戴森这个品牌很多人都听过,大家熟悉的应该是戴森吹风机和戴森吸尘器。这两个目前是市场上比较高端的家用设备。 很多人也正是因为这些家用设备了解到戴森这个人&#xff0…

有权图的最短路径算法

目录 单源最短路径问题 Dijkstra算法 原理 ​ 获得最短路径长度的Dijkstra代码实现 时间复杂度 算法优化 优先队列优化后的代码实现 时间复杂度 可以具体获得最短路径的Dijkstra代码实现 Bellman-Ford算法 原理 代码实现 Floyed算法 原理 代码实现 单源最短路…

YouTube宣布要求披露AI生成的内容并添加标签

不知道大家在逛YouTube的时候有没有刷到过一些画面和人物看起来不太自然的视频。 没错,这些视频里面的画面和人物可能都是由AI生成的。 近日,YouTube 产品管理副总裁在官方博客文章上表示:生成式 AI 有潜力在 YouTube 上激发创造力&#xff…

vue.draggable拖拽——岗位切换如何判断?

有一个业务场景:把一个单位的某个岗位的人,从某某市A岗位调离出来后,又拖拽回去,如果是回到某某市A岗位,则没有变化,若是换了岗位,则会把色块变成红色,表示岗位的变化。 方法一&…

Maven 介绍

文章目录 什么是 maven为什么要选择mavenmaven 仓库什么是maven中央仓库什么是maven本地仓库 idea如何创建出maven项目如何引入第三方库依赖配置国内源 下载 Maven Helper 插件查看各个项目之间的依赖关系 什么是 maven Maven是 Apache 下的一个纯 Java 开发的开源项目&#x…

DDD 系统间的七种关系梳理与实践

系统间的七种关系 本节将根据耦合度从高到低逐一探讨这些关系。耦合度高有时并不是坏事,它能够让团队内部的系统更加内聚,而不是无法整合的碎块。我们应该根据具体情况进行选择。 因为系统间关系往往也是组织架构的反映,此处每种关系除了描…

超卓航科聚国内外专家学者,共推冷喷涂技术的发展与应用

11月24日——26日,冷喷涂技术及其在增材制造中的应用专题会在襄阳召开,来自国内外200多名科技工作者齐聚一堂,共同交流冷喷涂技术的研究与应用。 本次专题研讨会由中国机械工程学会表面工程分会主办,湖北超卓航空科技股份有限公司…

【EasyExcel实践】导出多个sheet到多个excel文件,并压缩到一个zip文件

文章目录 前言正文一、项目依赖二、封装表格实体和Sheet实体2.1 表格实体2.2 Sheet实体 三、核心实现3.1 核心实现之导出为输出流3.2 web导出3.3 导出为字节数组 四、调试4.1 构建调试用的实体类4.2 控制器调用4.3 测试结果 五、注册大数转换器,长度大于15时&#x…

webGL开发虚拟实验室

开发虚拟实验室是一个具有挑战性但也非常有趣和有价值的任务。通过 WebGL,你可以创建交互式、沉浸式的虚拟实验室,使用户能够进行实验和学习。以下是一些步骤和关键考虑因素,帮助你开始开发虚拟实验室,希望对大家有所帮助。北京木…

游戏开发原画的设计方法

游戏原画设计是游戏开发中至关重要的一环,因为它直接影响到游戏的视觉吸引力和用户体验。以下是一些常见的游戏原画设计方法,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 理解游戏概念&…

如何在Python中操作Redis数据库

目录 一、安装redis-py库 二、连接Redis数据库 三、执行操作 1、设置和获取键值对 2、删除键值对 3、获取列表数据 四、处理数据 1、使用哈希表(Hash)处理关联数据 2、使用列表(List)处理有序数据 3、使用集合&#xff…

链接共享平台LinkStack

什么是 LinkStack ? LinkStack 是一个独特的平台,为在线管理和共享链接提供了高效的解决方案。平台提供了一个类似于 Linktree 的网站,它可以让用户克服社交媒体平台上只能添加一个链接的限制。借助 LinkStack,用户可以轻松链接到…

8 有损压缩的.jpg图片文件格式详解,解封装拆包

有损压缩的.jpg文件 作者将狼才鲸创建日期2023-11-28 1)简述 JPEG文件描述 JPEG协议格式分为JPEG、渐进式JPEG(图片先显示一部分再显示全部)、JPEG2000(压缩品质更好,压缩率更高)压缩模式:顺序…

苹果mac屏幕投屏镜像工具AirServer2024

airserver 是什么软件?AirServer 是一款 Airplay Mac屏幕镜像应用,AirServer可以通过 mac 实时接收iPhone、iPad以及Android设备的实时屏幕画面。AirServer 可以将一个简单的大屏幕或投影仪变成一个通用的屏幕镜像接收器。在您的大屏幕上启用 AirServer …