LazyDiffusion:革新交互式图像编辑的扩散模型

Adobe Research和特拉维夫大学的研究人员联合开发了一种名为LazyDiffusion的新型扩散变换器,它能够高效地生成部分图像更新,特别适用于交互式图像编辑。该模型通过创新的编码器-解码器架构,显著提升了图像编辑的效率,同时保持了与全尺寸图像生成相媲美的质量。

技术突破:

LazyDiffusion的核心在于两个阶段的工作流程:首先,上下文编码器处理当前画布和用户遮罩,生成一个紧凑的全局上下文;其次,扩散解码器基于这个上下文“懒惰”地合成遮罩像素,即仅生成遮罩区域的像素。这种方法避免了传统扩散模型在每次迭代中处理整个图像的需要,从而显著减少了计算量和时间。

上下文编码器(Context Encoder)

全局上下文生成:

  • 上下文编码器的目的是将当前画布的全局信息和用户的编辑意图(通过遮罩定义)整合起来。
  • 输入包括两部分:一是用户希望修改的图像区域(通过遮罩表示),二是遮罩外的背景或上下文区域。
  • 编码器处理这两部分信息,生成一个包含整个图像上下文的紧凑表示,但重点是为遮罩区域生成内容。

信息压缩:

  • 为了减少计算量,上下文编码器将丰富的图像信息压缩成一个较小的上下文码。
  • 这个上下文码是编码器输出的一组特征或“tokens”,它们高效地编码了遮罩区域需要的全局信息。
  • 通过这种方式,上下文编码器确保了后续的解码器只需要关注小范围的遮罩区域,而不是整个大尺寸的图像。

扩散解码器(Diffusion Decoder)

遮罩区域生成:

  • 扩散解码器的任务是根据上下文编码器提供的全局上下文码来生成遮罩区域内的像素。
  • 与传统的扩散模型不同,解码器不需要对整个图像进行迭代处理,而是只关注用户指定的遮罩区域。
  • 这种“懒惰”的生成方式显著减少了不必要的计算,从而加快了图像编辑的速度。

迭代去噪:

  • 扩散解码器采用迭代去噪的方法,逐步精细化遮罩区域的像素。
  • 在每次迭代中,解码器都会使用当前的上下文码来指导遮罩区域内像素的生成,确保新生成的像素与整体图像风格一致。
  • 这个过程从一个噪声图像开始,逐步去除噪声,直到生成高质量的图像内容。

LazyDiffusion模型在计算效率方面的显著提升,主要得益于其对遮罩大小的依赖性以及上下文编码器的一次性编码特性。在传统的扩散模型中,每次迭代都需要处理整个图像,这不仅增加了计算负担,也延长了处理时间。与之相对,LazyDiffusion的解码器仅针对用户定义的遮罩区域进行像素生成,这意味着运行时间与遮罩区域的大小成正比,而非整个图像的尺寸。对于局部编辑任务,这种设计大幅减少了不必要的计算,使得模型能够快速响应用户的编辑需求。

上下文编码器的设计也极大优化了计算过程。该编码器一次性处理整个图像和遮罩,生成一个紧凑的全局上下文,之后在多次迭代中复用这一上下文,避免了对同一图像重复编码的需要。这种设计不仅提高了计算效率,还减少了内存占用和整体的计算延迟。

LazyDiffusion通过智能地压缩和利用图像上下文信息,以及仅对图像的特定区域进行迭代处理,实现了计算效率的大幅提升。这使得模型特别适合于交互式图像编辑,为用户提供了接近实时的反馈和高度灵活的编辑体验。在图像编辑领域,尤其是在需要快速迭代和精细调整的场景中,LazyDiffusion展现了其巨大的潜力和应用价值。

实验与结果

实验设置 (Experimental Setup)

  1. 数据集: 研究人员使用了一个内部数据集,包含2.2亿张高质量的1024×1024分辨率的图像。这些图像涵盖了多种对象和场景,为模型提供了丰富的训练材料。

  2. 掩码和文本提示生成: 采用实体分割模型对图像中的每个对象进行分割,并使用BLIP-2为每个实体生成描述性文本。为了模拟用户创建的粗糙和不准确的掩码,研究人员对实体掩码进行了随机膨胀处理。

  3. 基线比较: 将LazyDiffusion与两种图像修复基线方法进行比较,分别是RegenerateImage和RegenerateCrop。RegenerateImage处理整个图像,而RegenerateCrop仅处理掩码周围的紧凑区域。

推理时间 (Inference Time)

  1. 性能对比: 研究人员展示了LazyDiffusion与基线方法在推理时间上的性能对比。LazyDiffusion的运行时间与掩码的大小成比例,而基线方法则在固定大小的张量上运行,导致LazyDiffusion在处理小掩码时具有显著的速度优势。

  2. 速度提升: 在掩码覆盖图像10%的情况下,LazyDiffusion实现了比RegenerateImage快10倍的速度提升。

逐步生成 (Progressive Generation)

  1. 交互式编辑: LazyDiffusion显著加快了局部图像编辑的速度,使得扩散模型更适合于用户参与其中的交互式应用。

  2. 生成示例: 论文中展示了LazyDiffusion在图像编辑和生成中的迭代过程,从空白画布开始,逐步添加图像内容。

图像修复质量 (Inpainting Quality)

  1. 定量评估: 使用零样本FID(Fréchet Inception Distance)和CLIPScore进行定量评估,这些指标估计了图像与真实图像的相似度以及文本-图像对齐的质量。

  2. 用户研究: 通过用户研究评估模型在生成高度上下文相关的图像修复任务中的性能。用户在给定的掩码输入图像、文本提示和两种结果(LazyDiffusion和基线)中选择整体看起来最好的图像。

  3. 质量比较: LazyDiffusion在保持图像全局一致性的同时,即使在压缩上下文的情况下,也能产生与RegenerateImage和SDXL相当的修复结果。

草图引导的图像修复 (Sketch-guided Inpainting)

  1. 多样化条件: LazyDiffusion不仅依赖掩码和文本提示,还能适应其他形式的条件,如草图和边缘图。

  2. 灵活性展示: 论文中通过使用用户提供的粗略彩色草图来引导图像生成,展示了模型的灵活性。

实验结果证明了LazyDiffusion在交互式图像编辑任务中的有效性和效率,为未来的图像编辑工具和应用提供了新的可能性。

尽管LazyDiffusion在交互式图像编辑领域展现出巨大潜力,但研究人员也指出了一些局限性,例如在处理极高分辨率图像时可能遇到的挑战。未来的工作将致力于解决这些挑战,进一步提升模型的可扩展性和适用性。

论文链接:https://arxiv.org/abs/2404.12382

GitHub 地址:https://lazydiffusion.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/10155.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QML 本地存储(Setting,sqlite)

Qt hello - 专注于Qt的技术分享平台 QML 原生的储存方有两种: 1,Settings 跟QWidget 中的QSettings 一样,可以简单的存储一些配置。 2,Sqlite sqlite数据库。可以存储一些复杂的数据。 一,Settings 我们以一个按钮的位…

鸿蒙DevEco Studio 4.1 Release-模拟器启动方式错误

软件版本:DevEco Studio 4.1 Release 报错提示: 没有权限查看处理指导 Size on Disk 显示1.0MB 尝试方案(统统无效): 1、“windows虚拟机监控程序平台”、"虚拟机平台"已开启 启用CPU虚拟化 2、C…

DIY可视化软件环境准备

DIY官网可视化工具做好的可视化拖拽开发工具无须编程、零代码基础、所见即所得设计工具支持轻松在线可视化导出微信小程序、支付宝小程序、头条小程序、H5、WebApp、UNIAPP等源码 支持组件库,高颜值,卡片,列表,轮播图,导航栏,按钮,标签,表单,单选,复选,下拉选择,多层选择,级联选…

【大华可见光摄像头】ffmpeg获取视频流并下载mp4 报错‘subtype‘ 不是内部或外部命令,也不是可运行的程序

我现在要通过ffmpeg获取大华摄像头视频流并下载成mp4,但我在cmd窗口运行下面命令的时候,发现报错: D:\Java\ffmpeg\ffmpeg-master-latest-win64-gpl\bin\ffmpeg.exe -y -i rtsp://admin:123xxx.xxx.xxx.xxx/cam/realmonitor?channel1&s…

Qt Tab键切换焦点顺序:setTabOrder()

使用这个方法setTabOrder(),设置使得焦点的顺序从前到后依次是: ui->lineEdit》 ui->lineEdit_2》ui->lineEdit_3 》ui->lineEdit_4 焦点先在ui->lineEdit上,当按下Tab键时,焦点跑到ui->lineEdit_2上。。。按…

通过颜色学习css

文章目录 1.生成html2.添加css链接3.将h1标签text-align元素4.添加div标签4.1、为类marker添加元素4.2、添加两个新的div标签4.3、修改div标签的类型并修改css元素4.4、为类container添加元素4.5、以数字形式添加颜色4.5、container添加padding属性4.6、组合css中的颜色属性4.7…

【Matlab】Matlab之美,抓紧来膜拜大神的创星之作(附2024Matlab教程+代码)

软件介绍 MATLAB是一款商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括MATLAB和Simulink两大部分,可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序…

自回归模型的优缺点及改进方向

在学术界和人工智能产业中,关于自回归模型的演进与应用一直是一个引发深入讨论和多方观点交锋的热门议题。尤其是Yann LeCun,这位享誉全球的AI领域学者、图灵奖的获得者,以及被誉为人工智能领域的三大巨擘之一,他对于自回归模型持…

华为与达梦数据签署全面合作协议

4月26日,武汉达梦数据库股份有限公司(简称“达梦数据”)与华为技术有限公司(简称“华为”)在达梦数据武汉总部签署全面合作协议。 达梦数据总经理皮宇、华为湖北政企业务总经理吕晓龙出席并见证签约;华为湖…

geotrust dv通配符证书800

Geotrust是成立时间较久的正规CA认证机构,在过去的几十年间颁发了无数的SSL证书,这些SSL证书被各个开发者使用,受到大多数浏览器的信任。而Geotrust旗下的DV通配符证书因其广泛的应用范围受到了用户的青睐。今天就随SSL盾小编了解Geotrust旗下…

Ardupilot Rpanion iperf网络性能测试

Ardupilot Rpanion iperf网络性能测试 1. 源由2. 分析3. 安装4. 测试4.1 第一次测试4.1.1 iperf测试参数A4.1.1.1 测试链路14.1.1.2 测试链路24.1.1.3 测试链路3 4.1.2 iperf测试参数B - 测试链路34.1.2.1 测试数据4.1.2.2 数据简单分析4.1.2.3 数据深入分析4.1.2.4 模拟测试网…

【初始类和对象】(实例讲解!超级详细!)

【初始类和对象】 前言1. 面向对象的初步认知1.1什么是面向对象1.2 面向对象与面向过程 2. 类的定义和使用2.1 简单认识类2.2 类的定义格式 3. 知识的代码举例讲解3.1 创建类、实例化类3.2 构造方法初始化类、this 3. 总结 前言 由于类和对象是我们在学习过程中需要接受的概念…

AI赋能未来教育:中国教学科研新蓝图

设“人啊 前言 回顾过去,传统的教育模式以知识灌输和应试为主,虽培养出大量人才,但也存在着学生创新能力不足、实践经验缺乏等问题。随着时代的进步和科技的发展,传统教育模式已难以满足当今社会对人才的需求。然而,当…

中国现代十大杰出人物颜廷利:好的司机不如好的同机

找好‘同机’者, 要比找好‘司机’者, 原因就是, ‘司机’虽好, 但不是‘同路人’, 再多努力的攀附都是徒劳, 至于‘同机’者, 即便是对方在自己的眼里心中都一无是处, 只不过, 他/她才是您旅途之中, 真真正正、风雨同舟的人…(升命学说) 21世纪东方哲学家思想家、科学家、当代…

TODESK远控快捷键在哪里

在当今高度数字化的世界中,远程工作和协作已经成为日常生活和业务运营的重要组成部分。Todesk作为一款出色的远程协作软件,为用户提供了诸多功能,以确保流畅、高效的远程连接体验。其中,快捷键功能极大地提升了用户的操作便捷性。…

高速、简单、安全的以太彩光,锐捷网络发布极简以太全光 3.X 方案

从 2021 年 3 月正式推出到现在,锐捷网络极简以太全光方案已经走进第四个年头。IT 仍在不断向前发展,数字化进程深入,数字化业务增多,更广泛的终端设备接入企业级园区网络,对园区网络提出了更高的要求,例如…

Linux NFS共享目录配置漏洞

Linux NFS共享目录配置漏洞 一、实验目的二、实验原理三、复现准备四、漏洞复现4.1、复现前提4.2、正式复现 一、实验目的 利用 NFS共享目录配置漏洞读取目标主机的 /etc/passwd 文件内容NFS 服务配置漏洞,赋予了根目录远程可写权限,导致 /root/.ssh/au…

im8mm 网络卡死 Rx packets:1037578 errors:66 dropped:0 overruns:66 frame:0

1:网络接收数据包异常 2:问题复现 问题在进行网络数据包同吞吐量测试的时候出现的。同时发现,在使用iperf2测试时,是不会出现网络中断卡死的情况,使用 iperf3时才会出现此问题 指令(下面的指令运行在PC2上面&#xff…

AGV混合型电机驱动器|伺服控制器CNS-MI50H系列对电机的要求

混合型电机驱动器 CNS-MI50H系列涵盖CNS-MI50HB-A、CNS-MI50HBN-A、CNS-MI50HDN-A、CNS-MI50HSN-A型号,专为 AGV 舵轮控制需求设计,集成舵轮转向角度控制和驱动电机闭环控制。支持增量式编码器,霍尔传感器, 角度电位计&#xff0c…

自动化测试基础 --- Jmeter

前置环境安装 首先我们需要知道如何下载Jmeter 这里贴上下载网站Apache JMeter - Download Apache JMeter 我们直接解压,然后在bin目录下找到jemter.bat即可启动使用 成功打开之后就是这个界面 每次打开可以用这种方式切换成简体中文 或者直接修改properties文件修改对应的语言…