Motion Guidance: 扩散模型实现图像精确编辑的创新方法

在深度学习领域,扩散模型(diffusion models)因其能够根据文本描述生成高质量图像而备受关注。然而,这些模型在精确编辑图像中对象的布局、位置、姿态和形状方面仍存在挑战。本文提出了一种名为“运动引导”(motion guidance)的零样本技术,允许用户指定密集的复杂运动场,以指示图像中每个像素的移动方向。通过结合现成的光流网络,运动引导通过梯度引导扩散采样过程,实现对图像的精确编辑。

运动引导的概念
给定一个源图像和一个目标运动场,生成一个相对于原始图像具有期望运动的新图像。这些图像展示了零样本技术的应用,通过光流网络实现引导,并适用于真实和合成图像

方法

在扩散模型中引入引导技术是为了在图像生成过程中实现更精确的控制。该技术的原理为通过向去噪估计中添加来自损失函数的梯度信息,来微调生成的样本。分类器引导是这种方法的一个实例,它利用分类器的梯度来指导样本生成,使其更符合特定的分类目标。

为了增强引导信号,研究者们在损失函数中加入了额外的项,这允许在去噪过程中考虑更多的条件信息。损失函数中不同项的权重可以动态调整,以优化生成样本的质量。这种方法的一个关键优势是它的通用性,可以适用于多种类型的扩散模型,从而实现对图像的精细控制。

递归去噪是提高引导效率的策略之一,通过在去噪的每一步重复应用引导,有助于提高样本的质量和引导的稳定性。然而,引导技术也带来了一些挑战,包括优化过程中可能的不稳定性,以及对损失函数设计和权重选择的敏感性。尽管存在这些挑战,引导技术为图像编辑和生成提供了强大的工具,尤其是在需要精确控制图像内容时。

研究者们提出了一种新颖的方法,允许用户通过指定复杂的运动场来精确编辑图像中对象的布局、位置、姿态和形状。这种方法利用了现成的光流网络来引导扩散模型的采样过程,实现了对图像的精细控制。

研究者们设计了一个指导损失函数,该函数基于用户指定的运动场来衡量生成图像与期望运动的一致性。通过最小化这个损失函数,可以引导图像编辑过程,使得生成的图像在视觉上与源图像相似,同时满足特定的运动要求。损失函数包括两部分:一部分是流损失,用于确保图像中的像素按照指定的运动场移动;另一部分是颜色损失,用于保持图像编辑过程中的颜色一致性。

为了实现运动引导,研究者们采用了一个可微分的光流估计器来计算源图像和生成图像之间的运动。在每个扩散采样步骤中,他们估计了生成图像与源图像之间的运动,并测量了实际运动与用户指定运动场之间的偏差。然后,通过在损失函数中加入这些偏差的梯度,实现了对生成过程的引导。

研究者们还引入了一个掩码来处理遮挡问题,确保在对象移动并遮挡背景像素时,颜色损失不会对这些区域产生负面影响。通过这种方式,运动引导技术能够在保持源图像视觉质量的同时,实现对图像中对象的精确操控。

在单一源图像上进行的各种运动编辑,包括缩放和拉伸等多种变形

在实现运动引导方面,研究者们采取了一系列技术手段来确保高质量和高效率的图像编辑过程。这些技术手段主要包括以下几个方面:

处理遮挡问题:在对象移动时可能会遮挡背景像素,这些像素在生成图像中没有直接对应的点。为了解决这个问题,研究者们引入了遮罩技术,通过分析目标流来确定哪些区域会被遮挡,并在这些区域中忽略颜色损失,以避免不自然的图像效果。

编辑掩码的构建:为了精确控制图像编辑的范围,研究者们开发了一种自动构建编辑掩码的方法。这个掩码标识了需要根据运动场进行编辑的像素区域,允许模型在这些区域内应用运动引导,而在其他区域则保留源图像的内容。

噪声图像的处理:由于光流网络通常只在干净图像上训练,研究者们采用了一种技术来适应噪声图像。通过计算对干净图像的一步近似的引导函数的梯度,使得即使在噪声存在的情况下也能有效地进行引导。

递归去噪:为了提高优化的稳定性和图像质量,研究者们采用了递归去噪技术。这种方法通过重复去噪步骤多次,使得模型能够更细致地调整图像,从而提高最终结果的质量和一致性。

引导梯度裁剪:为了防止在优化过程中出现不稳定现象,研究者们实施了梯度裁剪策略。通过限制梯度的大小,可以减少引导过程中可能发生的剧烈变化,从而提高生成过程的稳定性。

运动引导的实现:研究者们将运动引导函数集成到了扩散模型的去噪步骤中。在每个去噪步骤中,模型不仅考虑如何去除噪声,还要考虑如何根据用户指定的运动场调整像素,以实现运动引导。

用户界面的开发:为了提高运动引导技术的可用性,研究者们开发了一个图形用户界面,允许用户通过直观的操作来指定运动场。这个界面支持平移、旋转、缩放和复杂变形等操作,极大地简化了运动场的创建过程。

通过这些技术手段的结合,研究者们成功实现了一种灵活且强大的图像编辑方法,它不仅能够处理复杂的运动编辑任务,还能够保持图像的高质量和自然性。

结果

研究者选用了RAFT作为光流模型,该模型能够精确估计两幅图像之间的像素运动。为了构建目标流场,他们采用了基础流的组合,并利用分割模型生成掩码,确保流场仅作用于图像的特定区域。在超参数的选择上,研究者确定了颜色损失和流损失的权重,并应用了全局权重和梯度裁剪阈值来优化引导过程。

实验设置中,研究者采用了Stable Diffusion v1.4模型,并在单个NVIDIA A40 GPU上进行操作,生成512×512分辨率的图像。他们还开发了一个图形用户界面,使用户能够通过直观的点击和拖动来创建复杂的流场。在去噪过程中,研究者采用了递归去噪技术,并发现在去噪的最后阶段关闭引导可以提高图像质量。

为了适应Stable Diffusion模型的潜在空间,研究者对编辑掩码进行了下采样处理。他们还制定了一个指导计划,在去噪的前期阶段应用引导,而在后期阶段则关闭引导,以便模型能够集中于生成高质量的细节。

为了理解各个组件对最终结果的贡献,研究者进行了消融实验,移除了关键组件并展示了它们对结果的影响。例如,他们展示了在没有递归去噪、颜色损失或流损失时的编辑结果,以及没有遮挡掩码时的影响。

通过定性分析,展示了引导函数的关键组件移除后的影响

研究者将他们的运动引导技术与其他几种基线方法进行了比较,包括InstructPix2Pix、SDEdit和RePaint等。通过直观的示例,展示了不同方法在处理相同任务时的效果差异,并强调了运动引导技术相对于这些方法的优势。

不同基线方法与作者方法的定性比较
与DragGAN方法的比较

研究者使用了两个指标来评估方法的性能:流损失(Flow Loss)和CLIP相似度(CLIP Similarity)。他们在两个不同的数据集上进行了评估,结果显示运动引导技术在满足目标流和保持源图像忠实度之间提供了一个有吸引力的权衡。

不同方法在流损失和CLIP相似性指标上的性能

研究者探讨了在难以手动指定流时,如何将视频中提取的运动应用到图像上。通过几个示例,展示了即使提取的流与目标图像不完全重叠,也能实现所需的运动。这表明了运动引导技术在运动转移方面的潜力。

从视频中提取运动并将其应用于完全不同的图像的能力

尽管运动引导技术在多个方面表现出色,但它仍然面临着采样速度慢、优化过程中的不稳定性以及对特定目标流的局限性等问题。未来的研究需要在提高算法效率、增强模型鲁棒性以及拓展技术适用性方面进行更深入的探索。

论文链接:https://arxiv.org/abs/2401.18085

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/41479.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据库了解与学习】

1.下载所需版本安装包 1.1将所需文件压缩包以及安装包放在你选择的任意一盘,新建一个没有文字和空格的文件夹 1.2双击打开安装包,选择Custom自定义模式然后点击右下方的Next 1.4三连点击1,再点击箭头出现3,选中3出现4,…

Infinitar链游新发展新机遇

区块链游戏市场在近年来经历了显著增长,吸引了大量的投资和关注。随着加密货币和NFT(非同质化代币)概念的普及,越来越多的投资者、游戏开发者和看到了区块链技术在游戏领域的应用潜力,纷纷涌入市场。区块链游戏的用户量…

Aigtek功率放大器的参数及应用是什么

功率放大器是电子电路中的重要组成部分,用于将输入信号的功率增加到更高的水平。它们在各种电子设备和应用中发挥着关键作用。下面Aigtek安泰电子将介绍功率放大器的主要参数以及它们在不同领域的应用。 1.功率放大器的基本参数 增益 功率放大器的增益是指输出信号的…

android应用的持续构建CI(五)-- 应用管理

一、ER设计 渠道:应用发布的渠道,To B的话,可能是学校、租户等;To C的话,渠道则是不同厂商的应用市场。审核:jenkins构建应用完成后,管理后台生成应用的审核记录。 下面是每个实体详细的字段&a…

昇思25天学习打卡营第17天(+1)|Diffusion扩散模型

1. 学习内容复盘 本文基于Hugging Face:The Annotated Diffusion Model一文翻译迁移而来,同时参考了由浅入深了解Diffusion Model一文。 本教程在Jupyter Notebook上成功运行。如您下载本文档为Python文件,执行Python文件时,请确…

Git仓库介绍

1. Github GitHub 本身是一个基于云端的代码托管平台,它提供的是远程服务,而不是一个可以安装在本地局域网的应用程序。因此,GitHub 不可以直接在本地局域网进行安装。 简介:GitHub是最流行的代码托管平台,提供了大量…

昇思MindSpore学习笔记4-02生成式--DCGAN生成漫画头像

摘要: 记录了昇思MindSpore AI框架使用70171张动漫头像图片训练一个DCGAN神经网络生成式对抗网络,并用来生成漫画头像的过程、步骤。包括环境准备、下载数据集、加载数据和预处理、构造网络、模型训练等。 一、概念 深度卷积对抗生成网络DCGAN Deep C…

STM32+ESP8266(ESP32)+MQTT+阿里云物联网平台

1、阿里云物联网平台 - 阿里云物联网平台配置 产品-设备-编辑物模型-设备端开发-查看上报数据 在产品上添加物模型,然后设备是继承自产品的,因此也具有物模型 添加产品、添加设备、产品上添加物模型 - 使用IOT Studio 绘制界面显示温度、湿度、灯开…

Tomcat(+Servlet)笔记+代码

Tomcat安装和配置 安装在不含中文的路径,路径不能太长 Apache 官网👇 Apache Tomcat - Welcome! 配置部分 点击下图红框处,找到Tomcat安装位置 添加项目的文件 配好的话,红框这里有个猫 代码部分 新建jsp文件,里…

线程(基础概念)

文章目录 一、线程和进程?二、线程初识2.1 线程属性2.2 线程的调度策略2.3 线程的优先级2.3 线程实验 一、线程和进程? 我们经常描述进程(process)和线程(thread): 进程是资源管理的最小单位&a…

昇思25天学习打卡营第07天 | 函数式自动微分

昇思25天学习打卡营第07天 | 函数式自动微分 文章目录 昇思25天学习打卡营第07天 | 函数式自动微分函数与计算图微分函数与梯度Stop GradientAuxiliary data 神经网络梯度计算总结打卡 神经网络的训练主要使用反向传播算法,首先计算模型预测值(logits&am…

科普文:微服务之服务网格Service Mesh

一、ServiceMesh概念 背景 随着业务的发展,传统单体应用的问题越来越严重: 单体应用代码库庞大,不易于理解和修改持续部署困难,由于单体应用各组件间依赖性强,只要其中任何一个组件发生更改,将重新部署整…

MUNIK解读ISO26262--什么是DFA

我们在学习功能安全过程中,经常会听到很多安全分析方法,有我们熟知的FMEA(Failure Modes Effects Analysis)和FTA(Fault Tree Analysis)还有功能安全产品设计中几乎绕不开的FMEDA(Failure Modes Effects and Diagnostic Analysis),相比于它们…

【OceanBase】OBProxy 无状态的理解

SueWakeup 个人主页:SueWakeup 系列专栏:为祖国的科技进步添砖Java 个性签名:保留赤子之心也许是种幸运吧 本文封面由 凯楠📸友情提供 目录 前言 OBProxy 无状态的概述 OBProxy 无状态特性带来的优点 1. 高可用 2. 负载均衡…

2024最新版Redis常见面试题包含详细讲解

Redis适用于哪些场景? 缓存分布式锁降级限流消息队列延迟消息队 说一说缓存穿透 缓存穿透的概念 用户频繁的发起恶意请求查询缓存中和数据库中都不存在的数据,查询积累到一定量级导致数据库压力过大甚至宕机。 缓存穿透的原因 比如正常情况下用户发…

C++基础22 字符串与字符数组及其相关操作

这是《C算法宝典》C基础篇的第22节文章啦~ 如果你之前没有太多C基础,请点击👉C基础,如果你C语法基础已经炉火纯青,则可以进阶算法👉专栏:算法知识和数据结构👉专栏:数据结构啦 ​ 目…

蓝牙传输技术的演进与发展

蓝牙模块技术,作为无线通信领域的重要一员,自其诞生之初便受到了广泛的关注和应用。随着技术的不断发展和演进,蓝牙模块技术已经从最初的单一功能、有限传输速度发展到现在的多功能、高速率、低功耗,为人们的生活和工作带来了极大…

信创-系统架构师认证

随着国家对信息技术自主创新的战略重视程度不断提升,信创产业迎来前所未有的发展机遇。未来几年内,信创产业将呈现市场规模扩大、技术创新加速、产业链完善和国产化替代加速的趋势。信创人才培养对于推动产业发展具有重要意义。应加强高校教育、建立人才…

NXP i.MX8系列平台开发讲解 - 3.18 Linux tty子系统介绍(一)

专栏文章目录传送门:返回专栏目录 Hi, 我是你们的老朋友,主要专注于嵌入式软件开发,有兴趣不要忘记点击关注【码思途远】 目录 1. TTY 起源 2. Linux 系统中的TTY 2.1 Linux TTY 设备形式 2.2 Linux TTY framework 2.3 驱动核心相关文件…

零基础入门怎么学习老挝语字母表?《老挝语翻译通》App真人发音教学,学习老挝语字母发音和词汇句子!

这段老挝文字翻译成中文是什么意思?有什么好用的老挝语翻译工具推荐吗? 快速翻译:中老语言无缝转换,实时翻译,让沟通更流畅。 学习工具:零基础入门到流利对话,老挝语真人发音,让你的…