概率扩散去噪模型DDPM

文章目录

  • 摘要
  • abstract
  • 高斯噪声
  • 扩散模型
    • 正向过程
    • 逆向过程
  • 论文阅读
    • 论文创新点
    • 解决的问题
  • 总结
  • 参考文献

摘要

本周主要学习了高斯噪声在扩散模型中的应用及相关算法实现。扩散模型受到自然现象的启发,通过在图像中引入高斯噪声,模拟出扩散效果,并通过逆向过程从随机噪声中生成图像。正向过程以随机噪声叠加原始图像,迭代生成噪声图片;逆向过程则从噪声恢复原始图像。此外,本周阅读并总结了《TexFit》论文,探讨了一种基于文本提示的局部图像编辑方法,提出了编辑区域定位模块(ERLM)和两阶段扩散模型架构。TexFit 解决了传统方法依赖多模态输入和图像编辑质量欠佳的问题,并构建了DFMM-Spotlight数据集,填补局部描述数据的空白。

abstract

This week, we mainly studied the application of Gaussian noise in diffusion model and related algorithm implementation. The diffusion model is inspired by natural phenomena, simulates the diffusion effect by introducing Gaussian noise into the image, and generates an image from random noise through a reverse process. In the forward process, random noise is superimposed on the original image, and the noise image is generated iteratively. The reverse process restores the original image from the noise. In addition, this week read and summarized the “TexFit” paper, explored a text-prompt based local image editing method, proposed the editing region positioning module (ERLM) and two-stage diffusion model architecture. TexFit solves the problem that traditional methods rely on multimodal input and poor image editing quality, and builds the DFMM-Spotlight dataset to fill in the gaps in local descriptive data.

高斯噪声

假设X~N(0,1)的正态分布,有如下一组随机数
在这里插入图片描述
其均值大部分都接近为0,小部分超出了正负一个标准差,这样的随机变量在模型中称为高斯噪声。

扩散模型

正向过程

扩散模型受到一滴墨水在水杯中的扩散现象的启发,通过在图片中加入高斯噪声来模拟这种现象,并通过逆向过程从随机噪声中生成图片。
在这里插入图片描述
对于一种图片,其有R,G,B三种个通道构成。
在这里插入图片描述
将上述像素值通过归一化映射到[-1,+1]区间的数值
在这里插入图片描述
通过随机采样生成一张同样大小的噪声图片,噪声图片中所有像素通道数值遵从标准正态分布。
在这里插入图片描述
再将高斯噪声图片与同尺寸需要加噪的图片进行混合,对于两张图片相同位置像素的各原色通道使用如下公式进行计算混合后的图片像素通道值
β × ϵ + 1 − β × x \sqrt{\beta}\times\epsilon+\sqrt{1-\beta}\times x β ×ϵ+1β ×x
ϵ ϵ ϵ是高斯噪声,x是输入的图片, β {\beta} β是[0,1]的数字用于产生 ϵ ϵ ϵ和x的系数。
在这里插入图片描述
上述表明就可以通过图片加噪模拟实现一滴墨水在水杯中的扩散过程。
在这里插入图片描述
通过上述迭代过程的规律发现,后一个图片可以通过前一个图片的得到,有如下公式:
x t = β t × ϵ t + 1 − β t × x t − 1 x_t=\sqrt{\beta_t}\times\epsilon_t+\sqrt{1-\beta_t}\times x_{t-1} xt=βt ×ϵt+1βt ×xt1
ϵ t \epsilon_t ϵt~N(0,1)
对于正向迭代加噪过程
在这里插入图片描述
如果通过x0直接得到xt,下面是推导过程:
请添加图片描述
更多推导过程可参考链接:diffusion_model
噪声传播代码部分:

# Forward process q(x_t | x_{t-1})
def forward_diffusion_sample(x_0, t, betas):noise = torch.randn_like(x_0)sqrt_alphas_cumprod = torch.sqrt((1 - betas).cumprod(dim=0))sqrt_one_minus_alphas_cumprod = torch.sqrt(1 - (1 - betas).cumprod(dim=0))return (sqrt_alphas_cumprod[t] * x_0 + sqrt_one_minus_alphas_cumprod[t] * noise,noise,)

逆向过程

目标是从xt时刻的噪声图片中前向推导恢复得到x0时刻的原图。
请添加图片描述
下面的代码为逆向传播过程

def q_posterior(self, x_start, x_t, t):"""Compute the mean and variance of the diffusionposterior q(x_{t-1} | x_t, x_0).Args:x_start: Stating point(sample) for the posterior computationx_t: Sample at timestep `t`t: Current timestepReturns:Posterior mean and variance at current timestep"""x_t_shape = tf.shape(x_t)posterior_mean = (self._extract(self.posterior_mean_coef1, t, x_t_shape) * x_start # betas * np.sqrt(alphas_cumprod_prev) / (1.0 - alphas_cumprod)+ self._extract(self.posterior_mean_coef2, t, x_t_shape) * x_t   # (1.0 - alphas_cumprod_prev) * np.sqrt(alphas) / (1.0 - alphas_cumprod))posterior_variance = self._extract(self.posterior_variance, t, x_t_shape)posterior_log_variance_clipped = self._extract(self.posterior_log_variance_clipped, t, x_t_shape)return posterior_mean, posterior_variance, posterior_log_variance_clipped

在这里插入图片描述

论文阅读

论文创新点

本周阅读了《TexFit》,论文提出了一种基于文本提示的局部图像编辑方法,摈弃了传统方法中辅助模态(如人体关键点、服装草图等)的依赖。设计了一个编辑区域定位模块(ERLM),通过文本提出精确预测服装图像中需要编辑的区域。
在这里插入图片描述
其次,采用稳定扩散模型(stable diffusion),通过低维潜在空间进行去噪,生成高分辨率和视觉上逼真的局部编辑结果,使用分类器自由引导技术,平衡生成图像与文本提示的语义一致性。最后,针对现有数据集(DeepFashion-MultiMmodal 和Fashion-Gen)缺乏局部描述的不足,TexFit创建了一个新的数据集,提供图像-区域-文本的精细配对,支持局部编辑任务。
两阶段架构设计
在这里插入图片描述
第一阶段: 使用ERLM从文本提取隐含的区域位置生成编辑区域的掩码。
第二阶段: 利用扩散模型在指定区域内编辑图像内容,同时保持其他区域不变。

解决的问题

  1. 消除了多模态输入的依赖
    传统方法依赖如人体关键点、服装草图等辅助信息,这在实际应用中需要额外的标注工作,增加了实现成本。
  2. 提高图像编辑质量和一致性
    GAN 方法通常难以生成高细节图像,且训练不稳定;TexFit 基于扩散模型,能够生成高保真度和一致性更好的编辑结果。
  3. 局部服装描述数据不足
    当前的时尚数据集多为全局描述(如整套服装的总体特征),无法用于精确的局部编辑。TexFit 提供了 DFMM-Spotlight 数据集,支持基于局部文本的服装编辑。

总结

高斯噪声和扩散模型提供了一种从噪声生成高质量图像的框架,适用于多种生成任务。通过正向和逆向的双向过程,可以模拟和还原高斯噪声的扩散规律。《TexFit》进一步结合扩散模型和文本提示,在局部图像编辑领域取得了显著进展。其创新设计有效提升了编辑效果和语义一致性,且无需依赖辅助模态信息,降低了应用成本。TexFit 的贡献不仅在于技术突破,还通过构建新的数据集推动了局部服装编辑任务的发展。

参考文献

TexFit:Text-Driven Fashion Image Editing with Diffusion Models TexFit

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/893042.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python操作Excel——openpyxl使用笔记(3)

3 单元格基本操作 3.1 访问单元格和读写其内容 在前面的例子中,已经简单演示过了向单元格中写入和读取数据。这里进一步提供访问单元格的一些方法。和前面一样,使用工作表的索引方式,可以快速定位一个单元格: import openpyxl w…

2025.1.18机器学习笔记:PINN文献精读

第三十周周报 一、文献阅读题目信息摘要Abstract创新点物理背景网络框架实验实验一:直道稳定流条件实验二:环状网络中的非稳定流条件 结论缺点及展望 二、代码实践总结 一、文献阅读 题目信息 题目:《Enhanced physics-informed neural net…

CSS 的基础知识及应用

前言 CSS(层叠样式表)是网页设计和开发中不可或缺的一部分。它用于描述网页的视觉表现,使页面不仅实现功能,还能提供吸引人的用户体验。本文将介绍 CSS 的基本概念、语法、选择器及其在提升网页美观性方面的重要性。 什么是 CSS&…

Web开发 -前端部分-CSS-2

一 长度单位 代码实现&#xff1a; <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document<…

Linux shell zip 命令实现不切换当前终端的工作目录打包另一个路径下的文件和文件夹

如图&#xff0c;我想在当前目录 ~/Bypasser 下打包 src 文件夹&#xff0c;使得生成的 zip 压缩包中具有 src 文件夹下的所有文件夹、所有文件夹中的所有子项目、所有文件&#xff0c;保留层次结构但压缩包中最外面不包含 src 这一层。执行命令时&#xff0c;不要改变当前终端…

QT跨平台应用程序开发框架(3)—— 信号和槽

目录 一&#xff0c;基本概念 二&#xff0c;connect函数使用 2.1 connect 2.2 Qt内置信号和槽 2.3 一些细节 三&#xff0c;自定义信号和槽 3.1 自定义槽函数 3.2 自定义信号 3.3 带参数的信号槽 四&#xff0c;信号和槽的意义 五&#xff0c;信号和槽断开连接 六&…

聊聊如何实现Android 放大镜效果

一、前言 很久没有更新Android 原生技术内容了&#xff0c;前些年一直在做跨端方向开发&#xff0c;最近换工作用重新回到原生技术&#xff0c;又回到了熟悉但有些生疏的环境&#xff0c;真是感慨万分。 近期也是因为准备做地图交互相关的需求&#xff0c;功能非常复杂&#x…

一、1-2 5G-A通感融合基站产品及开通

1、通感融合定义和场景&#xff08;阅读&#xff09; 1.1通感融合定义 1.2通感融合应用场景 2、通感融合架构和原理&#xff08;较难&#xff0c;理解即可&#xff09; 2.1 感知方式 2.2 通感融合架构 SF&#xff08;Sensing Function&#xff09;&#xff1a;核心网感知控制…

golang标准库path/filepath使用示例

文章目录 前言一、常用方法示例1.将相对路径转换为绝对路径2.获取路径中最后一个元素3.获取路径中除去最后一个元素的部分4.路径拼接5.将路径拆分为目录和文件名两部分6.返回一个相对路径7.文件路径遍历8.根据文件扩展名过滤文件9.使用正则表达式进行路径匹配 前言 path/filep…

HBase实训:纸币冠字号查询任务

一、实验目的 1. 理解分布式数据存储系统HBase的架构和工作原理。 2. 掌握HBase表的设计原则&#xff0c;能够根据实际业务需求设计合理的表结构。 3. 学习使用HBase Java API进行数据的插入、查询和管理。 4. 实践分布式数据存储系统在大数据环境下的应用&#xff0c;…

HarmonyOS NEXT应用开发边学边玩系列:从零实现一影视APP (三、影视搜索页功能实现)

在HarmonyOS NEXT开发环境中&#xff0c;可以使用nutpi/axios库来简化网络请求的操作。本文将展示如何使用HarmonyOS NEXT框架和nutpi/axios库&#xff0c;从零开始实现一个简单的影视APP&#xff0c;主要关注影视搜索页的功能实现。 为什么选择nutpi/axios&#xff1f; nutpi…

天机学堂3-ES+Caffeine

文章目录 day05-问答系统表 用户端分页查询问题目标效果代码实现 3.6.管理端分页查询问题ES相关 管理端互动问题分页实现三级分类3.6.5.2.多级缓存3.6.5.3.CaffeineTODO&#xff1a;使用Caffeine作为本地缓存&#xff0c;另外使用redis或者memcache作为分布式缓存&#xff0c;构…

重拾Python学习,先从把python删除开始。。。

自己折腾就是不行啊&#xff0c;屡战屡败&#xff0c;最近终于找到前辈教我 第一步 删除Python 先把前阵子折腾的WSL和VScode删掉。还是得用spyder&#xff0c;跟matlab最像&#xff0c;也最容易入手。 从VScode上搞python&#xff0c;最后安装到appdata上&#xff0c;安装插…

智能新浪潮:亚马逊云科技发布Amazon Nova模型

在2024亚马逊云科技re:Invent全球大会上&#xff0c;亚马逊云科技宣布推出新一代基础模型Amazon Nova&#xff0c;其隶属于Amazon Bedrock&#xff0c;这些模型精准切入不同领域&#xff0c;解锁多元业务可能&#xff0c;为人工智能领域带来革新。 带你认识一起了解Amazon Nova…

flutter 装饰类【BoxDecoration】

装饰类 BoxDecoration BoxDecoration 是 Flutter 中用于控制 Container 等组件外观的装饰类&#xff0c;它提供了丰富的属性来设置背景、边框、圆角、阴影等样式。 BoxDecoration 的主要属性 1.color 背景颜色。类型&#xff1a;Color?示例&#xff1a; color: Colors.blu…

Datawhale-self-llm-Phi-4 Langchain接入教程

本项目是一个围绕开源大模型、针对国内初学者、基于 AutoDL 平台的中国宝宝专属大模型教程&#xff0c;针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导&#xff0c;简化开源大模型的部署、使用和应用流程&#xff0c;让更多的普通学生、研究者…

某讯一面,感觉问Redis的难度不是很大

前不久&#xff0c;有位朋友去某讯面试&#xff0c;他说被问到了很多关于 Redis 的问题&#xff0c;比如为什么用 Redis 作为 MySQL 的缓存&#xff1f;Redis 中大量 key 集中过期怎么办&#xff1f;如何保证缓存和数据库数据的一致性&#xff1f;我将它们整理出来&#xff0c;…

Python基于Django的图像去雾算法研究和系统实现(附源码,文档说明)

博主介绍&#xff1a;✌IT徐师兄、7年大厂程序员经历。全网粉丝15W、csdn博客专家、掘金/华为云//InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;&#x1f3…

【开源免费】基于SpringBoot+Vue.JS欢迪迈手机商城(JAVA毕业设计)

本文项目编号 T 141 &#xff0c;文末自助获取源码 \color{red}{T141&#xff0c;文末自助获取源码} T141&#xff0c;文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…

NVIDIA发布个人超算利器project digital,标志着ai元年的开启

上图NVIDIA公司创始人兼首席执行官 黄仁勋&#xff08;Jensen Huang&#xff09; 这些年被大家熟知的赛博朋克风格一直都是未来的代言词&#xff0c;可以承载人类记忆的芯片&#xff0c;甚至能独立思考的仿生人&#xff0c;现在&#xff0c;随着NVIDIA的project digital发布之后…