13、Deconstructing Denoising Diffusion Models for Self-Supervised Learning

简介

研究了最初用于图像生成的去噪扩散模型(DDM)的表示学习能力
解构DDM,逐步将其转变为经典的去噪自动编码器(DAE)
探索现代ddm的各个组成部分如何影响自监督表征学习

结论:
只有很少的现代组件对于学习良好的表示是至关重要的,而其他许多组件则是不必要的
DDM的表示能力主要是由去噪驱动的过程获得的,而不是扩散驱动的过程
成果:一种高度简化的方法,并且在很大程度上类似于经典的DAE——l-DAE

在这里插入图片描述
通过主成分基(即V)将输入图像投影到隐空间中,在隐空间中加入噪声,并通过逆主成分基将带噪声的隐投影回图像空间

上图(中间,底部)显示了在潜在空间中添加噪声的示例图像

将这个有噪声的图像作为网络的输入,可以应用一个标准的ViT网络,它直接对图像进行操作,就好像没有tokenizer一样

背景

Denoising Diffusion Models (DDM) 实现了令人印象深刻的图像生成质量,特别是对于高分辨率、逼真的图像,对于理解视觉内容似乎具有很强的识别表征

t时间步的噪声图像为
在这里插入图片描述
ϵ ∼ N ( 0 , I ) \epsilon \sim N(0,I) ϵN(0,I), γ t 2 + σ t 2 = 1 \gamma^2_t + \sigma^2_t=1 γt2+σt2=1

网络预测噪声拟合增加的噪声
在这里插入图片描述

实验过程

noise

去掉DDM的分类条件

假设直接对模型进行类标签的调节可以减少模型对与类标签相关的信息编码的需求。移除类条件可以迫使模型学习更多的语义

采用线性衰减噪声噪声

实验结果
在这里插入图片描述

在这里插入图片描述

结论:自监督学习绩效与生成质量无关

Tokenizer

更换Tokenizer,分别为Convolutional VAE、Patch-wise VAE、Patch-wise AE和Patch-wise PCA
在这里插入图片描述
在这里插入图片描述

结论:标记器的潜在维数是DDM在自监督学习中发挥作用的关键

卷积VAE标记器既不是必要的,也不是有利的;相反,所有基于补丁的标记器,其中每个补丁都是独立编码的,彼此之间的表现相似,并且始终优于Conv VAE变体。此外,KL正则化项是不必要的,因为AE和PCA变体都能很好地工作

结论:高分辨率、基于像素的ddm不如自监督学习。

Autoencoders

不同与DDM预测噪声,经典DAE直接预测清晰图像
在这里插入图片描述
λ t = γ t 2 / σ t 2 \lambda_t =\gamma^2_t / \sigma^2_t λt=γt2/σt2,实验设置 λ t = γ t 2 \lambda_t=\gamma^2_t λt=γt2效果更好

去掉输入缩放
设置 γ t = 1 \gamma_t=1 γt=1, σ t \sigma_t σt是0到 2 \sqrt{2} 2 的线性变化, λ t = 1 / ( 1 + σ t 2 ) \lambda_t=1/(1+\sigma^2_t) λt=1/(1+σt2)
在这里插入图片描述
结论:不需要按 γ t \gamma_t γt缩放数据3

用逆PCA对图像空间进行操作

通过主成分基(即V)将输入图像投影到隐空间中,在隐空间中加入噪声,并通过逆主成分基将带噪声的隐投影回图像空间,将这个有噪声的图像作为网络的输入,可以应用一个标准的ViT网络,它直接对图像进行操作,就好像没有tokenizer一样
在这里插入图片描述

结论:用逆主成分分析对图像空间进行处理可以获得与对潜在空间进行处理相似的结果

预测原始图像(l-DAE

PCA对于任何降维d都是有损编码器

当让网络预测原始图像时,引入的“噪声”包括两部分:(i)加性高斯噪声,其固有维数为d; (ii) PCA重构误差,其固有维数为D - d (d为768)

使用干净的原始图像 x 0 x_0 x0和网络预测网( x t x_t xt),可以计算投影到完整PCA空间上的残差 r ≜ V ( x 0 − n e t ( x t ) ) r \triangleq V(x_0-net(x_t)) rV(x0net(xt)),V是表示完整PCA基的D乘D矩阵

损失函数为:
在这里插入图片描述
i 表示向量 r 的第 i 维,当 i≤d 时,每维权重 w i w_i wi 为1,当d < i≤d时,每维权重 w i w_i wi 为0.1, w i w_i wi 降低了PCA重构误差损失的权重

在这里插入图片描述

单层噪声
设置 σ = 1 / 3 \sigma=\sqrt{1/3} σ=1/3 ,指标下降为61.5%下降了三个点

结论:
使用多级噪声类似于DAE中的一种数据增强形式:它是有益的,但不是促成因素
DDM的表示能力主要是通过去噪驱动过程获得的,而不是扩散驱动过程

总结

在这里插入图片描述
在这里插入图片描述
可视化可以帮助更好地理解l-DAE如何学习良好的表示

l-DAE,它在很大程度上类似于经典DAE,可以在自监督学习中表现得很有竞争力。关键分量是加有噪声的低维潜在空间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/761375.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能ai写作神器,推荐5个ai在线写作生成器

智能AI写作神器&#xff0c;是不是听起来就很神奇&#xff1f;它们可以帮助我们省去无尽的头疼和煎熬&#xff0c;让我们的文字轻松流畅&#xff0c;幽默风趣。今天&#xff0c;我要向大家推荐五款AI在线写作生成器&#xff0c;让我们一起来看看吧&#xff01; 第一个&#xff…

训练YOLOv9-S

1. YOLOv9-S网络结构 1.1 改前改后的网络结构&#xff08;参数量、计算量&#xff09;对比 修改前调用的yolo.py测试的yolov9.yaml的打印网络情况&#xff0c;包含参数量、计算量 修改后调用的yolo.py测试的yolov9.yaml的打印网络情况&#xff0c;包含参数量、计算量 1.2 …

flutter实现视频播放器,可根据指定视频地址播放、设置声音,进度条拖动,下载等

需要装依赖&#xff1a; gallery_saver: ^2.3.2video_player: ^2.8.3 实现代码 import dart:async; import dart:io;import package:flutter/material.dart; import package:gallery_saver/gallery_saver.dart; import package:path_provider/path_provider.dart; import pac…

Revit2020也能玩衍生式设计?

Revit2021新增的一个好玩功能就是衍生式设计&#xff0c;但是Autodesk2021系列的激活目前还比较麻烦&#xff0c;尤其是要装多款2021软件的时候&#xff0c;注册机用起来还挺烦人的&#xff0c;于是&#xff0c;为了省事&#xff0c;我把GenerativeDesignRevit节点包扔到了Dyna…

大模型应用开发:手把手教你部署并使用清华智谱GLM大模型

部署一个自己的大模型&#xff0c;没事的时候玩两下&#xff0c;这可能是很多技术同学想做但又迟迟没下手的事情&#xff0c;没下手的原因很可能是成本太高&#xff0c;近万元的RTX3090显卡&#xff0c;想想都肉疼&#xff0c;又或者官方的部署说明过于简单&#xff0c;安装的时…

邮箱合法性的判断与indexOf()==-1的解释

判断邮箱格式输入的对错&#xff0c;简化为是否有“.”&#xff0c;&#xff0c;前后是否有字符。 需要用到字符串的遍历比对&#xff0c;字符串的抓取与赋值。 代码主体&#xff1a; public class youpanduanyouxiangshifouhefa {//判断输入的邮箱是否合法public static vo…

Java设计模式 | 工厂方法模式

工厂方法模式 针对简单工厂模式案例中的缺点&#xff0c;使用工厂方法模式就可以完美的解决&#xff0c;完全遵循开闭原则。简单工厂模式只有一个工厂类&#xff0c;负责创建所有产品&#xff0c;如果要添加新的产品&#xff0c;就需要修改工厂类的代码。而工厂方法模式引入了…

Halcon ORC字符识别

OCR&#xff08;Optical Character Recognition&#xff0c;光学字符识别&#xff09;是通过使用OCR工具实现的。Halcon提供了一些用于进行字符识别的函数和工具&#xff0c;可以帮助用户实现文本的自动识别和提取。 read_ocr_class_mlp&#xff1a;用于读取一个经过训练好的OC…

第二十八天-ES6标准入门和Flex布局

目录 1.ES6标准入门 2.ES6与JavaScript关系 3.ES6常用新特性 1.变量与常量 1.let三大特性 2.常量三大特征 2.解构赋值 1.数组解构赋值 2.对象解构赋值 3.字符串解构赋值 3.函数与箭头函数 1.函数 2.箭头函数 4.JS的面向对象编程 5.模块化 export使用 import使用…

HEVC的编码结构

编码单元划分 CTU/CTB CTU(Coding Tree Unit)和CU组成了一个四叉树的层级结构,CTU的尺寸为64 x 64,32 x 32,16 x 16,一个CTU可以分为一个或四个CTU,对标H264的MB。 CU/CB CU/CB(Coding Unit/Coding Block),CU为亮度和色度编码单元的统称,CB特指某一个分量的的编码…

JAVA后端调用OpenAI接口 实现打字机效果(SSE)

SSE SSE&#xff08;Server-Sent Events&#xff0c;服务器发送事件&#xff09;是一种基于HTTP协议的通信技术&#xff0c;它允许服务器持续地将数据推送给客户端&#xff0c;而无需客户端发起请求。这种通信方式通常用于实时性要求较高的场景&#xff0c;如实时更新、通知、或…

C++初始化列表

本博客将讲述C初始化列表的相关内容 一.什么是初始化列表 图中红方框框的就是初始化列表 格式为&#xff1a; &#xff1a;成员变量1&#xff08;参数1&#xff09;&#xff0c;成员变量2&#xff08;参数2&#xff09; 编译器会将初始化列表一一转换成代码&#xff0c;并将…

高可用、逻辑保护、容灾、多活、妥协、流程

可用性三叉戟&#xff1a; 本地高可用性&#xff1a;消除单点故障&#xff0c;确保链路所有环节系统高可用 本地是指&#xff1a;针对生产中心的内部故障 故障类型&#xff1a;服务器、硬盘、适配器卡、网络 特点&#xff1a;快速恢复、自动的接管、实施简单 RPO-0 业务逻辑保护…

高级数据结构 <AVL树>

本文已收录至《数据结构(C/C语言)》专栏&#xff01; 作者&#xff1a;ARMCSKGT 目录 前言正文AVL树的性质AVL树的定义AVL树的插入函数左单旋右单旋右左双旋左右双旋 检验AVL树的合法性关于AVL树 最后 前言 前面我们学习了二叉树&#xff0c;普通的二叉树没有任何特殊性质&…

[Linux]互斥锁(什么是锁,为什么需要锁,怎么使用锁(接口),演示代码)

目录 一、锁的概念 一些需要了解的概念 什么是锁&#xff1f;为什么需要锁&#xff1f;什么时候使用锁&#xff1f;怎么定义锁&#xff1f; 二、锁的接口 1.初始化锁 2.加锁 3.申请锁 4.解锁 5.销毁锁 三、实践&#xff08;写代码&#xff09;&#xff1a;黄牛抢票 一…

华曦传媒陆锋:数字媒体时代,社区电梯广告价值正在被重估

在数字化时代的浪潮中&#xff0c;电梯广告、停车场道闸广告、门禁灯箱广告等线下社区广告似乎面临着生存的挑战。 然而&#xff0c;这一传统广告形式展现出了惊人的韧性和价值。 比如&#xff0c;2023年上半年&#xff0c;作为行业龙头分众传媒&#xff0c;2023年上半年实现…

GraalVM详细安装及打包springboot、java、javafx使用教程(环境安装篇)

下一篇:GraalVM详细安装及打包springboot、java、javafx使用教程(打包普通JAVA项目篇) GraalVM介绍 GraalVM是一款由Oracle公司开发的一款具有高效性能、降低基础设施成本、支持Java发展、与其他编程语言无缝集成、创建本机镜像等优点的跨平台虚拟机。它支持多种编程语言&…

Nacos详解,从安装到服务部署,及nginx反向代理

Nacos 安装 Windows安装 下载 在Nacos的GitHub页面&#xff0c;提供有下载链接&#xff0c;可以下载编译好的Nacos服务端或者源代码&#xff1a; GitHub主页&#xff1a;https://github.com/alibaba/nacos GitHub的Release下载页&#xff1a;https://github.com/alibaba/nacos…

Python 安装目录及虚拟环境详解

Python 安装目录 原文链接&#xff1a;https://blog.csdn.net/xhyue_0209/article/details/106661191 Python 虚拟环境 python 虚拟环境图解 python 虚拟环境配置与详情 原文链接&#xff1a;https://www.cnblogs.com/hhaostudy/p/17321646.html

下沉市场会给蔚来带来新“未来”吗?

2023年以来&#xff0c;在价格战、技术战等多重因素的催化下&#xff0c;我国汽车行业的洗牌在持续进行。一边是小米等手机厂商跨界入场&#xff0c;一边是三菱等合资品牌淡出大众视野。市场格局正在重塑。 这种情况下&#xff0c;现有车企的一举一动都备受市场关注。其中&…