(2022,扩散模型,评分函数,数据流形的内在维度,SVD)使用扩散模型估计数据流形的维度

Your diffusion model secretly knows the dimension of the data manifold

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

1. 引言

2. 相关工作

3. 背景:基于评分的扩散模型

4. 提出的方法:内在维度(Intrinsic Dimension)估计

6. 局限性

7. 实验

8. 结论及进一步方向


0. 摘要

在这项工作中,我们提出了一种使用训练好的扩散模型来估计数据流形维度的新框架。扩散模型逼近评分函数,即目标分布的噪声污染版本在不同污染水平下的对数密度梯度。我们证明,如果数据集中在嵌入高维环境空间的流形周围,那么随着污染水平的降低,评分函数会指向流形,因为这个方向成为了最大可能性增加的方向。因此,对于较小的污染水平,扩散模型为我们提供了对数据流形法向束(normal bundle)的近似。这使我们能够估计切向空间(tangent space)的维度,即数据流形的内在维度(Intrinsic Dimension)。据我们所知,我们的方法是第一个基于扩散模型的数据流形维度估计器,并且在对欧几里得数据和图像数据进行的控制实验中,它的性能优于已建立的统计估计器。 

(2024,扩散,去噪调度,维度,误差,收敛速度)适应基于分数的扩散模型中的未知低维结构

1. 引言

许多现代实际数据集包含大量变量,通常超过观测数量。这在建模时带来了重大挑战,因为维度灾难。然而,尽管存在这种复杂性,这类数据通常集中在一个低维流形周围,这一概念被称为流形假设【Fefferman 等,2013】。这一假设指导了现代高维数据建模技术的发展,如 GAN 【Goodfellow 等,2014】和 VAE【Kingma 和 Welling,2013】,以及降维方法,如 PCA【Pearson,1901】和 t-SNE【Hinton 和 Roweis,2002】。这些方法需要了解数据的内在维度,这是一个关键的超参数。

在这项工作中,我们介绍了一种新方法,通过利用训练好的扩散模型中的信息来估计数据流形的维度。

扩散模型【Sohl-Dickstein 等,2015;Ho 等,2020a】是一类新的深度生成模型,能够在不需要事先了解数据内在维度的情况下捕捉复杂的高维分布。我们展示了尽管这些模型不显式依赖数据的内在维度,但它们隐含地估计了数据的内在维度。

如【Song 等,2020;Ho 等,2020a】所示,扩散模型执行分数匹配【Hyvärinen,2005】,因此包含了数据分布对数密度梯度的信息。我们的方法利用了一个见解:在数据流形附近,对数密度的梯度是与流形本身正交的。这一关键观察为推断流形的维度提供了工具。

我们在已知数据流形维度的合成欧几里得数据(synthetic Euclidean)和图像数据集上评估了该方法的性能。此外,我们将该方法应用于 MNIST 数据集【LeCun 和 Cortes,2010】(其内在维度未知),并通过训练具有不同潜在维度的自编码器的重建误差评估其性能。

2. 相关工作

估计内在维度的问题已被广泛研究。主要有两条研究路线:基于 PCA 的方法和基于最近邻的方法。

PCA

  • 在早期工作中【Fukunaga 和 Olsen,1971】,作者提出了一种基于局部 Karhunen–Loève 展开的方法。
  • 在随后的几年中,许多基于PCA的方法被开发出来。
  • 最值得注意的是,在【Minka,2000】中,作者提出了一种基于概率 PCA(PPCA)框架的内在维度估计器【Bishop 和 Tipping,2001】。
  • 在【Fan 等,2010】中,提出了一种局部 PCA 方法。

最近邻

  • 在【Pettis 等,1979】中,作者提出了一种基于最近邻信息的估计器。
  • 在【Levina 和 Bickel,2004】中,作者介绍了一种基于与 m 个最近邻距离的最大似然(MLE)方法。他们的方法在【Haro 等,2008】的工作中得到了进一步改进。

其他

  • 最近,Pope 等【2021】将 MLE 方法应用于估计现代图像数据集(如 MNIST【LeCun 和 Cortes,2010】、CIFAR【Krizhevsky,2012】和 ImageNet【Deng 等,2009】)的内在维度。
  • 其他工作则探索了使用基于分形的方法【Camastra 和 Vinciarelli,2002】或填充数(packing numbers)【Kégl,2002】的几何方法。

据我们所知,我们是第一个提出使用扩散模型近似数据流形内在维度的方法。

3. 背景:基于评分的扩散模型

在【Song 等,2020】中,基于分数的生成模型【Hyvärinen,2005】和基于扩散的生成模型【Sohl-Dickstein 等,2015;Ho 等,2020a】被统一到一个单一的连续时间基于分数的框架中,其中扩散由一个随机微分方程表示,可以逆转来生成样本。通过一个神经网络 sθ(xt,t) 逼近评分函数 ∇_(xt) ln⁡ p_t(xt) 来训练扩散模型。有关扩散模型的训练和采样的更多细节在附录 A 中描述。

4. 提出的方法:内在维度(Intrinsic Dimension)估计

考虑一个数据集

D ​∼ p0​(x),它由 N 个独立的 d 维向量 x^(i) ∈ R^d 组成,这些向量从分布 p0(x) 中抽取。分布 p0(x) 的支持集在一个嵌入在 d 维环境空间中的 k 维流形 M 上。我们的目标是从 D 中推断出流形 M 的维度 k。

我们根据方差爆炸(VP) SDE dx_t = g(t)dw_t【Song 等,2020】来扰动数据,并训练一个神经网络 sθ(xt,t) 来逼近噪声扰动目标分布的评分函数,即 ∇_(xt) ln⁡ p_t(xt),对于由扩散时间 t 索引的一系列扰动水平。我们使用带有似然加权的加权去噪分数匹配目标来训练模型,见【Song 等,2021】。有关扩散模型训练的更多细节可以在附录 B 中找到。

考虑一个流形 M 上的数据点 x_0​,并通过前向过程在短时间 t_0 内使用转移核(transition kernel)

将其扰动到环境空间中。如下一节所示,在 x_(t0)​​ 处,分数向量 sθ(x_(t0)​​, t0) 将指向其在 M 上的正交投影,使其几乎与 T_(x0)M 正交。由于这个原因,这个评分向量将几乎完全包含在 N_(x0)M(x_0 处的法向空间)中,因此在从 x_0 扩散的 K 个点上评估的评分向量组成的矩阵的秩不应超过 N_(x0)M 的维度。有了足够的样本,矩阵

的秩估计了法向空间的维度,从中可以估计流形的维度。在我们的方法中,我们在时间 t0 = ϵ 采样 K = 4d 个扩散点,并计算 S 的 SVD,最终我们估计内在维度 ^k(x0) 为消失奇异值的数量。

结果谱图显示在法向空间的维度处或非常接近处有显著下降。剩下的非零但较小的奇异值对应于评分向量的切向分量。这个行为是预期的,因为评分向量不可避免地会有一个非常小的切向分量,原因将在后面的章节中解释。选择 ^k(x0) 的截断点通常在视觉上非常明显,但可以通过选择谱图中最大下降点来自动化:

在选择 x_0 时,我们理想上希望选择一个评分近似质量高、切向分量最小和流形曲率低的点。然而,由于这些因素是不可控的,我们随机选择多个 x^(j)_0 值并为每个值绘制一个谱图。对于简单的分布,评分谱图看起来相似,在准确值处有下降。对于更复杂的分布,下降位置随 x^(j)_0 的选择而变化。我们发现,最大估计的 ^k 提供了最好的估计结果。方法的理论理解支持这一点,详见后续章节。 

6. 局限性

在第 5 节中,我们确定了在给定足够小的 t 时的完美评分近似情况下,我们的方法能正确估计维度。然而,在实际操作中,我们的方法可能会遇到两类错误:近似误差和几何误差。近似误差是由于评分近似

不完美而产生的。几何误差(离散误差)则是在所选取的采样时间 t 不足够小时产生的,可能会影响我们方法的准确性,原因有二。首先,这可能导致评分向量的切向分量增加。其次,如果 x^(i)_t 离 M 太远,流形的曲率可能会导致不同 i 下的法向空间

产生差异。

我们通过实验证明了我们的方法对近似误差的稳健性,发现其对评分近似中的小误差具有稳健性。此外,我们分析了该方法对 p_0 非均匀性的敏感性,这可能在 t > 0 时引入轻微的切向评分分量。我们发现,使用最大

可以使我们的方法适应流形表面上不同程度的非均匀性,表现出比其他非线性估计器(MLE,局部PCA)更好的鲁棒性,而不需要减小 t。详见附录 G。

我们注意到定理 5.1 假设数据分布的支持完全在流形内。因此,我们通过实验研究了当数据集中在流形周围但不完全在流形内时方法的适用性。我们发现,对于 k-球体,只要数据紧密集中在流形周围,我们的方法仍然可靠。详见附录 G。

7. 实验

MNIST。在我们的研究中,我们还应用了所提出的技术来估计著名的 MNIST 数据集的内在维度——这是一个内在维度尚未确定的图像数据集。我们的研究结果表明,不同数字的内在维度存在差异。例如,数字 “1” 的估计维度为 66,而数字 “9” 的估计维度显著更高,为 152。这一差异可以归因于数字 “9” 固有的几何复杂性。图 5 通过显示每个数字的评分谱图阐明了这些观察结果,这些谱图产生了每个数字的最大估计维度。我们在表 1 中展示了每个数字的估计维度,附录 F.3 中包含了每个数字的完整谱图集。

8. 结论及进一步方向

在这项工作中,我们从理论上证明并通过实验验证了扩散模型可以从数据中推断出内在维度。我们引入了一种方法,通过预训练的扩散模型估计数据流形的内在维度。该方法利用了这样一个观察结果:在足够小的扩散时间下评估的扩散模型近似于数据流形的法向束(normal bundle)。我们的工作提供了双重贡献:它强调了扩散模型能够检测数据的低维结构,并提供了一种严格的内在维度估计方法。

我们的方法已经在欧几里得数据和图像数据上进行了严格测试,并且在内在维度的准确估计方面表现出一致性,尤其是在高维流形上优于已建立的统计估计器。此外,我们的研究引入了 MNIST 的维度的新估计,与在一系列潜在维度上训练的自动编码器的预测结果高度一致。

据我们所知,我们是第一个提出基于扩散模型的内在维度估计方法的人。我们的方法在高维流形上的优异表现归因于神经网络架构中近似评分函数的归纳偏差所带来的增强统计效率。我们的工作为理解和估计内在数据维度开辟了新途径,具有在机器学习领域的潜在影响。未来的研究应探索该方法在其他数据类型上的适用性及其在各个领域的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/21773.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【YOLOv5/v7改进系列】引入Slimneck-GSConv

一、导言 GSConv旨在平衡模型的准确度与速度,针对自动驾驶车辆中目标检测任务设计。从类脑研究中得到的直观理解是,具有更多神经元的模型能够获得更强的非线性表达能力。但是,不容忽视的是生物大脑处理信息的强大能力和低能耗远远超过计算机…

二、Nginx目录结构与基本运行原理

目录 一、目录结构 二、运行原理 一、目录结构 我们使用tree 命令查看nginx的目录。如果tree 命令失效,需要安装tree工具 [rootlocalhost local]# yum install -y tree[rootlocalhost /]# tree /usr/local/nginx /usr/local/nginx ├── client_body_temp # PO…

C语言 | Leetcode C语言题解之第129题求根节点到叶节点数字之和

题目: 题解: int sumNumbers(struct TreeNode* root) {if (root NULL) {return 0;}int sum 0;struct TreeNode* nodeQueue[2000];int numQueue[2000];int leftQueue 0, rightQueue 0;nodeQueue[rightQueue] root;numQueue[rightQueue] root->v…

Vue——初识组件

文章目录 前言页面的构成何为组件编写组件组件嵌套注册 效果展示 前言 在官方文档中,对组件的知识点做了一个很全面的说明。本篇博客主要写一个自己的案例讲解。 vue 官方文档 组件基础 页面的构成 说到组件之前,先大致说明下vue中页面的构成要素。 在…

手写数据集minist基于pytorch分类学习

1.Mnist数据集介绍 1.1 基本介绍 Mnist数据集可以算是学习深度学习最常用到的了。这个数据集包含70000张手写数字图片,分别是60000张训练图片和10000张测试图片,训练集由来自250个不同人手写的数字构成,一般来自高中生,一半来自工…

MTU相关随笔

一、MTU的概念 MTU(最大传输单元):用来通知对方所能接受数据服务单元的最大尺寸,说明发送方能够接受的有效载荷大小。MTU是包或帧的最大长度,一般以字节记,如果过大在碰到路由器时会被拒绝转发&#xff0c…

SpringBoot项目本地运行正常,jar包运行时前端报错403:No mapping for......

SpringBoot项目本地运行正常,jar包运行时前端报错403:No mapping for… 提示:在部署jar包到云服务器上之前,一定要在本地运行jar包,查看前端代码是否运行正常,若报错的话可以节省很多时间 方式:…

友顺科技(UTC)分立器件与集成IC产品选型和应用

友顺科技股份有限公司成立于1990年,是全球领先的集成电路与功率半导体厂商 ,集团总部位于台北,生产基地位于福州、厦门。 友顺科技具有完整模拟组件产品线,其中类比IC涵盖各种稳压器、PWM控制IC, 放大器、比较器、逻辑IC、Voltage Translato…

基于飞腾 D2000 8 核+ 32G DDR+板载 6 千兆电口+ 4 千兆光口高性能网络安全主板

第一章、产品介绍 1.1 产品概述 XM-D2000GW是一款基于飞腾 D2000 8 核X100 桥片高性能网络安全主板,D2000 为飞腾首款支持 8 核桌面平 台处理器,支持双通道 DDR4-2666 内存,芯片内置国密 SM2/SM3/SM4/SM9 加速引擎,支持单精度、双…

gitee和github的协同

假设gitee上zhaodezan有一个开发库,但是从andeyeluguo上拉取最新的(从github上同步过来最新的) git remote add dbgpt_in_gitee https://gitee.com/andeyeluguo/DB-GPT.git remote -v git pull --rebase dbgpt_in_gitee main 有冲突可能需要…

【调试笔记-20240603-Linux-在 OpenWrt-23.05 上运行 ipkg-build 生成. ipk 安装包】

调试笔记-系列文章目录 调试笔记-20240603-Linux-在 OpenWrt-23.05 上运行 ipkg-build 生成. ipk 安装包 文章目录 调试笔记-系列文章目录调试笔记-20240603-Linux-在 OpenWrt-23.05 上运行 ipkg-build 生成. ipk 安装包 前言一、调试环境操作系统:Windows 10 专业…

Android11 AudioTrack和Track建立联系

应用程序创建AudioTrack时,导致AudioFlinger在播放线程中,创建Track和其对应。那它们之间是通过什么来建立联系传递数据的?答案是共享内存。 创建Track时,导致其父类TrackBase的构造函数被调用 //frameworks/av/services/audiofl…

数字化时代还需要传统智慧图书馆吗

尽管以电子阅览室代表的数字化时代带来了许多便利和创新,但传统智慧图书馆依然具有重要的价值和意义。以下是一些原因: 1. 保存历史文化:传统智慧图书馆是保存历史文化遗产的重要载体,收藏了许多珍贵的古籍、手稿和纸质图书&#…

基于 Amazon EC2 快速部署 Stable Diffusion WebUI + chilloutmax 模型

自2023年以来,AI绘图已经从兴趣娱乐逐渐步入实际应用,在众多的模型中,作为闪耀的一颗明星,Stable diffusion已经成为当前最多人使用且效果最好的开源AI绘图软件之一。Stable Diffusion Web UI 是由AUTOMATIC1111 开发的基于 Stabl…

vue-cl-service不同环境运行/build配置

概述 在项目开发过程中,同一个项目在开发、测试、灰度、生产可能需要不同的配置信息,所以如果能根据环境的不同来设置参数很重要。 vue项目的vue-cl-service插件也支持不同环境的不同参数配置和打包。 实现 新建不同环境配置文件 vue项目中的配置文件以…

面向对象程序设计之从C到C++的初步了解

1. C语言 1. C的发展 C是从C语言发展演变而来的,首先是一个更好的C引入了类的机制,最初的C被称为“带类的C”1983年正式取名为C 从1989年开始C语言的标准化工作 于1994年制定了ANSIC标准草案 于1998年11月被国际标准化组织(ISO)批准为国际标准&#xf…

Ubuntu系统安装

目录 安装准备 安装步骤 虚拟机配置 系统安装 安装准备 Ubuntu系统镜像,虚拟机环境 虚拟机环境 使用的虚拟机软件为VMware Workstation 系统镜像 阿里镜像站:阿里巴巴开源镜像站-OPSX镜像站-阿里云开发者社区 (aliyun.com)https://developer.aliyun.com…

记一次使用mysql存储过程时,游标取值为空问题

call modify_collation(num,count_num) > 1146 - Table test.table_name doesnt exist > 时间: 0.009s 我在使用mysql存储过程时,打印时游标取值为空,报错找不到表。我的过程语句是这样的: drop procedure if exists modify_collation…

Redis中大Key与热Key的解决方案

原文地址:https://mp.weixin.qq.com/s/13p2VCmqC4oc85h37YoBcg 在工作中Redis已经成为必备的一款高性能的缓存数据库,但是在实际的使用过程中,我们常常会遇到两个常见的问题,也就是文章标题所说的大 key与热 key。 一、定义 1.1…

THS6011启动控制台后无法使用https访问控制台(by yz+lqw)

原因: 6011相对于6010版本,多了一个ssl的开关,下图是6010版本的参考配置: 而6011版本下的conf目录下的http.yaml,里面的ssl开关,默认是关闭的,也就是enable:false. 所以需要把enable&#xf…