【多视图聚类】COMPLETER:Incomplete Multi-view Clustering via Contrastive Prediction

在这里插入图片描述

CVPR 2021

0.摘要

在本文中,我们研究了不完全多视图聚类分析中的两个具有挑战性的问题,即i)如何在没有标签的帮助下学习不同视图之间的信息性和一致性表示,以及ii)如何从数据中恢复缺失的视图。为此,我们提出了一个新的目标,从信息论的角度将表征学习和数据恢复结合到一个统一的框架中。具体来说,通过对比学习最大化不同视图之间的互信息来学习信息一致的表示,通过双重预测最小化不同视图的条件熵来恢复缺失的视图。据我们所知,这可能是第一个提供统一一致表示学习和交叉视图数据恢复的理论框架的工作。大量的实验结果表明,该方法在四个具有挑战性的数据集上显著优于10种有竞争力的多视图聚类方法。

1.研究背景

在现实世界中,通常表现出异构属性的多视图数据是从不同的传感器收集的,或者是从各种特征提取器获得的。作为最重要的无监督多视图方法之一,多视图聚类(MVC)旨在以无监督的方式将数据点分成不同的聚类[11,17,20,29,40,54]。为了实现这一目标,关键是探索不同视图之间的一致性,以便学习一个公共/共享的表示[5,12,14,21,33,47]。在一致性学习的背后,隐含的假设是视图是完整的,即所有数据点将出现在所有可能的视图中。

然而,在实际应用中,由于数据采集和传输的复杂性,数据点的某些视图可能会丢失,从而导致所谓的不完全多视图问题。例如,在在线会议中,由于传感器故障,一些视频帧可能会丢失视觉或音频信号。为了解决IMP,已经提出了一些不完全多视图聚类算法(IMC),通过采用许多数据恢复方法来完成缺失的数据,例如基于矩阵分解的方法[10,22,35,46,53]和基于生成对抗网络的方法[16,41,45]。这些作品试图克服以下两个挑战:i)如何学习跨不同视图的信息丰富和一致的表示?以及ii)如何消除缺失视图的影响?虽然已经取得了一些有希望的结果,但几乎所有现有的工作都将这两个挑战视为两个独立的问题,仍然缺乏统一的理论理解。

与现有的IMC研究不同,我们从理论上表明,跨视图一致性学习和数据恢复可以被视为一枚硬币的两面,这两个具有挑战性的任务可以相互促进。我们的动机来自[38],如图1所示。应该指出的是,[38]利用预测学习来增强对比学习的性能,而我们的目标是通过双重预测来恢复缺失的数据。此外,另一个不同之处在于我们的理论结果,即数据恢复和一致性学习可以通过对比学习和双重预测相互促进。

在这里插入图片描述
图一。我们的基本观察和理论结果是从信息论的角度出发的。在该图中,实心矩形和虚线矩形分别表示包含在视图1( X 1 \mathbf{X}^1 X1)和视图2( X 2 \mathbf{X}^2 X2)中的信息。在数学中,互信息 I ( Z 1 , Z 2 ) I(\mathbf{Z}^1, \mathbf{Z}^2) I(Z1,Z2)(灰色区域)量化由 Z 1 \mathbf{Z}^1 Z1 Z 2 \mathbf{Z}^2 Z2共享的信息量,其中 Z 1 \mathbf{Z}^1 Z1 Z 2 \mathbf{Z}^2 Z2分别是 X 1 \mathbf{X}^1 X1 X 2 \mathbf{X}^2 X2的表示。为了学习一致的表示,鼓励最大化 I ( Z 1 , Z 2 ) I(\mathbf{Z}^1, \mathbf{Z}^2) I(Z1,Z2)。此外,最小化条件熵 H ( Z i ∣ Z j ) H(\mathbf{Z}^i|\mathbf{Z}^j) H(ZiZj)(蓝色区域)将鼓励丢失视图的恢复,因为当且仅当条件熵 H ( Z i ∣ Z j ) H(\mathbf{Z}^i|\mathbf{Z}^j) H(ZiZj)=0时, Z i \mathbf{Z}^i Zi完全由 Z j \mathbf{Z}^j Zj确定,其中i=1,j=2或i=2,j=1。微妙地,一方面, I ( Z 1 , Z 2 ) I(\mathbf{Z}^1, \mathbf{Z}^2) I(Z1,Z2)的最大化可以增加共享信息量,因此可以受益于数据可恢复性,即,更容易从一个视图恢复另一个视图。另一方面,由于 H ( Z i ∣ Z j ) H(\mathbf{Z}^i|\mathbf{Z}^j) H(ZiZj)量化了基于 Z j \mathbf{Z}^j Zj Z i \mathbf{Z}^i Zi的信息量,因此 H ( Z i ∣ Z j ) H(\mathbf{Z}^i|\mathbf{Z}^j) H(ZiZj)的最小化将鼓励丢弃跨视图的不一致信息,从而可以进一步提高一致性。通过上述观察,在上述统一信息论框架下,交叉视图一致性和数据恢复被视为一枚硬币的两面。

基于我们的观察和理论结果,我们提出了一种新的不完全多视图聚类方法,称为基于对比预测的不完全多视图聚类(COMPLETER)。具体来说,COMPLETER将给定的数据集投影到特征空间中,其中使用三个联合学习目标来保证信息一致性和数据可恢复性。更具体地说,视图内重建损失用于学习视图特定的表示,从而避免了琐碎的解决方案。在潜在特征空间中,通过最大化互信息 I ( Z 1 , Z 2 ) I(\mathbf{Z}^1, \mathbf{Z}^2) I(Z1,Z2)引入对比损失来学习交叉视图一致性,并通过最小化条件熵 H ( Z 1 ∣ Z 2 ) H(\mathbf{Z}^1|\mathbf{Z}^2) H(Z1Z2) H ( Z 2 ∣ Z 1 ) H(\mathbf{Z}^2|\mathbf{Z}^1) H(Z2Z1)使用双重预测损失来恢复缺失视图。需要指出的是,本文中提到的数据恢复是面向任务的,即只恢复共享信息而不是所有信息,以方便MVC等下游任务。总结一下:

•我们为学界提供了一种新的见解,即不完全多视图聚类的数据恢复和一致性学习具有内在联系,可以优雅地统一到信息论的框架中。这种理论观点与将一致性学习和数据恢复视为两个独立问题的现有工作明显不同。
•所提出的COMPLETER方法具有新的损失函数,该函数使用对比损失和双重预测损失来实现信息一致性和数据可恢复性。大量实验验证了所提损失函数的有效性。

2.相关工作

在这一节中,我们简要回顾了两个相关主题的一些最新进展,即不完全多视图聚类和对比学习。

2.1 缺失多视图聚类

基于利用多视图信息的方式,大多数现有的IMC方法可以大致分为三类,即基于矩阵分解(MF)的IMC[10,22,35,53],基于谱聚类的IMC[39]和基于核学习的IMC[26]。简单地说,基于MF的方法利用低秩将不完全数据投影到一个公共子空间中。例如,DAIMC[10]在 l 2 , 1 \mathcal{l}_{2,1} l2,1范数的帮助下建立了共识基础矩阵,IMG[53]利用 l F \mathcal{l}_{F} lF范数来减少缺失数据的影响。作为一种典型的基于谱聚类的方法,PIC[39]使用从不完全视图构建的一致拉普拉斯图来学习公共表示。EERIMVC[26]提出使用多核方法以迭代优化的方式实现IMC。此外,像[16,41]这样的方法利用cycleGAN[55]从完整的视图中生成缺失的视图,CDIMC-net[44]结合了视图特定的编码器和图形嵌入策略来处理不完整的多视图数据。

这项研究与现有工作之间的差异如下。首先,我们的目标是推断缺失的数据,而不是缺失的相似性,从而享有更高的可解释性[26]。第二,我们的方法是一个深层而非浅层模型[10,19,22,26,35,39,53],因此自然包含了处理复杂和大规模数据集的能力。第三,几乎所有现有的IMC方法[10,16,22,26,35,39,41,53]都将数据恢复和一致性学习视为两个独立的问题/步骤,而缺乏理论上的理解。相比之下,我们提出数据恢复和一致性学习可以统一到信息论的框架中[36]。数据恢复和一致性学习都有利于学习公共表示。

2.2 对比学习

作为最有效的无监督学习范式之一,对比学习[2, 4, 8, 23, 28, 30, 37, 38]在表征学习中取得了最先进的性能。对比学习的基本思想是通过最大化正对之间的相似性同时最小化负对之间的相似性,从原始数据中学习特征空间。最近的一些研究表明,对比学习的成功可以归因于互信息的最大化。例如,MoCo[9]和CPC[30]最小化可被视为最大化互信息下限的InfoNCE损失,即 I ( Z 1 , Z 2 ) ≥ l o g ( N ) − L N C E I(\mathbf{Z}^1, \mathbf{Z}^2) ≥ log(N ) − \mathcal{L}_{NCE} I(Z1,Z2)log(N)LNCE,其中N是负对的数量, Z 1 \mathbf{Z}^1 Z1 Z 2 \mathbf{Z}^2 Z2分别是多视图数据 X 1 \mathbf{X}^1 X1 X 2 \mathbf{X}^2 X2的潜在表示。

这项工作与现有的对比学习研究之间的差异如下。首先,大多数现有的对比学习方法[2,8,9,28]旨在处理单视图数据,并详尽地探索各种数据增强,以构建不同的视图/增强。相比之下,我们的方法旨在从给定的多视图数据集中学习一致性。据我们所知,这可能是关于多视图对比学习的首批研究之一。第二,我们的方法是专门为处理缺失数据而设计的,而现有的对比学习工作忽略了这个实际问题。第三,尽管现有的对比学习研究表明,一致性可以通过最大化不同增强的互信息来学习,但它们忽略了不一致性学习。在一个统一的信息论框架下,我们证明了不一致性学习可以用条件熵来定义,并且通过最小化不一致性来恢复缺失数据。

3.方法

在本节中,我们提出了一种深度多视图聚类方法,称为通过对比预测的不完全多视图聚类(COMPLETER),用于学习具有一组不完全多视图样本的表示。如图2所示,COMPLETER由三个联合学习目标组成,即视图内重建、交叉视图对比学习和交叉视图双重预测。为了清楚起见,我们将首先介绍建议的损失函数,然后详细说明每个目标。

在这里插入图片描述
图二。COMPLETER概述。在图中,双视图数据被用作展示。如图所示,我们的方法包含三个联合学习目标,即视图内重建、跨视图对比学习和跨视图双重预测。具体地说,视图内重建目标旨在以最小的重建损失将所有视图投影到视图特定的空间中。跨视图对比学习目标通过最大化 Z 1 \mathbf{Z}^1 Z1 Z 2 \mathbf{Z}^2 Z2之间的互信息来实现。跨视图对偶预测目标利用两个映射 G ( 1 ) G^{(1)} G(1) G ( 2 ) G^{(2)} G(2)通过最小化条件熵 H ( Z i ∣ Z j ) H(\mathbf{Z}^i|\mathbf{Z}^j) H(ZiZj)从另一个视图恢复一个视图。

3.1 目标函数

在不丧失一般性的情况下,我们以双视图数据为例。给定n个实例的数据集 X ˉ = { X ˉ 1 , 2 , X ˉ 1 , X ˉ 2 } \bar{\mathbf{X}} = \{ \bar{\mathbf{X}}^{1,2}, \bar{\mathbf{X}}^1, \bar{\mathbf{X}}^2\} Xˉ={Xˉ1,2,Xˉ1,Xˉ2} X ˉ 1 , 2 \bar{\mathbf{X}}^{1,2} Xˉ1,2, X ˉ 1 \bar{\mathbf{X}}^{1} Xˉ1, X ˉ 2 \bar{\mathbf{X}}^{2} Xˉ2分别表示在两个视图中呈现的示例,仅第一个视图和仅第二个视图。设m是完整的样本 X ˉ 1 , 2 \bar{\mathbf{X}}^{1,2} Xˉ1,2的数据大小, X v \mathbf{X}^v Xv X ˉ 1 , 2 \bar{\mathbf{X}}^{1,2} Xˉ1,2的第v个视图,那 X ˉ 1 , 2 = { X 1 , X 2 } \bar{\mathbf{X}}^{1,2}=\{ {\mathbf{X}}^1, {\mathbf{X}}^2\} Xˉ1,2={X1,X2}.

根据上述定义,我们提出以下目标函数:
在这里插入图片描述

其中 L c l \mathcal{L}_{cl} Lcl L p r e \mathcal{L}_{pre} Lpre L r e c \mathcal{L}_{rec} Lrec分别是跨视图对比损失、双重预测损失和视图内重建损失。参数 λ 1 λ_1 λ1 λ 2 λ_2 λ2分别是 L p r e \mathcal{L}_{pre} Lpre L r e c \mathcal{L}_{rec} Lrec的平衡因子。在我们的实验中,我们简单地将这两个参数固定为0.1。

3.1.1 视图内重建

对于每个视图,我们通过一个自动编码器来学习潜在的表示 Z v \mathbf{Z}^v Zv,方法是最小化

在这里插入图片描述

其中 X t v \mathbf{X}^v_t Xtv表示 X v \mathbf{X}^v Xv的第t个样本。 f ( v ) f^{(v)} f(v) g ( v ) g^{(v)} g(v)分别表示第v个视图的编码器和解码器。因此,第 t t t个样本在第 v v v个视图中的表示由
在这里插入图片描述
其中 Z v \mathbf{Z}^v Zv表示 X v \mathbf{X}^v Xv的表示并且 v ∈ { 1 , 2 } v∈\{1,2\} v{1,2}。应该指出的是,自动编码器结构有助于避免琐碎的解决方案。

3.1.2 跨视图对比学习

跨视图对比学习:在 L r e c \mathcal{L}_{rec} Lrec参数化的潜在空间中,我们进行对比学习,以学习不同视图之间共享的共同表示。不同于大多数现有的对比学习研究[9,30]学习表示 Z 1 \mathbf{Z}^1 Z1 Z 2 \mathbf{Z}^2 Z2通过最大化互信息的下界,我们直接最大化不同视图的表示之间的互信息。从数学上讲,

在这里插入图片描述
其中 I I I表示互信息, H H H是信息熵,在我们的实验中,参数 α α α被设置为9以正则化熵。我们根据以下目标设计这一目标。一方面,从信息论上讲,信息熵是一个事件传达的平均信息量[3]。因此,较大的熵 H ( Z i ) H(\mathbf{Z}^i) H(Zi)表示信息量更大的表示 Z i \mathbf{Z}^i Zi。另一方面, H ( Z 1 ) H(\mathbf{Z}^1) H(Z1) H ( Z 2 ) H(\mathbf{Z}^2) H(Z2)的最大化将避免将所有样本分配到同一个聚类的琐碎解决方案。

为了表述 I ( Z t 1 , Z t 2 ) I(\mathbf{Z}^1_t, \mathbf{Z}^2_t) I(Zt1,Zt2),我们首先定义变量 z z z z ’ z’ z的联合概率分布 P ( z , z ′ ) \mathcal{P(z, z^′)} P(z,z)。由于softmax函数堆叠在编码器的最后一层, Z 1 \mathbf{Z}^1 Z1 Z 2 \mathbf{Z}^2 Z2的每个元素可以被视为过簇类概率,如[13,15,34]。换句话说, Z 1 \mathbf{Z}^1 Z1 Z 2 \mathbf{Z}^2 Z2可以理解为两个离散的聚类分配变量 z z z z ′ z^′ z在D个“类”上的分布,其中D是 Z 1 \mathbf{Z}^1 Z1 Z 2 \mathbf{Z}^2 Z2的维数。因此, P ( z , z ′ ) \mathcal{P(z, z^′)} P(z,z)被定义为 P ∈ R D × D \mathbf{P} ∈ \mathcal{R}^{D×D} PRD×D,即,

在这里插入图片描述
P d \mathbf{P}_d Pd P ’ d \mathbf{P}’_d Pd表示边际概率分布 P ( z = d ) P(z = d) P(z=d) P ( z ′ = d ′ ) P(z^′ = d^′) P(z=d),它们可以通过对联合概率分布矩阵 P \mathbf{P} P的第 d d d行和第 d ’ d’ d列求和来获得。期望 z z z z ’ z’ z具有同等的重要性, P \mathbf{P} P进一步通过 ( P + P T ) / 2 (\mathbf{P}+\mathbf{P}^T)/2 P+PT/2计算。对于离散分布,等式(4)给出如下:

在这里插入图片描述其中 P d d ’ \mathbf{P}_{dd’} Pdd P P P的第 d d d行和第 d ’ d’ d列的元素, α α α是等式(4)中定义的熵的平衡参数。等式(4)到等式(6)中的细节在补充材料中提出

3.1.3 跨视图对偶预测

为了推断缺失的视图,我们提出了如图2所示的双重预测机制。具体地,在由神经网络参数化的潜在空间中,视图特定表示将由另一个通过最小化熵 H ( Z i ∣ Z j ) H(\mathbf{Z}^i|\mathbf{Z}^j) H(ZiZj)来预测,其中i=1,j=2或i=2,j=1。这种双重预测机制具有如图1中详细阐述的理论解释。简而言之, Z i \mathbf{Z}^i Zi完全由 Z j \mathbf{Z}^j Zj决定当且仅当条件熵 H ( Z i ∣ Z j ) = − E P Z i , Z j [ l o g P ( Z i ∣ Z j ) ] = 0 H(\mathbf{Z}^i|\mathbf{Z}^j) = −\mathbb{E}_{P_{Z^i,Z^j} }[log \mathcal{P}(\mathbf{Z}^i|\mathbf{Z}^j)] = 0 H(ZiZj)=EPZi,Zj[logP(ZiZj)]=0。为了解决这个目标,一种常见的近似方法是引入变分分布 Q ( Z i ∣ Z j ) \mathcal{Q}(\mathbf{Z}^i|\mathbf{Z}^j) Q(ZiZj)并最大化 E P Z i , Z j [ l o g Q ( Z i ∣ Z j ) ] \mathbb{E}_{P_{Z^i,Z^j} }[log \mathcal{Q}(\mathbf{Z}^i|\mathbf{Z}^j)] EPZi,Zj[logQ(ZiZj)],其是 E P Z i , Z j [ l o g P ( Z i ∣ Z j ) ] \mathbb{E}_{P_{Z^i,Z^j} }[log \mathcal{P}(\mathbf{Z}^i|\mathbf{Z}^j)] EPZi,Zj[logP(ZiZj)]的下界,即,

在这里插入图片描述

这种变分分布 Q \mathcal{Q} Q可以是任何类型,如高斯分布[7]和拉普拉斯分布[55]。在实践中,我们简单地假设分布 Q \mathcal{Q} Q为高斯分布 N ( Z i ∣ G ( j ) ( Z j ) , σ I ) \mathcal{N}(\mathbf{Z}^i| G(j) (\mathbf{Z}^j) , σ\mathbf{I}) N(ZiG(j)(Zj),σI),其中 G ( j ) ( ⋅ ) G^{(j)}(·) G(j)()可以是将 Z j \mathbf{Z}^j Zj映射到 Z i \mathbf{Z}^i Zi的参数化模型, σ I σ\mathbf{I} σI是方差矩阵。通过忽略从高斯分布导出的常数,最大化 E P Z i , Z j [ l o g Q ( Z i ∣ Z j ) ] \mathbb{E}_{P_{Z^i,Z^j} }[log \mathcal{Q}(\mathbf{Z}^i|\mathbf{Z}^j)] EPZi,Zj[logQ(ZiZj)]等价于

在这里插入图片描述
对于给定的双视图数据集,我们还具有
在这里插入图片描述
需要指出的是,上述损失可能导致没有视图内重建损失的平凡解,即 Z 1 \mathbf{Z}^1 Z1 Z 2 \mathbf{Z}^2 Z2等价于相同的常数。模型收敛后,很容易通过上述对偶映射从 Z ˉ j \bar{\mathbf{Z}}^j Zˉj预测缺失的表示 Z ˉ i \bar{\mathbf{Z}}^i Zˉi ,即,

在这里插入图片描述
Z ˉ j \bar{\mathbf{Z}}^j Zˉj X ˉ j \bar{\mathbf{X}}^j Xˉj的特征表示。

3.2 实现细节

如图2所示,COMPLETER由两个训练模块组成,即两个视图特定自动编码器和两个跨视图预测网络。对于这两个模块,我们简单地采用一个全连接网络,其中每一层后面都是一个批处理规范化层和一个ReLU层。softmax激活函数用于编码器和预测模块的最后一层。在补充材料中,已经介绍了我们模型的所有细节。

在训练阶段,我们使用完整的数据 X ˉ 1 , 2 \bar{\mathbf{X}}^{1,2} Xˉ1,2以端到端的方式训练COMPLETER。具体来说,我们在前100个时期通过 L c l \mathcal{L}_{cl} Lcl L r e c \mathcal{L}_{rec} Lrec训练自动编码器,以稳定双重预测的训练。然后,我们用 L \mathcal{L} L训练整个网络400个epochs。一旦网络收敛,我们将整个数据集馈送到网络中,以获得所有视图的表示,包括缺失的那些。之后,通过简单地将所有特定于视图的表示连接在一起而获得的公共表示被进一步馈送到k-means中,以获得像传统方式一样的聚类结果[1, 10, 22, 25, 26, 32, 39, 42, 43, 48, 49, 53]。

4.实验

在本节中,我们在四个广泛使用的多视图数据集上评估所提出的COMPLETER方法,并比较了10种多视图聚类方法。

4.1 实验设置

我们的实验中使用了四个广泛使用的数据集。简而言之,Caltech101-20[24]由20个对象的2386张图像组成,具有HOG和GIST特征的视图。Scene-15[6]由分布在15个场景类别中的4485幅图像组成,具有PHOG和GIST特征。LandUse-21[50]由21个类别的2100幅卫星图像组成,具有PHOG和LBP特征。噪声MNIST[42]使用原始70k MNIST图像作为视图1,随机选择具有高斯白噪声的类内图像作为视图2。由于大多数基线无法处理如此大的数据集,我们只能使用由10k验证图像和10k测试图像组成的噪声MNIST子集。

为了评估处理不完整多视图数据的性能,我们通过随机移除一个视图来随机选择一些实例作为不完整数据。缺失率η定义为 η = ( n − m ) / n η = (n − m)/n η=(nm)/n,其中m是完整示例的数量,n是整个数据集的数量。为了进行综合分析,使用了三种广泛使用的聚类度量,包括归一化互信息(NMI)、准确度(ACC)和调整后的兰德指数(ARI)。这些指标的值越高表示聚类性能越好。

我们在PyTorch 1.2[31]中实现了我们的COMPLETER,并在带有NVIDIA 2080Ti GPU的标准Ubuntu-18.04操作系统上进行了所有评估。我们使用带有默认参数的Adam optimizer[18]来训练我们的模型,并将初始学习率设置为0.0001。在所有数据集上,批处理大小设置为256,最大训练时期固定为500。对于所有数据集,熵参数 α α α固定为9,折衷超参数 λ 1 λ_1 λ1 λ 2 λ_2 λ2固定为0.1。在我们的实现环境中,COMPLETER在Caltech101-20上训练一个模型大约需要60秒,在Scene-15上训练80秒,在LandUse-15上训练50秒,在NoisyMNIST上训练500秒。

4.2 与SOTA的比较

我们将COMPLETER与10种多视图聚类方法进行了比较,包括深度典型相关分析(DCCA)[1]、深度典型相关自动编码器(DCCAE)[42]、二进制多视图聚类(BMVC)[52]、自动编码器网络(AE2-Nets)中的自动编码器[51]、部分多视图聚类(PVC)[22]、高效有效的正则化不完全多视图聚类(EERIMVC)[26]、双对齐不完全多视图聚类(DAIMC)[10]、不完全多模态可视数据分组(IMG)[53]、统一嵌入对齐框架(UEAF)[43]和扰动导向不完全多视图聚类(IMC)[53]。前四种方法只能处理完整的多视图数据,因此我们用同一视图的平均值来填充缺失的数据。对于所有方法,我们使用推荐的网络结构和参数进行公平比较。简而言之,对于基于CCA的方法(即DCCA和DCCAE),我们将隐藏表示维度固定为10。对于BMVC,我们将二进制代码的长度固定为128。对于EERIMVC,我们利用“高斯核”来构造核矩阵,并寻求从 2 − 15 2^{−15} 215 2 15 2^{15} 215的最优λ,区间为 2 3 2^3 23

我们在两种设置中测试了所有方法,即缺失率η=0.5(不完整表示)和η=0(完整表示)。平均聚类结果是通过用五次随机初始化和数据集分区重复每种方法获得的。

如表1所示,COMPLETER在所有四个数据集上都以较大的性能优势显著优于这些最先进的基线。在不完整设置中,就NMI而言,COMPLETER在Caltech101-20上超过最佳基线3.07%,在Scene-15上超过4.37%,在NoisyMNIST上超过14.68%。此外,就ARI而言,COMPLETER比Caltech101-20和NoisyMNIST的最佳基线性能提高了50%以上。在完整设置中,COMPLETER也显著优于几乎所有基线。由于我们的对比学习和双重预测的统一理论框架,令人鼓舞的表现证明了COMPLETER的有前途的代表性。

在这里插入图片描述
表1。四个具有挑战性的数据集上的聚类性能比较。“-”表示由于内存不足而导致的不可用结果。第一/第二最佳结果用红色/蓝色表示。

4.3 不同缺失率下的性能

为了进一步研究我们方法的有效性,我们通过在Caltech101-20上将缺失率η从0变化到0.9,间隙为0.1来进行实验。当缺失率为0.9时,整个训练数据的大小小于一个数据batch的大小,因此我们将批大小减少到128。从图3中的结果,人们可以观察到:i)COMPLETER显著优于所有所有缺失率设置中的测试基线;ii)随着丢失率的增加,所比较方法的性能下降比我们的方法大得多。例如,COMPLETER和PIC在η=0时的NMI分别为0.6806和0.6793,而随着缺失率的增加,COMPLETER明显优于PIC。

在这里插入图片描述图3.不同缺失率( η η η)的Caltech101-20的性能比较。

4.4 参数分析和消融实验

在本节中,我们从两个角度分析Caltech101-20数据集上的COMPLETER,即参数敏感性分析和消融研究。在评价中,缺失率 η η η固定为0.5。

我们的方法包含三个用户指定的参数,即熵参数 α α α、预测权衡参数 λ 1 λ_1 λ1和重建权衡参数 λ 2 λ_2 λ2。在接下来的研究中,我们首先通过将 λ 1 λ_1 λ1 λ 2 λ_2 λ2固定为0.1并改变 α α α的值来研究 α α α、表示的信息熵 H ( Z i ) H(Z^i) H(Zi)和聚类性能之间的关系。如图5所示,信息熵随 α α α逐步增长。具体来说,随着信息熵的增加(从左到右),聚类性能(ACC、NMI和ARI)先提高后降低。原因可能是由于以下几个方面。一方面,增加的熵(表示中包含的信息)将放大互信息,这进一步提高了聚类性能。另一方面,随着α的增加,过度信息表示将抑制等式(4)中的互信息项然后一致性降低。

在这里插入图片描述
图5.Caltech101-20上COMPLETER随熵 α α α增加的聚类结果。x轴表示 α α α,左右y轴分别表示聚类性能和信息熵。

为了评估 λ 1 λ_1 λ1 λ 2 λ_2 λ2的影响,我们在{0.01,0.1,1,10,100}的范围内改变它们的值。如图4所示,我们的方法对 λ 1 λ_1 λ1的选择是鲁棒的。此外, λ 2 λ_2 λ2的良好选择将显著提高COMPLETER的性能。

在这里插入图片描述
图4.Caltech101-20的参数分析。

为了进一步验证COMPLETER中每个模块的重要性,我们进行了以下消融研究。详细地,设计了以下七个实验来隔离对比损失 L c l \mathcal{L}_{cl} Lcl、重建损失 L r e c \mathcal{L}_{rec} Lrec和双重预测损失 L p r e \mathcal{L}_{pre} Lpre的影响。如表2所示,所有损失项在COMPLETER中都扮演着不可或缺的角色。需要指出的是,单独优化双预测损失 L p r e \mathcal{L}_{pre} Lpre可能会导致琐碎的解决方案。为了解决这个问题,我们在每个全连接层中添加一个批量规范化层,并报告相应的结果。

在这里插入图片描述

4.5 理论结果的可视化验证

在本节中,我们进行实验来验证图1中给出的理论结果。通过可视化恢复的视图和公共表示,在有噪声的MNIST数据集上进行实验。在实验中,丢失率η固定为0.5。与大多数现有的不完整多视图方法不同,COMPLETER可以显式地推断缺失视图的表示。结果,可以通过解码器获得原始空间中的相应重建。为了示出COMPLETER的可恢复性,图6直观地示出了一些恢复的来自Noisy MNIST的例子。从结果中,人们可以得出以下观察结果。在前三行中,恢复的图像(第3行)与完整的图像(第1行)非常相似,同时具有与丢失视图(第2行)相同的干净背景。在底部三行中,即使COMPLETER从具有干净而不是嘈杂背景的图像中恢复了丢失的图像,也可以获得类似的观察结果。简而言之,COMPLETER可以恢复重要信息,同时丢弃本例中的噪声等模糊特征。

在这里插入图片描述
图6.噪声MNIST上的数据恢复。第1行和第4行是完整视图,第2行和第5行是缺失视图,第3行和第6行是从完整视图恢复的结果。

应该注意的是,该示例中的语义信息和噪声背景可以被视为两个视图的一致性和不一致性。因此,上述观察的原因是双重的。一方面,由于互信息的最大化,恢复的视图将包含两个可用视图的共享信息(语义信息而不是噪声)。另一方面,为数据恢复设计的条件熵最小化可以巧妙地丢弃不同视图中的不一致信息。结果,丢失视图中的噪声将在恢复期间被抑制。这验证了我们理论的有效性。除了上述可视化,我们还演示了所学公共表征的t-sne [27]可视化。如图7所示,随着epoch的增加,所学习的表示变得更加紧凑和有区别。

在这里插入图片描述
图7.随着训练迭代的增加,噪声MNIST数据集上的t-sne可视化。

4.6 收敛性分析

在本节中,我们通过报告损失值和相应的聚类性能随着epoch的增加来研究完成器的收敛性。如图8所示,可以观察到损耗在前200个epoch显著降低,同时ACC、NMI和ARI连续增加。

在这里插入图片描述
图8.Caltech101-20上epoch增加的COMPLETER的聚类性能。x轴表示训练时期,左右y轴分别表示聚类性能和相应的损失值。

5.讨论

为了从给定的多视图数据中学习公共表示,其中一些视图缺失,本文提出了一种包含严格的数学动机和信息论解释的COMPLETER。简而言之,我们将一致性学习视为一枚硬币的两面,而不是两个独立的问题。这样一个统一的框架将为社区提供理解一致性学习和数据恢复的新见解。在未来,我们计划进一步探索我们的理论框架在其他多视图学习任务中的潜力,例如object ReId。此外,将其扩展到处理图像翻译任务也是有希望的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/21821.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英伟达开源新利器NV-Embed向量模型,基于双向注意力的LLM嵌入模型,MTEB 56项任务排名第一

前言 文本嵌入模型能够将文本信息转化为稠密的向量表示,并在信息检索、语义相似度计算、文本分类等众多自然语言处理任务中发挥着关键作用。近年来,基于解码器的大型语言模型 (LLM) 开始在通用文本嵌入任务中超越传统的 BERT 或 T5 嵌入模型&#xff0c…

Centos 7之Hadoop搭建

介绍 Hadoop Distributed File System简称 HDFS,是一个分布式文件系统。HDFS 有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throu…

三分钟“手撕”队列与习题

代码放开头,方便大家查阅 目录 一、实现代码 二、什么是队列 三、队列常见方法 入队push() 出队 四、Queue使用 Java自带的Queue 双端队列 五、习题 循环队列 用队列实现栈 用栈实现队列 一、实现代码 package demo2;publi…

一款小众清新的Typecho主题

源码介绍 DearLicy主题,一款小众化小清新风格的博客主题 主题支持Typecho所支持的所有版本PHP 简约、小众、优雅 源码截图 安装教程 将主题上传至/usr/themes/文件夹下解压后台进行启用访问前台查看效果 源码下载 https://www.qqmu.com/3378.html

一键设置常用纸张和页面边距-Word插件-大珩助手

Word大珩助手是一款功能丰富的Office Word插件,旨在提高用户在处理文档时的效率。它具有多种实用的功能,能够帮助用户轻松修改、优化和管理Word文件,从而打造出专业而精美的文档。 【新功能】常用纸张和常用边距 1、一键设定符合中国人常用…

273 基于matlab的改进型节点重构小波包频带能量谱与 PNN(概率神经网络)的联合故障诊断新方法

基于matlab的改进型节点重构小波包频带能量谱与 PNN(概率神经网络)的联合故障诊断新方法。针对风电机组故障信号的非平稳性以及故障与征兆的非线性映射导致的故障识别困难问题,提出了改进型的节点重构小波包频带能量谱与PNN(概率神…

大数据数据治理工具

大数据数据治理-CSDN博客 大数据数据治理工具: 开源工具: Apache Atlas: 一个开源的数据治理和元数据框架,为Hadoop生态系统提供数据分类、管理和安全功能。 Apache Ranger: 一个集中式安全管理框架,用于…

Java Web学习笔记2——Web开发介绍

什么是Web? Web:全球广域网,也称为万维网(WWW World Wide Web),能够通过浏览器访问的网站。 1)淘宝、京东、唯品会等电商系统; 2)CRM、OA、ERP企业管理系统&#xff1…

ubuntu-server(22.04)安装

准备工作 首先我们先从网上获取ubuntu的iso镜像文件 Index of /ubuntu-releases/22.04/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 我们安装这个最小包即可 找到我们ubuntu安装完成后所需要下载安装源的网址(常用是阿里云) ubuntu安装…

手写节流throttle

节流throttle 应用场景 滚动事件监听scroll:例如监听页面滚动到底部加载更多数据时,使用节流技术减少检查滚动位置的频率,提高性能。鼠标移动事件mousemove:例如实现一个拖拽功能,使用节流技术减少鼠标移动事件的处理…

分布式session共享配置

目录 1、spring-session 1.1 添加依赖 1.2 spring-mvc.xml配置文件 1.3 web.xml 2、tomcat配置session、共享 2.1 Tomcat配置 2.2 Web.xml配置 1、spring-session 官方文档:https://docs.spring.io/spring-session/docs/1.3.0.RELEASE/reference/html5/ 1.…

OpenCV中的圆形标靶检测——斑点检测算法(一)

1.导读 在上一节内容中我们简要描述了OpenCV中实现圆形标靶检测的API的使用方法,其处理流程可大致分为1)斑点形状的检测,和2)基于规则的斑点形状的过滤与定位。第一步将类似圆斑形状的区域检测出来,但可能存在一些误检测的噪声,第二步则利用圆斑的分布规则(M*N排列)进行…

攻防世界---misc---can_has_stdio?

1、下载附件是一个没有后缀的文件,尝试将后缀改为txt发现里面有一些特殊字符的编码 2、查阅资料得知它是一种编程代码 3、知道了它是什么代码之后,我们就去解码(网址:El Brainfuck (copy.sh)) 4、 flag{esolangs_for_f…

ChatTTS,语气韵律媲美真人的开源TTS模型,文字转语音界的新魁首,对标微软Azure-tts

前两天 2noise 团队开源了ChatTTS项目,并且释出了相关的音色模型权重,效果确实非常惊艳,让人一听难忘,即使摆在微软的商业级项目Azure-tts面前,也是毫不逊色的。 ChatTTS是专门为对话场景设计的文本转语音模型&#x…

文件上传题目练习

[HNCTF 2022 Week1]easy_upload 先尝试上传一个php文件,发现直接就成功了 用蚁剑测试连接成功 找到flag [NISACTF 2022]bingdundun~ 白名单上传 这里因为尝试了很多绕过方式都不成功,去搜索了一下wp,发现要用到Phar://伪协议 补充&#xff…

SSRF及相关例题

SSRF及相关例题 服务端请求伪造(Server Side Request Forgery, SSRF)指的是攻击者在未能取得服务器所有权限时,利用服务器漏洞以服务器的身份发送一条构造好的请求给服务器所在内网。SSRF攻击通常针对外部网络无法直接访问的内部系统。 SSR…

sql注入 (运用sqlmap解题)

注:level参数 使用–batch参数可指定payload测试复杂等级。共有五个级别,从1-5,默认值为1。等级越高,测试的payload越复杂,当使用默认等级注入不出来时,可以尝试使用–level来提高测试等级。 --level 参数决定了 sql…

鸿蒙应用开发之OpenGL应用和X组件12

在这个应用程序里还有一个功能,就是点击绘画四边形作出响应,也就是触摸X组件进行响应,所以X组件的点击函数响应在前面已经做设置了回调,当用户触摸这个组件时,就会调用函数DispatchTouchEventCB,再从这个函数里调用渲染对象的函数ChangeColor来改变颜色,如下两图是不同的…

<网络安全VIP>第二篇《工业控制软件》

1 PLC PLC,(Programmable Logic Controller),可编程逻辑控制器(PLC)是种专门为在工业环境下应用而设计的数字运算操作电子系统。 2 DCS 四、DCS的发展趋势 一、DCS的基本定义 DCS是分布式控制系统(Distributed Control System)的英文缩写,在国内自控行业又称之为集…

使用wireshark分析tcp握手过程

开启抓包 tcpdump -i any host 127.0.0.1 and port 123 -w tcp_capture.pcap 使用telnet模拟tcp连接 telnet 127.0.0.1 123 如果地址无法连接,则会一直重试SYN包,各个平台SYN重试间隔并不一致,如下: 异常站点抓包展示&#xff…