摘要
近年来,不完全多视图聚类(IMVC)受到广泛关注。然而,现有研究仍然存在以下几个不足之处:1) 部分方法忽略了样本对在全局结构分布中的关联性;2) 许多方法计算成本较高,因此无法应用于大规模不完全数据的聚类任务;3) 部分方法未对二分图结构进行优化。
为了解决上述问题,提出了一种新颖的 IMVC 锚图网络(Anchor Graph Network),该方法包括一个生成模型和一个相似性度量网络。具体而言,该方法利用生成模型构建二分图,从而挖掘样本对的潜在全局结构分布。随后,使用图卷积网络(GCN)结合构建的二分图来学习结构化嵌入。值得注意的是,引入二分图可以显著降低计算复杂度,使我们的模型能够处理大规模数据。
与以往基于二分图的方法不同,方法利用二分图来引导 GCN 的学习过程。此外,还在方法中引入了一种创新的自适应学习策略,以构建稳健的二分图。大量实验表明,与当前最先进的方法相比,我们的方法在性能上具有可比性或更优的表现。
引言
现实世界中广泛存在多视图数据,其中同一样本可以通过不同的模态和视角进行描述。多视图数据的无监督聚类是机器学习领域的重要研究内容,其目标是利用视图间的互补信息和视图内的样本关联性,将样本划分到不同的簇中。
在数据采集过程中,由于传感器损坏或人为疏忽,可能导致某些视图缺失,从而形成不完全多视图数据。现有的多视图聚类方法通常假设所有视图都是完整的,因此无法直接应用于不完全数据。与传统的多视图聚类相比,不完全多视图聚类(IMVC)更具挑战性,因为缺失的数据会导致视图间互补性和一致性的信息丢失。为了解决这一挑战,近年来提出了越来越多的 IMVC 方法。
根据数学建模方式,现有的 IMVC 方法可分为两大类:传统方法和深度学习方法。传统 IMVC 方法又可进一步分为四类:核学习方法、矩阵分解方法、图学习方法和张量方法。
-
核学习方法 关注从不完整的核函数中获取一致的表示;
-
矩阵分解方法 旨在将不同视图映射到一个共享空间;
-
图学习方法 通过探索样本之间的关系,获得一致的相似性结构或共识表示;
-
张量方法 则将所有视图的图结构堆叠为张量,并利用张量约束来优化模型,以捕获所有视图之间的高阶连接。
这些方法的共同目标是获取所有视图一致同意的聚类结果。然而,大多数传统方法难以充分挖掘高阶信息,并且计算复杂度较高,难以应用于大规模数据。
考虑到深度神经网络强大的特征提取能力,近年来提出了一系列基于深度学习的 IMVC 方法。例如,Wen 等人利用编码器来获得多视图之间的一致低维表示,而 Huang 等人则利用高斯混合模型来获取样本的概率分布信息。尽管这些方法在实验中表现良好,但它们通常需要构建全局相似性矩阵,导致计算复杂度随着样本数呈二次增长,因此难以应用于大规模数据。
为了解决这一问题,一些 IMVC 方法引入了锚点(anchor)的概念。例如,基于锚点的稀疏子空间 IMVC 方法通过对共识图施加稀疏约束来进行优化,而 Zhao 等人提出了无约束锚点图卷积网络(GCN)框架,以解决高视图缺失率情况下的锚点选择问题。
尽管这些方法取得了一定的进展,但仍然存在以下不足:
-
许多 IMVC 方法仅考虑相邻样本之间的关系,忽略了全局结构信息的保持;
-
许多 IMVC 方法计算复杂度高,难以应用于大规模数据聚类任务;
-
部分方法过度关注样本嵌入的学习,而忽略了对二分图结构的优化。
本文贡献
针对上述问题,本文提出了一种新颖的锚点图网络 AGIMVC(Anchor Graph Network for IMVC),该方法主要包含一个生成模型和一个基于 GCN 的相似性度量网络。
-
生成模型 用于构建二分图,以有效捕获大规模数据的全局结构分布;
-
相似性度量网络 通过将二分图转换为新的图结构,以计算拉普拉斯矩阵,从而在 GCN 训练过程中利用二分图指导学习,捕获跨视图的高阶关系和潜在分布;
-
自适应学习策略 可动态更新锚点,以构建更加稳健的二分图结构;
-
加权融合层 用于减少缺失视图对模型的负面影响。
实验结果表明,AGIMVC 在多个数据集上取得了远超现有方法的性能。
模型
A. 问题陈述
不完整多视角聚类(IMVC)的目标是利用所有视角中的已有信息来推测缺失视角的信息,并最终将样本分为 c 个簇。
B. AGIMVC
如图 2 所示,AGIMVC 主要包含五个部分:生成模型、相似度度量网络模块、重建层、锚点更新模块以及融合层。
1) 生成模型
生成模型假设每个节点具有一个潜在分布,该分布反映了该节点与其他节点的连接性。基于生成模型的方法在获取潜在空间分布方面表现较优,并且通常具有较快的收敛速度 [45]。因此,我们利用生成模型构建二分图,从而高效地获取全局结构信息。
与其他测度不同,Wasserstein 距离可以衡量两个分布之间的距离,即使它们的重叠部分很少甚至没有 [46]。因此,我们在方法中引入 Wasserstein 距离。
在相似性学习中,一个公认的假设是:如果两个样本相似,它们的分布在特征空间中也应当接近 [47]。为了保持锚点和样本之间的相似关系,我们采用如下的距离度量准则:
其中,F(⋅)表示样本的理想特征映射分布,aj(v) 是第 v 视角中的第 j 个锚点。
实际上,某些样本不应该与部分锚点具有相似性,即某些样本应当仅与其中心锚点连接。因此,构造的图应当是稀疏的,即仅将最相关的 k 个样本连接到锚点。在本研究中,为了避免模型崩溃,我们尝试通过增量 δ 动态增加 k,并构造如下的二分图 [48]:
2) 相似度度量网络模块
近年来,图卷积网络(GCN)因其在利用图结构信息方面的优异表现而备受关注,能够生成更好的节点嵌入 [49]。在本方法中,相似度度量网络包含两个共享权重的 GCN 模块,分别用于捕捉样本和锚点的高阶结构信息。
为了通过 GCN 获取一个有信息量的二分图,受马尔科夫过程 [50] 启发,我们将每个视角的二分图 B(v) 转化为新图 G(v):
其中,Gx(v)和 Ga(v)分别表示样本和锚点的高阶相似性图。
然后,这些图分别输入到 GCN,以获得低维结构嵌入。 u 层网络下的非线性嵌入表达式为:
其中,Zx(v)和 Za(v) 分别表示网络学习获得的特征映射分布。
3) 重建层
在此层中,我们基于新的特征映射分布重建二分图,而非恢复原始特征分布。AGIMVC 计算新的分布,使用欧式距离构建新的二分图:
4) 锚点更新模块(Anchors Update Module):
在深度学习中,并非所有原始特征都适用于构建锚点与样本之间的亲和图。为了增强重要锚点的特征分布并描绘高阶结构,我们的方法引入了一种创新的自适应学习策略。具体而言,在公式 (3) 的基础上,我们采用以下公式更新锚点:
自适应锚点更新模块的详细过程包括两个步骤:首先通过公式 (8) 更新锚点分布,然后利用公式 (4) 重新更新二部图 B(v)。最终,更新后的 B(v)将用于网络训练。
5) 融合层(Fusion Layer):
为了解决多视图学习中的不完整性问题,我们引入了一个加权融合层,以减少缺失视图对网络训练的负面影响:
通过公式 (9),所有二部图被融合为一个通用图。最终的二部图 B∗包含了跨视图的高阶潜在相关性以及缺失视图的结构信息。
6) 目标损失(Objective Loss):
不同于其他采用复杂损失函数的模型,AGIMVC 采用以下简洁的交叉熵损失进行模型训练:
AGIMVC 的相似度度量网络模块通过最小化 L进行训练。
实验
不完全多视图聚类很符合真实数据情况