论文地址:Dual Anchor Graph Fuzzy Clustering for Multiview Data | IEEE Journals & Magazine | IEEE Xplore
代码地址:https://github.com/BBKing49/DAG_FC
摘要
多视角锚图聚类近年来成为一个重要的研究领域,催生了多个高效的方法。然而,当前的多视角锚图聚类方法仍然面临三个主要挑战。
首先,现实世界数据通常表现出不确定性和较差的可辨识性,导致直接从原始数据提取的锚图质量较低,影响聚类效果。其次,大多数现有方法假设视角之间存在公共信息,并主要利用这些信息进行聚类,从而忽略了视角特有的信息。第三,如何进一步探索和利用所学习的锚图以提升聚类性能仍然是一个开放性问题。
为了解决这些问题,本文提出了一种新的双锚图模糊聚类方法。首先,提出了一种基于矩阵分解的双锚图学习方法,以解决前两个问题。该方法能够提取各个视角的高度可辨识隐藏表示,并在此基础上分别构建公共锚图和特有锚图。然后,为了解决第三个问题,本文提出了一种锚图模糊聚类方法,通过协同学习机制充分利用和挖掘公共与特有锚图。此外,构建了一种基于双锚图的模糊隶属度结构保持机制,以进一步提升聚类性能。最后,引入负香农熵,自适应地调整各视角的权重。
在多个数据集上的大量实验结果表明,该方法具有良好的聚类效果和有效性。
引言
随着数字技术的进步,收集到的数据种类大幅增加。例如,在生物信息学领域,酶可以用序列信息和结构信息来表示;同样,肿瘤也可以通过不同的医学成像方式(如 CT 和 MRI 扫描)进行描述。在过去的十年里,如何构建高效的模型来处理这些多表示或多源数据已成为研究的重点。多视角聚类学习是一种强大的技术来处理这些数据,并基于该技术已发展出多种有效的方法。其中,基于图的多视角子空间聚类方法是最重要的代表之一。该方法通过学习不同视角之间的公共相似性矩阵,并利用谱聚类算法来获得最终的聚类结果。
为了提高聚类效果,研究者们提出了不同的改进策略。例如,基于多核方法,Zhou 等人提取了不同视角之间的一致性相似性矩阵用于聚类建模;基于自表示学习,Cao 等人提取了各个视角的相似性矩阵,并引入Hilbert-Schmidt 独立性准则来增强相似性矩阵的多样性,最终将这些矩阵融合为一个公共相似性矩阵以进行谱聚类。此外,为了解决不完整多视角数据的问题,Xu 等人将潜在表示学习和公共相似性矩阵学习统一到一个过程当中。此外,为了提取高可辨识性的公共图,Liang 等人和 Cai 等人分别探索了不同视角之间的一致性和不一致性,并去除不一致信息,融合一致信息构建公共图进行聚类。
然而,现有的基于图的多视角聚类方法仍然存在计算成本较高的问题。例如,在计算相似性矩阵、执行谱聚类以及离散化谱嵌入时需要较长的计算时间。为了降低计算成本,近年来研究人员提出了多种锚图(anchor graph)方法,其高效性使其成为研究热点。这些方法的基本思路是:从多视角数据中选择或学习代表性锚点实例,并基于这些锚点生成锚图进行聚类。
目前,已有多种基于锚图的建模框架。例如,Kang 等人提出的方法通过预训练一组聚类中心作为锚点,并为每个视角学习锚图,最终通过后处理将其融合为公共表示;Zhang 等人则提出了一种更具灵活性的方法,该方法学习多组锚点实例并构建多级锚图,同时设计了一种多锚点融合机制,以高效地融合这些锚图。此外,Wang 等人在 Kang 等人的基础上,提出了一种新的锚点匹配机制和锚图融合框架,以进一步提升聚类性能。
尽管现有的锚图方法取得了一定的进展,但仍然面临以下挑战:
-
直接从原始数据构建锚图的鲁棒性问题:原始数据通常包含噪声和错误,直接构造的锚图可能缺乏可辨识性,进而影响聚类效果。因此,需要设计更鲁棒的锚图学习方法。
-
公共信息和特有信息的兼顾问题:现有方法通常仅关注公共锚图或分别构建所有视角的特有锚图并后期融合,但多视角数据同时包含公共信息和特有信息,现有方法无法同时利用这两类信息。因此,如何同时探索公共和特有锚图成为提升聚类性能的关键问题。
-
锚图聚类方法的优化问题:当前方法通常直接在锚图上执行传统的单视角聚类方法,尚缺乏针对锚图的更有效的聚类策略,这限制了聚类性能的进一步提升。
本文贡献
针对上述问题,本文提出了一种双锚图模糊聚类方法,其核心创新点包括:
-
提出了一种新的多视角双锚图学习方法,该方法不仅统一了隐藏表示学习和锚图学习,还能够同时挖掘公共信息和特有信息。
-
提出了一种基于锚图的多视角模糊聚类方法,通过构建模糊隶属度结构保持机制和引入负香农熵,充分利用双锚图提升聚类性能。
-
在多个多视角数据集上的实验验证了所提出方法的有效性。
模型
A. 提出方法的框架
为了解决引言中提出的三个问题和挑战,本节提出了一种新的高效聚类方法,其框架如图 2 所示。该方法包括两个主要步骤:第一步是基于矩阵分解的多视角双锚点图学习,第二步是基于双锚点图的协同学习模糊聚类。
在第一步中,为了确保提取的锚点图具有良好的可区分性,首先引入矩阵分解来净化原始数据并提取每个视角的隐藏表示。同时,为了充分挖掘多视角数据,通过专门设计的双锚点图学习机制,提取隐藏表示之间的公共锚点图以及每个隐藏表示的特定锚点图。此外,隐藏表示学习和双锚点图学习被整合到一个优化过程中,使这两个部分能够相互促进学习。
随后,在第二步中,为了充分利用双锚点图,引入了一种新的基于多视角模糊聚类的方法,并通过协同学习提升聚类性能。此外,设计了一种成员结构保持机制,进一步增强聚类效果。
B. 多视角双锚点图学习
为了解决前面提到的如何设计更稳健的锚点图学习方法以及如何同时挖掘多视角数据中的公共和特定信息这两个问题,本节提出了一种双锚点图学习框架,并定义其优化目标函数如下:
其中:
-
第一项 J1(Bk,Hk)通过引入矩阵分解来净化原始多视角数据。
-
第二项 J2(Hk,Ac,Zc,Aks,Zks)负责提取双锚点图。
现有的多视角锚点图学习方法大致可分为两类:
-
直接学习公共锚点实例 并构建公共锚点图。
-
分别学习每个视角的锚点实例和锚点图,然后在后处理阶段将所有锚点图融合成一个公共表示。
然而,这两类方法都存在一个局限性:无法充分挖掘多视角数据的潜在信息。研究【17】、【18】表明,多视角数据通常同时包含跨视角共享的公共信息以及每个视角独有的特定信息,如图 3 所示。因此,本研究借鉴这一思想,在优化目标的第二项中创新性地同时提取公共锚点图和特定锚点图,以充分挖掘多视角数据。
创新性
总体而言,该方法在数据净化、隐藏锚点图学习和聚类划分三个方面对多视角聚类做出了贡献,具体如下:
首先,尽管近年来已有一些多视角锚点图学习方法被提出,但几乎所有现有方法都是直接从原始数据中提取锚点图,而原始数据通常包含噪声和错误。这可能会削弱学习到的锚点图的可区分性,进而影响后续聚类任务的性能。因此,开发能够结合表示学习以净化原始数据并提高锚点图质量的新型锚点图学习方法至关重要。在本研究中,我们引入矩阵分解并将其创新性地与锚点图学习融合,使这两个部分能够相互作用、共同优化。
其次,如图 1 所示,现有方法通常采用两种策略:
-
分别学习每个视角的独立锚点实例矩阵,然后构造公共锚点图用于聚类。
-
直接学习一个共享的锚点实例矩阵,用于所有视角的锚点图构建。
然而,这两种方法的共同缺陷是:它们仅关注视角间的公共信息,而忽略了每个视角的特定信息。然而,已有研究【18】表明,在聚类过程中,公共信息与特定信息同样重要。因此,开发一种能够同时提取公共和特定锚点图的多视角锚点图学习方法至关重要。为此,我们提出了一种新机制,同时挖掘公共锚点图和特定锚点图,使后续聚类任务能够充分利用双锚点图信息,从而提升聚类性能。实验结果进一步验证了该机制的有效性。
最后,现有的多视角锚点图学习方法通常使用SVD提取公共表示,并在此基础上采用单视角聚类方法(如 K-means)进行聚类。然而,本研究提出的方法同时提取公共和特定锚点图。尽管可以将这些锚点图组合后采用上述传统方法进行聚类,但这一策略可能会忽略二者之间的一致性和互补性信息。因此,设计高效的双锚点图聚类方法是关键。考虑到模糊聚类(fuzzy clustering)在处理数据不确定性方面表现优异,并且具有较强的聚类能力【26】, 本研究基于其提出了一种新的双锚点图模糊聚类方法。此外,为了进一步利用双锚点图并提升聚类效果,我们设计了一种模糊成员结构保持机制,用于优化锚点图的聚类表现。实验结果进一步证明了所提出方法的有效性。
综上所述,本研究在多视角聚类领域的多个方面做出了重要贡献。
实验
双锚点图在多视图中主要用于同时挖掘公共信息和特定信息,提升数据的可区分性,从而提高聚类的准确性和鲁棒性。