【论文阅读】Anchor Graph Network for Incomplete Multiview Clustering


摘要

近年来,不完全多视图聚类(IMVC)受到广泛关注。然而,现有研究仍然存在以下几个不足之处:1) 部分方法忽略了样本对在全局结构分布中的关联性;2) 许多方法计算成本较高,因此无法应用于大规模不完全数据的聚类任务;3) 部分方法未对二分图结构进行优化。

为了解决上述问题,提出了一种新颖的 IMVC 锚图网络(Anchor Graph Network),该方法包括一个生成模型和一个相似性度量网络。具体而言,该方法利用生成模型构建二分图,从而挖掘样本对的潜在全局结构分布。随后,使用图卷积网络(GCN)结合构建的二分图来学习结构化嵌入。值得注意的是,引入二分图可以显著降低计算复杂度,使我们的模型能够处理大规模数据。

与以往基于二分图的方法不同,方法利用二分图来引导 GCN 的学习过程。此外,还在方法中引入了一种创新的自适应学习策略,以构建稳健的二分图。大量实验表明,与当前最先进的方法相比,我们的方法在性能上具有可比性或更优的表现。

引言

现实世界中广泛存在多视图数据,其中同一样本可以通过不同的模态和视角进行描述。多视图数据的无监督聚类是机器学习领域的重要研究内容,其目标是利用视图间的互补信息和视图内的样本关联性,将样本划分到不同的簇中。

在数据采集过程中,由于传感器损坏或人为疏忽,可能导致某些视图缺失,从而形成不完全多视图数据。现有的多视图聚类方法通常假设所有视图都是完整的,因此无法直接应用于不完全数据。与传统的多视图聚类相比,不完全多视图聚类(IMVC)更具挑战性,因为缺失的数据会导致视图间互补性和一致性的信息丢失。为了解决这一挑战,近年来提出了越来越多的 IMVC 方法。

根据数学建模方式,现有的 IMVC 方法可分为两大类:传统方法和深度学习方法。传统 IMVC 方法又可进一步分为四类:核学习方法、矩阵分解方法、图学习方法和张量方法。

  • 核学习方法 关注从不完整的核函数中获取一致的表示;

  • 矩阵分解方法 旨在将不同视图映射到一个共享空间;

  • 图学习方法 通过探索样本之间的关系,获得一致的相似性结构或共识表示;

  • 张量方法 则将所有视图的图结构堆叠为张量,并利用张量约束来优化模型,以捕获所有视图之间的高阶连接。

这些方法的共同目标是获取所有视图一致同意的聚类结果。然而,大多数传统方法难以充分挖掘高阶信息,并且计算复杂度较高,难以应用于大规模数据。

考虑到深度神经网络强大的特征提取能力,近年来提出了一系列基于深度学习的 IMVC 方法。例如,Wen 等人利用编码器来获得多视图之间的一致低维表示,而 Huang 等人则利用高斯混合模型来获取样本的概率分布信息。尽管这些方法在实验中表现良好,但它们通常需要构建全局相似性矩阵,导致计算复杂度随着样本数呈二次增长,因此难以应用于大规模数据。

为了解决这一问题,一些 IMVC 方法引入了锚点(anchor)的概念。例如,基于锚点的稀疏子空间 IMVC 方法通过对共识图施加稀疏约束来进行优化,而 Zhao 等人提出了无约束锚点图卷积网络(GCN)框架,以解决高视图缺失率情况下的锚点选择问题。

尽管这些方法取得了一定的进展,但仍然存在以下不足:

  1. 许多 IMVC 方法仅考虑相邻样本之间的关系,忽略了全局结构信息的保持;

  2. 许多 IMVC 方法计算复杂度高,难以应用于大规模数据聚类任务;

  3. 部分方法过度关注样本嵌入的学习,而忽略了对二分图结构的优化。

本文贡献

针对上述问题,本文提出了一种新颖的锚点图网络 AGIMVC(Anchor Graph Network for IMVC),该方法主要包含一个生成模型和一个基于 GCN 的相似性度量网络。

  • 生成模型 用于构建二分图,以有效捕获大规模数据的全局结构分布;

  • 相似性度量网络 通过将二分图转换为新的图结构,以计算拉普拉斯矩阵,从而在 GCN 训练过程中利用二分图指导学习,捕获跨视图的高阶关系和潜在分布;

  • 自适应学习策略 可动态更新锚点,以构建更加稳健的二分图结构;

  • 加权融合层 用于减少缺失视图对模型的负面影响。

实验结果表明,AGIMVC 在多个数据集上取得了远超现有方法的性能。

模型

A. 问题陈述


不完整多视角聚类(IMVC)的目标是利用所有视角中的已有信息来推测缺失视角的信息,并最终将样本分为 c 个簇。

B. AGIMVC

如图 2 所示,AGIMVC 主要包含五个部分:生成模型、相似度度量网络模块、重建层、锚点更新模块以及融合层。

1) 生成模型

生成模型假设每个节点具有一个潜在分布,该分布反映了该节点与其他节点的连接性。基于生成模型的方法在获取潜在空间分布方面表现较优,并且通常具有较快的收敛速度 [45]。因此,我们利用生成模型构建二分图,从而高效地获取全局结构信息。
与其他测度不同,Wasserstein 距离可以衡量两个分布之间的距离,即使它们的重叠部分很少甚至没有 [46]。因此,我们在方法中引入 Wasserstein 距离。

在相似性学习中,一个公认的假设是:如果两个样本相似,它们的分布在特征空间中也应当接近 [47]。为了保持锚点和样本之间的相似关系,我们采用如下的距离度量准则:

其中,F(⋅)表示样本的理想特征映射分布,aj(v) 是第 v 视角中的第 j 个锚点。

实际上,某些样本不应该与部分锚点具有相似性,即某些样本应当仅与其中心锚点连接。因此,构造的图应当是稀疏的,即仅将最相关的 k 个样本连接到锚点。在本研究中,为了避免模型崩溃,我们尝试通过增量 δ 动态增加 k,并构造如下的二分图 [48]:

2) 相似度度量网络模块

近年来,图卷积网络(GCN)因其在利用图结构信息方面的优异表现而备受关注,能够生成更好的节点嵌入 [49]。在本方法中,相似度度量网络包含两个共享权重的 GCN 模块,分别用于捕捉样本和锚点的高阶结构信息。
为了通过 GCN 获取一个有信息量的二分图,受马尔科夫过程 [50] 启发,我们将每个视角的二分图 B(v) 转化为新图 G(v):

其中,Gx(v)和 Ga(v)分别表示样本和锚点的高阶相似性图。

然后,这些图分别输入到 GCN,以获得低维结构嵌入。 u 层网络下的非线性嵌入表达式为:

其中,Zx(v)和 Za(v) 分别表示网络学习获得的特征映射分布。

3) 重建层

在此层中,我们基于新的特征映射分布重建二分图,而非恢复原始特征分布。AGIMVC 计算新的分布,使用欧式距离构建新的二分图:

4) 锚点更新模块(Anchors Update Module)
在深度学习中,并非所有原始特征都适用于构建锚点与样本之间的亲和图。为了增强重要锚点的特征分布并描绘高阶结构,我们的方法引入了一种创新的自适应学习策略。具体而言,在公式 (3) 的基础上,我们采用以下公式更新锚点:

自适应锚点更新模块的详细过程包括两个步骤:首先通过公式 (8) 更新锚点分布,然后利用公式 (4) 重新更新二部图 B(v)。最终,更新后的 B(v)将用于网络训练。

5) 融合层(Fusion Layer)
为了解决多视图学习中的不完整性问题,我们引入了一个加权融合层,以减少缺失视图对网络训练的负面影响:

通过公式 (9),所有二部图被融合为一个通用图。最终的二部图 B∗包含了跨视图的高阶潜在相关性以及缺失视图的结构信息。

6) 目标损失(Objective Loss)
不同于其他采用复杂损失函数的模型,AGIMVC 采用以下简洁的交叉熵损失进行模型训练:

AGIMVC 的相似度度量网络模块通过最小化 L进行训练。

实验


不完全多视图聚类很符合真实数据情况

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/74468.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

15. 远程服务器运行jemter的GUI方式

1. 问题 在 linux 服务器或远程服务器上,安装 Jmeter,打不开 Jmeter 的 GUI 界面。 环境: linux 服务器mac 电脑 需求:在远程服务器中,启动 jmeter(./bin/jmeter &)后,在 ma…

Ansible:playbook的高级用法

文章目录 1. handlers与notify2. tags组件3. playbook中使用变量3.1使用 setup 模块中变量3.2在playbook 命令行中定义变量3.3在playbook文件中定义变量3.4使用变量文件3.5主机清单文件中定义变量主机变量组(公共)变量 1. handlers与notify Handlers&am…

什么是msvcp140.dll?msvcp140.dll丢失的解决方法又有哪些?

msvcp140.dll 是 Microsoft Visual C Redistributable 的核心动态链接库文件,许多软件和游戏依赖它来运行。当系统提示“msvcp140.dll丢失”时,意味着该文件无法被正确加载,导致程序崩溃或无法启动。本文将提供最全面的 msvcp140.dll丢失的解…

(九)图形管线

一图说明问题 顶点数据->顶点着色器->细分着色器->几何着色器->光栅化->片元着色器->颜色混合 创建图形管线函数放在后面位置 void MyApplication::initVulkan() { createInstance(); createSurface(); pickPhysicalDevice(); createLogicalDevice(); cre…

《inZOI(云族裔)》50+MOD整合包

载具 RebelCore - 年龄和时间 mod启动器 优化补丁 去除雾气 坦克模型 菜单 前置 跳过启动 更好性能 等 共计50MOD整合 在游戏的世界里,追求更丰富、更优质的体验是玩家们永恒的主题。RebelCore 这款游戏通过精心打造的 50MOD 整合,为玩家带来了前所未有的…

国家天文台携手阿里云,发布国际首个太阳大模型“金乌”

2025年4月1日,中国科学院国家天文台与阿里云共同宣布推出全球首个太阳物理大模型“金乌”,在太阳活动预测领域实现颠覆性突破——其针对破坏性最强的M5级太阳耀斑预报准确率高达91%,远超传统数值模型,标志着人类对太阳的认知迈入“…

U盘实现——BOT 常用命令

文章目录 U盘实现——BOT 常用命令命令格式CBWCSW数据传输条件命令传输数据传输状态传输命令汇总INQUIRY Command:12h数据格式抓包READ FORMAT CAPACITIES Command: 23h数据格式抓包READ CAPACITY Command: 25h数据格式抓包TEST UNIT READY Command: 00h数据格式抓包WRITE(10) …

【Axure元件分享】月份范围选择器

Axure月份范围选择器是一个月份范围下拉筛选元件,支持月份范围定义选择。组件自动加载系统当前年月份作为默认值,用户可通过箭头图标或键盘快捷键快速切换年份月份,其样式支持高度定制,包括颜色主题、字体尺寸及交互反馈&#xff…

JavaScript基础-移动端常用开发框架

随着移动互联网的发展,越来越多的应用和服务需要支持移动设备。为了提高开发效率和用户体验,开发者们依赖于一些成熟的JavaScript框架来构建响应迅速、功能丰富的移动Web应用。本文将介绍几款广泛使用的移动端开发框架,并通过具体的示例展示它…

数字人训练数据修正和查看 不需要GPU也能运行的DH_live-加载自己训练-

自己训练模pth报错 le "D:\ai\dh_live\app.py", line 42, in demo_mini interface_mini(asset_path, wav_path, output_video_name) File "D:\ai\dh_live\demo_mini.py", line 21, in interface_mini renderModel_mini.loadModel("checkpoi…

基姆拉尔森计算公式

基姆拉尔森计算公式(Zellers Congruence 的变体)是一种快速根据公历日期计算星期几的数学公式。其核心思想是通过对年月日的数值进行特定变换和取模运算,直接得到星期几的结果。 公式定义 对于日期 年-月-日,公式如下&#xff1a…

数字孪生在智慧城市中的前端呈现与 UI 设计思路

一、数字孪生技术在智慧城市中的应用与前端呈现 数字孪生技术通过创建城市的虚拟副本,实现了对城市运行状态的实时监控、分析与预测。在智慧城市中,数字孪生技术的应用包括交通流量监测、环境质量分析、基础设施管理等。其前端呈现主要依赖于Web3D技术、…

基于CNN-LSTM的深度Q网络(Deep Q-Network,DQN)求解移动机器人路径规划,MATLAB代码

一、深度Q网络(Deep Q-Network,DQN)介绍 1、背景与动机 深度Q网络(DQN)是深度强化学习领域的里程碑算法,由DeepMind于2013年提出。它首次在 Atari 2600 游戏上实现了超越人类的表现,解决了传统…

结构型设计模式。持续更新

结构型 - 外观 提供了一个统一的接口,用来访问子系统中的一群接口,从而让子系统更容易使用。 public class SubSystem {public void turnOnTV() {System.out.println("turnOnTV()");}public void setCD(String cd) {System.out.println(&quo…

从零构建大语言模型全栈开发指南:第五部分:行业应用与前沿探索-5.1.2行业落地挑战:算力成本与数据隐私解决方案

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 从零构建大语言模型全栈开发指南-第五部分:行业应用与前沿探索5.1.2 行业落地挑战:算力成本与数据隐私解决方案1. 算力成本挑战与优化策略1.1 算力成本的核心问题1.2 算力优化技术方案2. 数据隐私挑战…

量子计算与人工智能融合的未来趋势

最近研学过程中发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。 在当今科技飞速发展…

六种光耦综合对比——《器件手册--光耦》

目录 十二、光耦 简述 基本结构 工作原理 主要特点 应用领域 优势与局限性 选择光耦时需要考虑的因素 详尽阐述 1 栅极驱动光耦 基本结构 工作原理 主要特点 应用领域 选择栅极驱动光耦时需要考虑的因素 典型产品示例 总结 2 逻辑输出光耦 基本结构 工作原理 主要特点 应用…

【蓝桥杯嵌入式——学习笔记一】2016年第七届省赛真题重难点解析记录,闭坑指南(文末附完整代码)

在读题过程中发现本次使用的是串口2,需要配置串口2。 但在查看产品手册时发现PA14同时也是SWCLK。 所以在使用串口2时需要拔下跳线帽去连接CH340。 可能是用到串口2的缘故,在烧录时发现报了一个错误。这时我们要想烧录得按着复位键去点击烧录&#xff0c…

三、GPIO

一、GPIO简介 GPIO(General Purpose Input Output)通用输入输出口GPIO引脚电平:0V(低电平)~3.3V(高电平),部分引脚可容忍5V 容忍5V,即部分引脚输入5V的电压,…

Java实战报错

哪错了 Preview 在这段Java代码中,map.put("Cc", 20); 这一行的键 "Cc" 被标记为错误。这可能是由于以下几种原因: 键值类型不匹配:虽然在你的代码中没有显示出来,但确保 HashMap 的键是 String 类型&#xf…