论文阅读:Dual Anchor Graph Fuzzy Clustering for Multiview Data

论文地址:Dual Anchor Graph Fuzzy Clustering for Multiview Data | IEEE Journals & Magazine | IEEE Xplore

代码地址:https://github.com/BBKing49/DAG_FC


摘要

多视角锚图聚类近年来成为一个重要的研究领域,催生了多个高效的方法。然而,当前的多视角锚图聚类方法仍然面临三个主要挑战。

首先,现实世界数据通常表现出不确定性和较差的可辨识性,导致直接从原始数据提取的锚图质量较低,影响聚类效果。其次,大多数现有方法假设视角之间存在公共信息,并主要利用这些信息进行聚类,从而忽略了视角特有的信息。第三,如何进一步探索和利用所学习的锚图以提升聚类性能仍然是一个开放性问题。

为了解决这些问题,本文提出了一种新的双锚图模糊聚类方法。首先,提出了一种基于矩阵分解的双锚图学习方法,以解决前两个问题。该方法能够提取各个视角的高度可辨识隐藏表示,并在此基础上分别构建公共锚图特有锚图。然后,为了解决第三个问题,本文提出了一种锚图模糊聚类方法,通过协同学习机制充分利用和挖掘公共与特有锚图。此外,构建了一种基于双锚图的模糊隶属度结构保持机制,以进一步提升聚类性能。最后,引入负香农熵,自适应地调整各视角的权重。

在多个数据集上的大量实验结果表明,该方法具有良好的聚类效果和有效性。

引言

随着数字技术的进步,收集到的数据种类大幅增加。例如,在生物信息学领域,酶可以用序列信息和结构信息来表示;同样,肿瘤也可以通过不同的医学成像方式(如 CT 和 MRI 扫描)进行描述。在过去的十年里,如何构建高效的模型来处理这些多表示多源数据已成为研究的重点。多视角聚类学习是一种强大的技术来处理这些数据,并基于该技术已发展出多种有效的方法。其中,基于图的多视角子空间聚类方法是最重要的代表之一。该方法通过学习不同视角之间的公共相似性矩阵,并利用谱聚类算法来获得最终的聚类结果。

为了提高聚类效果,研究者们提出了不同的改进策略。例如,基于多核方法,Zhou 等人提取了不同视角之间的一致性相似性矩阵用于聚类建模;基于自表示学习,Cao 等人提取了各个视角的相似性矩阵,并引入Hilbert-Schmidt 独立性准则来增强相似性矩阵的多样性,最终将这些矩阵融合为一个公共相似性矩阵以进行谱聚类。此外,为了解决不完整多视角数据的问题,Xu 等人将潜在表示学习公共相似性矩阵学习统一到一个过程当中。此外,为了提取高可辨识性的公共图,Liang 等人和 Cai 等人分别探索了不同视角之间的一致性和不一致性,并去除不一致信息,融合一致信息构建公共图进行聚类。

然而,现有的基于图的多视角聚类方法仍然存在计算成本较高的问题。例如,在计算相似性矩阵、执行谱聚类以及离散化谱嵌入时需要较长的计算时间。为了降低计算成本,近年来研究人员提出了多种锚图(anchor graph)方法,其高效性使其成为研究热点。这些方法的基本思路是:从多视角数据中选择或学习代表性锚点实例,并基于这些锚点生成锚图进行聚类。

目前,已有多种基于锚图的建模框架。例如,Kang 等人提出的方法通过预训练一组聚类中心作为锚点,并为每个视角学习锚图,最终通过后处理将其融合为公共表示;Zhang 等人则提出了一种更具灵活性的方法,该方法学习多组锚点实例并构建多级锚图,同时设计了一种多锚点融合机制,以高效地融合这些锚图。此外,Wang 等人在 Kang 等人的基础上,提出了一种新的锚点匹配机制锚图融合框架,以进一步提升聚类性能。

尽管现有的锚图方法取得了一定的进展,但仍然面临以下挑战:

  1. 直接从原始数据构建锚图的鲁棒性问题:原始数据通常包含噪声和错误,直接构造的锚图可能缺乏可辨识性,进而影响聚类效果。因此,需要设计更鲁棒的锚图学习方法

  2. 公共信息和特有信息的兼顾问题:现有方法通常仅关注公共锚图分别构建所有视角的特有锚图并后期融合,但多视角数据同时包含公共信息特有信息,现有方法无法同时利用这两类信息。因此,如何同时探索公共和特有锚图成为提升聚类性能的关键问题。

  3. 锚图聚类方法的优化问题:当前方法通常直接在锚图上执行传统的单视角聚类方法,尚缺乏针对锚图的更有效的聚类策略,这限制了聚类性能的进一步提升。

本文贡献

针对上述问题,本文提出了一种双锚图模糊聚类方法,其核心创新点包括:

  1. 提出了一种新的多视角双锚图学习方法,该方法不仅统一了隐藏表示学习锚图学习,还能够同时挖掘公共信息和特有信息

  2. 提出了一种基于锚图的多视角模糊聚类方法,通过构建模糊隶属度结构保持机制引入负香农熵,充分利用双锚图提升聚类性能。

  3. 在多个多视角数据集上的实验验证了所提出方法的有效性

模型

A. 提出方法的框架

为了解决引言中提出的三个问题和挑战,本节提出了一种新的高效聚类方法,其框架如图 2 所示。该方法包括两个主要步骤:第一步是基于矩阵分解的多视角双锚点图学习,第二步是基于双锚点图的协同学习模糊聚类。

在第一步中,为了确保提取的锚点图具有良好的可区分性,首先引入矩阵分解来净化原始数据并提取每个视角的隐藏表示。同时,为了充分挖掘多视角数据,通过专门设计的双锚点图学习机制,提取隐藏表示之间的公共锚点图以及每个隐藏表示的特定锚点图。此外,隐藏表示学习和双锚点图学习被整合到一个优化过程中,使这两个部分能够相互促进学习。

随后,在第二步中,为了充分利用双锚点图,引入了一种新的基于多视角模糊聚类的方法,并通过协同学习提升聚类性能。此外,设计了一种成员结构保持机制,进一步增强聚类效果。


B. 多视角双锚点图学习

为了解决前面提到的如何设计更稳健的锚点图学习方法以及如何同时挖掘多视角数据中的公共和特定信息这两个问题,本节提出了一种双锚点图学习框架,并定义其优化目标函数如下:

其中:

  • 第一项 J1(Bk,Hk)通过引入矩阵分解来净化原始多视角数据。

  • 第二项 J2(Hk,Ac,Zc,Aks,Zks)负责提取双锚点图。

现有的多视角锚点图学习方法大致可分为两类:

  1. 直接学习公共锚点实例 并构建公共锚点图。

  2. 分别学习每个视角的锚点实例和锚点图,然后在后处理阶段将所有锚点图融合成一个公共表示。

然而,这两类方法都存在一个局限性:无法充分挖掘多视角数据的潜在信息。研究【17】、【18】表明,多视角数据通常同时包含跨视角共享的公共信息以及每个视角独有的特定信息,如图 3 所示。因此,本研究借鉴这一思想,在优化目标的第二项中创新性地同时提取公共锚点图和特定锚点图,以充分挖掘多视角数据。

创新性

总体而言,该方法在数据净化、隐藏锚点图学习和聚类划分三个方面对多视角聚类做出了贡献,具体如下:

首先,尽管近年来已有一些多视角锚点图学习方法被提出,但几乎所有现有方法都是直接从原始数据中提取锚点图,而原始数据通常包含噪声和错误。这可能会削弱学习到的锚点图的可区分性,进而影响后续聚类任务的性能。因此,开发能够结合表示学习以净化原始数据并提高锚点图质量的新型锚点图学习方法至关重要。在本研究中,我们引入矩阵分解并将其创新性地与锚点图学习融合,使这两个部分能够相互作用、共同优化。

其次,如图 1 所示,现有方法通常采用两种策略

  1. 分别学习每个视角的独立锚点实例矩阵,然后构造公共锚点图用于聚类。

  2. 直接学习一个共享的锚点实例矩阵,用于所有视角的锚点图构建。

然而,这两种方法的共同缺陷是:它们仅关注视角间的公共信息,而忽略了每个视角的特定信息。然而,已有研究【18】表明,在聚类过程中,公共信息与特定信息同样重要。因此,开发一种能够同时提取公共和特定锚点图的多视角锚点图学习方法至关重要。为此,我们提出了一种新机制,同时挖掘公共锚点图和特定锚点图,使后续聚类任务能够充分利用双锚点图信息,从而提升聚类性能。实验结果进一步验证了该机制的有效性。

最后,现有的多视角锚点图学习方法通常使用SVD提取公共表示,并在此基础上采用单视角聚类方法(如 K-means)进行聚类。然而,本研究提出的方法同时提取公共和特定锚点图。尽管可以将这些锚点图组合后采用上述传统方法进行聚类,但这一策略可能会忽略二者之间的一致性和互补性信息。因此,设计高效的双锚点图聚类方法是关键。考虑到模糊聚类(fuzzy clustering)在处理数据不确定性方面表现优异,并且具有较强的聚类能力【26】, 本研究基于其提出了一种新的双锚点图模糊聚类方法。此外,为了进一步利用双锚点图并提升聚类效果,我们设计了一种模糊成员结构保持机制,用于优化锚点图的聚类表现。实验结果进一步证明了所提出方法的有效性。

综上所述,本研究在多视角聚类领域的多个方面做出了重要贡献。

实验


双锚点图在多视图中主要用于同时挖掘公共信息和特定信息,提升数据的可区分性,从而提高聚类的准确性和鲁棒性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/74406.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

32f4,串口1,usart.c.h2025

usart.c #include "sys.h" #include "usart.h" #include "led.h" // #include "stdlib.h" #include "stdarg.h" #include "stdio.h" //加入以下代码,支持printf函数,而不需要选择use MicroLIB #if 1#pragma…

C语言:一组位操作宏

解析协议时&#xff0c;取得位域的值是一种常见操作&#xff0c;这些宏可以辅助我们工作。 /* ** 将x的第n位置1 ** ** x 0x00000000 ** BIT_SET(x, 7) 0x00000080 */ #define BIT_SET(x, n) ((x) | (1 << (n)))/* ** 将x的第n位置为0 ** ** x 0x00000080 ** …

记一个使用BigDecimal所有类型变为整数的问题

场景 通过 Excel 导入数据&#xff0c;数据中包含金额。数据库类型 decimal(18, 6) 问题 Excel 导入后所有的金额列都被四舍五入。经过测试&#xff0c;只有数据有整数时所有数据才会被四舍五入&#xff0c;全部为浮点类型没有问题。 解决 强制设置小数位数 // RoundingM…

nodejs、socket.io、express + 实时线上聊天系统(自用笔记)

留个链接给自己参考用&#xff1a; socket.io官方文档&#xff1a;介绍 | Socket.IO nodejs基础语法&#xff1a;大前端技能讲解&#xff1a;NodeJS、Npm、Es6、Webpack_nodejs webpack-CSDN博客 socket.io教学&#xff1a;半小时学会socket.io【中英字幕】Learn Socket.Io …

配置网络编辑器

网络断开的原因 1.由于网络未连接的情况 解决方法 方法1&#xff1a;检查网卡配置 cd /etc/syscongfig/network_scripts vi ifcfg_ens31 方法2&#xff1a;打开虚拟机编辑--- 虚拟网络编辑器 查看ip地址是否在可用的网段范围内 修改后重启网络 systemctl restart netwo…

vscode代码片段的设置与使用

在 Visual Studio Code (VS Code) 中&#xff0c;可以通过自定义**代码片段&#xff08;Snippets&#xff09;**快速插入常用代码模板。以下是详细设置步骤&#xff1a; 步骤 1&#xff1a;打开代码片段设置 按下快捷键 Ctrl Shift P&#xff08;Windows/Linux&#xff09;或…

基于S函数的simulink仿真

基于S函数的simulink仿真 S函数可以用计算机语言来描述动态系统。在控制系统设计中&#xff0c;S函数可以用来描述控制算法、自适应算法和模型动力学方程。 S函数中使用文本方式输入公式和方程&#xff0c;适合复杂动态系统的数学描述&#xff0c;并且在仿真过程中可以对仿真…

做题记录:和为K的子数组

来自leetcode 560 前言 自己只会暴力&#xff0c;这里就是记录一下前缀和哈希表的做法&#xff0c;来自灵神的前缀和哈希表&#xff1a;从两次遍历到一次遍历&#xff0c;附变形题 正文 首先&#xff0c;这道题无法使用滑动窗口&#xff0c;因为滑动窗口需要满足单调性&am…

浅浅尝试Numpy的函数:

1.numpy.empty: numpy.empty方法用来创建一个指定形状&#xff08;shape&#xff09;&#xff0c;数据类型&#xff08;dtype&#xff09;且未被初始化的数组&#xff1a; numpy.empty(shape,dtype float,order C) 参数说明&#xff1a; shape:数组形状。 dtype:数据类型&am…

IM基本设计思路与有序ID的重要性

文章目录 概要问题解析思考问题数据基础读取写入总结 概要 说起IM程序我们都不陌生&#xff0c;本篇文章我们就为如何实现一个IM做一个简单的整体方案设计以及基本的数据结构 问题解析 我们先不上一大堆牛逼哄哄的中间件。 我们先从实现角度&#xff0c;来讲讲设计思路。 从…

数据结构学习

链表 单链表 头插 将x插到下标是k的点后面 将下标是k的点后面的点删掉 代码 // head 表示头结点的下标 // e[i] 表示节点i的值 // ne[i] 表示节点i的next指针是多少 // idx 存储当前已经用到了哪个点// 初始化 void init() {head -1;idx 0; }// 将x插到头结点 void add_to_…

0.DJI-PSDK开发准备及资料说明(基于DJI经纬M300RTK和M350RTK无人机上使用)

0.DJI-PSDK开发准备及资料说明&#xff08;基于DJI经纬M300RTK和M350RTK无人机上使用&#xff09; 【资料名称】 DJI经纬M300RTK和M350RTK无人机二次开发资料包。资料包在最下方的百度网盘 一、引言 在进行大疆无人机负载开发的过程中&#xff0c;我整理出一系列有价值的资…

Linux内核TCP/IP协议栈中的设计模式:从面向对象到系统级软件的跨界实践

引言 设计模式(Design Patterns)自GoF(Gang of Four)在1994年提出以来,已成为软件工程领域的核心概念。尽管其经典定义基于面向对象编程(OOP),但设计模式的本质是解决复杂问题的经验总结,而非局限于特定编程范式。本文以Linux内核的TCP/IP协议栈为例,探讨设计模式在…

第十四届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组(部分题解)

文章目录 前言日期统计题意&#xff1a; 冶炼金属题意&#xff1a; 岛屿个数题意&#xff1a; 子串简写题意&#xff1a; 整数删除题意&#xff1a; 总结 前言 一年一度的&#x1f3c0;杯马上就要开始了&#xff0c;为了取得更好的成绩&#xff0c;好名字写了下前年2023年蓝桥…

处理JWT Token失效需求

JWT 本身是无状态的&#xff0c;这意味着服务器不会保存任何关于 Token 的状态信息。但为了支持 JWT 的状态管理&#xff08;例如&#xff1a;强制使某些 Token 失效&#xff09;&#xff0c;可以借助 Redis 这样的外部存储来维护一个黑名单或白名单。 安装必要的 NuGet 包 首…

PHP代码审计-01

&#x1f338; 连接方式 PHP Mysql连接方式&#xff1a; Mysql&#xff08;废弃&#xff09;MysqliPDO &#x1f338; 常见过滤 intval/addslashes/mysql_real_escape mysqli_escape_string/mysqli_real_escape_string/mysqli::escape_string PDO::quote 参数化查询 a…

SpringKafka错误处理:重试机制与死信队列

文章目录 引言一、Spring Kafka错误处理基础二、配置重试机制三、死信队列实现四、特定异常的处理策略五、整合事务与错误处理总结 引言 在构建基于Kafka的消息系统时&#xff0c;错误处理是确保系统可靠性和稳定性的关键因素。即使设计再完善的系统&#xff0c;在运行过程中也…

蓝桥杯2024JavaB组的一道真题的解析

文章目录 1.问题描述2.问题描述3.思路分析4.代码分析 1.问题描述 这个是我很久之前写的一个题目&#xff0c;当时研究了这个题目好久&#xff0c;发布了一篇题解&#xff0c;后来很多人点赞&#xff0c;我都没有意识到这个问题的严重性&#xff0c;我甚至都在怀疑自己&#xf…

性能比拼: Go标准库 vs Python FastAPI(第二轮)

本内容是对知名性能评测博主 Anton Putra Python (FastAPI) vs Go (Golang) (Round 2) Performance Benchmark 内容的翻译与整理, 有适当删减, 相关指标和结论以原作为准 介绍 这是第二轮关于 FastAPI 和 Golang 的对比测试。我几天前运行了前一次的基准测试&#xff0c;到目…

DeepSeek与ChatGPT的优势对比:选择合适的工具来提升工作效率

选DeepSeek还是ChatGPT&#xff1f;这就像问火锅和披萨哪个香&#xff01; "到底该用DeepSeek还是ChatGPT?” 这个问题最近在互联网圈吵翻天!其实这就跟选手机系统-样&#xff0c;安卓党iOS党都能说出一万条理由&#xff0c;但真正重要的是你拿它来干啥&#xff01;&am…