MOGONET:患者分类与biomarker识别

为了充分利用组学技术的进步并更全面地了解人类疾病,需要新的计算方法来综合分析多种类型的组学数据。多组学图卷积网络 (MOGONET,Multi-Omics Graph cOnvolutional NETworks)是一种用于生物医学分类的新型多组学整合方法。MOGONET 包含特定组学的学习和跨组学的关联学习,以实现有效的多组学数据分类。在使用 mRNA 表达数据、DNA 甲基化数据和 microRNA 表达数据的不同生物医学分类应用中,MOGONET 优于其他最先进的有监督多组学综合分析方法。此外,MOGONET 可以从与所研究的生物医学问题相关的不同组学数据类型中识别重要的生物标志物

MOGONET属于有标签的联合测量多模态整合,其主要目的是分类。

来自:MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification,nature communications,2021

工程地址:https://github.com/txWang/MOGONET

目录

  • 背景概述
    • 相关工作
    • 贡献
  • MOGONET框架
    • 框架概述
    • 数据集
    • 评价指标
    • 预处理
    • GCN学习组学特定信息
    • VCDN用于多模态整合
    • 生物标志物识别

背景概述

随着技术发展,从同一组样本中我们可以获得不同分子视角的全基因组数据,例如 mRNA 表达、DNA 甲基化和micro RNA (miRNA) 表达,从而为各种疾病的研究提供多组学数据。对于人类疾病,现有研究表明,与仅使用单一类型的组学数据相比,整合多种组学技术的数据可以提高患者临床结果预测的准确性。因此,需要新的整合分析方法来有效利用多组学数据中的相互作用和互补信息。

MOGONET是2021年的方法,截止21年,就已经提出了大量方法来解决各种问题的多组学数据整合。然而,大多数努力都集中在无监督的多组学数据整合上(这里的无监督是指无类型标签的)。随着个性化医疗的快速发展,带有详细注释、能够描述样本表型的数据集正变得越来越广泛。因此,研究有监督的多组学整合方法是有价值的,通常我们希望这些方法可以识别与疾病相关的生物标志物并对新样本进行预测。

相关工作

早期用于生物医学分类任务的有监督数据整合方法的尝试包括基于特征连接的策略(concatenation-based)和基于集成的策略(ensemble-based)。一方面,基于连接的方法通过直接连接输入数据特征来训练分类模型。另一方面,基于集成的方法集成了不同分类器的预测,每个分类器都单独针对一种组学数据进行训练。然而,这些方法未能考虑不同组学数据类型之间的相关性,并且集成结果容易偏向某些组学数据类型。

随着深度学习在各类任务中的不断进步,越来越多的多组学整合方法开始利用深度神经网络(NN)的高学习能力和灵活性。虽然当前基于深度学习的方法通常在输入空间或学习到的特征空间整合不同的组学数据,但不同类型的组学数据在高级标签空间也会呈现出独特的特征。因此,利用不同类别标签和不同组学数据类型之间的相关性来进一步提高性能至关重要。

贡献

为此,作者引入了 MOGONET,一个用于生物医学应用中分类任务的多组学数据分析框架。广泛的生物医学分类应用展示了 MOGONET 的功能,包括阿尔茨海默病患者分类、低级别胶质瘤 (LGG) 的肿瘤等级分类、肾癌类型分类和乳腺浸润性癌亚型分类。此外,作者还证明了 MOGONET 可以识别与所研究的生物医学问题相关的重要组学特征和biomarker。

MOGONET框架

框架概述

MOGONET是一个用于生物医学分类任务的有监督多组学整合框架(图 1)。在预处理和特征选择以消除噪声和冗余特征后,首先使用 GCN 对每种组学数据类型分别学习分类任务。具体而言,作者使用余弦相似度为每种组学数据构建加权样本相似度网络。以组学特征和相应的相似度网络为输入,针对每种组学数据类型训练 GCN 以生成类标签的初始预测。GCN 的一个主要优势是它们可以利用组学数据和样本间相关性的信息来进行更好的预测。然后,进一步利用每个组学特定 GCN 生成的初始预测来构建cross-omics discovery tensor,该tensor反映了跨组学标签的相关性。最后,将cross-omics discovery tensor重塑为向量并转发给 VCDN 进行最终的标签预测。VCDN 可以通过探索更高级别标签空间中不同组学数据类型之间的潜在相关性,有效地整合来自每个组学特定网络的初始预测。MOGONET 是一个端到端模型,组学特定的 GCN 和 VCDN 交替训练,直到收敛。为此,MOGONET 的最终预测基于 GCN 生成的有效组学特定预测和 VCDN 生成的跨组学标签相关性知识。
fig1

  • 图1:MOGONET 结合了用于多组学特定学习的 GCN 和用于多组学整合的 VCDN。为了清晰简洁地说明,我们用示例来演示用于多组学整合的 VCDN 组件。首先对每种组学数据类型进行预处理,以消除噪音和冗余特征。每个组学特定的 GCN 都经过训练,GCN使用组学特征和从组学数据生成的相应样本相似性网络进行类预测。cross-omics discovery tensor是根据组学特定 GCN 的初始预测计算出的,并转发给 VCDN 进行最终预测。MOGONET 是一个端到端模型,所有网络都是联合训练的。

数据集

使用四个不同的数据集用于四种不同的生物医学分类任务:ROSMAP 用于阿尔茨海默病 (AD,Alzheimer’s Disease) 患者与正常对照 (NC,Normal Contro) 分类,LGG 用于低级别胶质瘤 (LGG,low-grade glioma) 的等级分类,KIPAN 用于肾癌类型分类,BRCA 用于乳腺浸润性癌 (BRCA) PAM50 亚型分类。

有三种类型的组学数据(即 mRNA 表达数据 (mRNA)、DNA 甲基化数据 (meth) 和 miRNA 表达数据 (miRNA))用于分类,以提供有关疾病的全面和互补信息。这是具有匹配的 mRNA 表达、DNA 甲基化和 miRNA 表达数据的样本。数据集的详细信息列于表 1 中。由于冗余特征可能会影响分类任务的性能,因此对每种组学数据类型分别进行预处理和特征预选择,并且用于训练的特征数量也在表 1 中列出。
tab1

评价指标

为了比较不同的多组学方法的有效性,随机选择了数据集中 30% 的样本作为测试集,其余 70% 的样本作为训练集。测试集是通过保留原始数据集中的类分布构建的。为了评估比较方法的性能,作者对二元分类任务使用了准确度 (ACC)、F1 分数 (F1) 和 (AUC),对多类分类任务使用了准确度 (ACC)、(F1_weighted) 和 (F1_macro)。作者在五个不同的随机生成的训练和测试分割上评估了所有方法,并报告了这五个实验中评估指标的平均值和标准差。

预处理

首先,对于 DNA 甲基化数据,仅保留与 Illumina Infinium HumanMethylation27BeadChip 中的探针(probes)相对应的探针,以使结果更具可解释性。然后,进一步过滤掉没有信号(零均值)或方差低的特征。具体而言,对不同类型的组学数据应用了不同的方差过滤阈值(mRNA 表达数据为 0.1,DNA 甲基化数据为 0.001),因为不同的组学数据类型有不同的范围。对于 miRNA 表达数据,仅过滤掉没有变化的特征(方差为零),这是因为由于 miRNA 可用的特征实在有限。四个数据集都使用相同的方差阈值组。每个数据集的预选特征数量如表1所示。最后,将每种类型的组学数据单独缩放到 [0, 1] 以训练 MOGONET。

GCN学习组学特定信息

针对每种组学数据类型训练一个 GCN 来执行分类任务。虽然现有的 GCN 模型主要侧重于半监督学习(Transductive Learning),通过将标签从标记数据传播到未标记数据,但这些方法在临床应用中的价值可能有限,因为学习到的 GCN 模型不能直接应用于预测在训练过程中不可用的新样本的数据。

因此,在这项工作中,作者探索了 GCN 在监督学习中的应用。目标是在网络训练期间通过graph捕获数据的内在结构。通过将每个样本视为样本相似性网络中的一个节点,MOGONET 中每个 GCN 的目标都是学习图 G = ( V , E ) G=(V,E) G=(V,E)上的特征函数,利用每个节点的特征以及图 G G G中表征的节点之间的关系来执行分类任务。

GCN的输入包含两部分:

  • 特征矩阵 X ∈ R n × d X\in\R^{n\times d} XRn×d,其中 n n n是节点数量, d d d是特征数量;
  • 图结构的描述,用邻接矩阵 A ∈ R n × n A\in\R^{n\times n} ARn×n表示。

GCN 可以通过堆叠多个卷积层来构建。具体来说,每层定义为:
eq1
其中, H ( l ) \textbf{H}^{(l)} H(l)是第 l l l层的输入, W ( l ) \textbf{W}^{(l)} W(l)是该层的权重。为了提高训练表现,邻接矩阵可以被修改为:
eq2
其中, D ^ \widehat{\textbf{D}} D A ^ \widehat{\textbf{A}} A 的对角线度矩阵, I \textbf{I} I是单位矩阵。

在MOGONET中,原始邻接矩阵 A \textbf{A} A通过计算节点之间的余弦相似度获得,并保留余弦相似度大于阈值 ϵ ϵ ϵ的边。阈值 ϵ ϵ ϵ决定了参数 k k k,其代表保留的每个节点的平均边数,包括自连接:
eq4
其中, I I I是指示函数, n n n是节点数。如果 k = 1 k=1 k=1,graph将没有节点间的连接。由于没有edge,GCN将退化为全连接网络。

尽管GCN主要用于无监督或者半监督,但在这里,GCN被置于有监督场景。对于训练集 X t r ∈ R n t r × d \textbf{X}_{tr}\in\R^{n_{tr}\times d} XtrRntr×d,对应邻接矩阵 A ~ t r ∈ R n t r × n t r \widetilde{\textbf{A}}_{tr}\in\R^{n_{tr}\times n_{tr}} A trRntr×ntr。输入GCN后有:
eq5
其中, Y ^ t r ∈ R n t r × c \widehat{\textbf{Y}}_{tr}\in\R^{n_{tr}\times c} Y trRntr×c表示每个训练样本的预测label概率。

对于新的test sample x t e ∈ R d \textbf{x}_{te}\in\R^{d} xteRd,只需要扩展特征矩阵:
eq5-1
再根据相似度生成新的邻接矩阵:
eq5-2

具体来说,在生成相似度邻接矩阵时, A ~ t r t e \widetilde{\textbf{A}}_{trte} A trte 的最后一行和最后一列的条目是测试期间计算的唯一条目,以反映测试样本 x t e \textbf{x}_{te} xte 和训练样本 X t r \textbf{X}_{tr} Xtr 之间的亲和力。

然后再用GCN遍历图得到:
eq5-3

GCN利用测试样本的特征以及测试样本与训练样本之间的相关性来预测测试样本的标签(依然在Transductive learning下)。

然后,记组学 i i i训练数据 X t r ( i ) ∈ R n t r × d i \textbf{X}_{tr}^{(i)}\in\R^{n_{tr}\times d_{i}} Xtr(i)Rntr×di上训练的GCN为 G C N i GCN_{i} GCNi,训练数据的预测概率为:
eq6
其中, Y ^ t r ( i ) ∈ R n t r × c \widehat{\textbf{Y}}_{tr}^{(i)}\in\R^{n_{tr}\times c} Y tr(i)Rntr×c,用 y ^ j ( i ) ∈ R c \widehat{\textbf{y}}_{j}^{(i)}\in\R^{c} y j(i)Rc表示其第 j j j行。对于 G C N i GCN_{i} GCNi的损失函数写为(基本的交叉熵):
eq7

VCDN用于多模态整合

在不造成负面影响的情况下正确对齐各种view始终是一项挑战。VCDN(Generative multi-view human action recognition,ICCV2019)旨在学习标签空间中更高级别的模态内和模态间相关性。在MOGONET中,作者利用VCDN整合不同的组学数据类型进行分类。此外,虽然VCDN的原始形式是为具有两个模态的设计,但这里进一步将其概括为适应任意模态数量,并使用三种类型的组学数据进行演示:mRNA表达,DNA甲基化和miRNA表达。

由于实验使用了 mRNA 表达数据、DNA 甲基化数据和 miRNA 表达数据,因此演示如何扩展 VCDN 以适应三个视图。对于 y ^ j ( i ) , i = 1 , 2 , 3 \widehat{\textbf{y}}_{j}^{(i)},i=1,2,3 y j(i),i=1,2,3,构建张量 C j ∈ R c × c × c \textbf{C}_{j}\in\R^{c\times c\times c} CjRc×c×c,其中的每个条目被计算为:
eq8
其中, y ^ j , a ( i ) \widehat{y}_{j,a}^{(i)} y j,a(i)表示 y ^ j ( i ) \widehat{\textbf{y}}_{j}^{(i)} y j(i)的第 a a a个条目。

然后,将得到的张量 C j \textbf{C}_j Cj 重塑为 c 3 c^{3} c3 维向量 c j \textbf{c}_{j} cj,并转发给 VCDN(⋅) 进行最终预测。VCDN(⋅) 设计为全连接网络,输出维度为 c c c。VCDN(⋅) 的损失函数可以写成:
fig9
总的损失写为:
eq12
可以发现,MOGONET的设计十分朴素。

生物标志物识别

由于 MOGONET 的输入在预处理期间被缩放到 [0, 1],我们可以通过将信号设置为零来从特征中移除信号。因此,可以通过删除特征后的性能下降来衡量特征对分类任务的重要性。这种消融方法已被广泛用于特征重要性排序和特征选择。性能下降最大的特征被认为是最重要的特征。我们使用 F1 分数来衡量二元分类任务的性能下降,使用 F1_macro 来衡量多类分类任务的性能下降。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/873687.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot整合Swagger报错:Failed to start bean ‘documentationPluginsBootstrapper

文章目录 1 问题背景2 问题原因3 修改SpringBoot配置文件 application.properties参考 1 问题背景 Swagger是SpringBoot中常用的API文档工具,在刚接触使用的时候,按照通用的代码进行配置,发现报错了 [main] ERROR org.springframework.boot…

MySQL实现主从复制的步骤,包括配置读写分离的方法。—— 慧哥充电桩开源平台

下载源码 【慧哥开源充电桩平台】 https://liwenhui.blog.csdn.net/article/details/134773779?spm1001.2014.3001.5502 MySQL主从复制是一种常见的数据备份和读写分离策略。下面是实现MySQL主从复制的步骤: 配置主服务器(Master)&#xff1…

【Android】Fragment的静态动态创建以及两种创建方式的生命周期

参考: 33.3-Fragment的创建-静态创建2_哔哩哔哩_bilibili Fragment的创建_从现有代码创建foutran-CSDN博客 【Android】Fragment的基本用法、Fragment和活动间的通信、Fragment的生命周期、动态加载布局的技巧_android fragment-CSDN博客 文章目录 Fragment的静态创…

各种复现,保证质量

代码复现,文献复现,模型复现,算法复现,文章复现,创新点等等,python/matlab/c语言/r语言均可,保证高质量完成,可接急单,不成功不收费!

前端小知识点——按钮之间出现很小的空隙如何规避

前端小知识点——按钮之间出现很小的空隙如何规避 文章介绍问题再现总结 文章介绍 本文主要介绍页面中两个按钮相邻时会出现一点空隙,导致在后续自定义填充的时候出现换行或其它问题,特此记录。 问题再现 这个图片能看到我们给外面的div设置的是300的宽…

C++:左值/右值引用、移动语义/std::move、万能引用/完美转发std::forward 详解

你能学到 左值 与 右值左值引用 与 右值引用 基本用法与作用拷贝构造函数 与 移动构造函数移动语义 与 std::move万能引用 与 引用折叠完美转发:std::forward 前言 本文代码片段中变量命名规则如下: 小写字母:一般类型的变量(非…

Linux_线程的使用

目录 1、线程与进程的关系 2、线程的优缺点 3、创建线程 4、查看启动的线程 5、验证线程是共享地址空间的 6、pthread_create的重要形参 6.1 线程id 6.2 线程实参 7、线程等待 8、线程退出 9、线程取消 10、线程tcb 10.1 线程栈 11、创建多线程 12、__th…

VS2019安装MFC组件

VS2019支持的MFC版本是mfc140 ~ mfc142版本,它兼容VS2015、VS2017之前的老版本程序。 一、MFC的历史版本 MFC的历史版本如下: IDE发布时间工具集版本MSC_VERMSVCMFC版本dllVisual C6.01998V601200MSVC6.06.0mfc42.dll、mfcce400.dllVisual Studio 2002…

如何设计数据中心100G网络光纤布线

随着全球企业对带宽的需求呈指数级增长,数据中心需要升级以增强其计算、存储和网络能力。数据中心从10G/25G向100G迁移成为必然趋势。随着网络升级,数据中心的光纤布线系统也需要随之优化。本文将指导您如何设计数据中心100G网络光纤布线。 100G以太网的…

python-快速上手爬虫

目录 前言 爬虫需谨慎,切勿从入门到入狱! 一点小小的准备工作 直接上手爬取网页 1.获取UA伪装 2.获取url 3.发送请求 4.获取数据并保存 总结 前言 爬虫需谨慎,切勿从入门到入狱! 一点小小的准备工作 对pip进行换源&#xf…

基于微信小程序图书馆座位预约系统设计与实现

链接: 文档和工程文件地址: ** 2、未完待续:请到目标位置下载 ** 链接: 文档和工程文件地址:

分布式搜索之Elasticsearch入门

Elasticsearch 是什么 Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。作为 Elastic Stack 的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。 Elastic Stack 又是什么呢&a…

排序系列 之 快速排序

!!!排序仅针对于数组哦本次排序是按照升序来的哦代码后边有图解哦 介绍 快速排序英文名为Quick Sort 基本思路 快速排序采用的是分治思想,即在一个无序的序列中选取一个任意的基准元素base,利用base将待排序的序列分…

【吊打面试官系列-ZooKeeper面试题】分布式集群中为什么会有 Master?

大家好,我是锋哥。今天分享关于 【分布式集群中为什么会有 Master?】面试题,希望对大家有帮助; 分布式集群中为什么会有 Master? 在分布式环境中,有些业务逻辑只需要集群中的某一台机器进行执行&#xff0c…

Leetcode1305.两颗二叉搜索树中的所有元素

1.题目要求: 给你 root1 和 root2 这两棵二叉搜索树。请你返回一个列表,其中包含 两棵树 中的所有整数并按 升序 排序。.2.思路: 我这个方法采用的是设立一个数组,然后用前序遍历把值存入数组中,然后用qsort给它排序 3.代码: /*** Definiti…

[米联客-安路飞龙DR1-FPSOC] FPGA基础篇连载-21 VTC视频时序控制器设计

软件版本:Anlogic -TD5.9.1-DR1_ES1.1 操作系统:WIN10 64bit 硬件平台:适用安路(Anlogic)FPGA 实验平台:米联客-MLK-L1-CZ06-DR1M90G开发板 板卡获取平台:https://milianke.tmall.com/ 登录“米联客”FPGA社区 ht…

蚂蚁集团推出EchoMimic:能通过音频和面部标志生成逼真的肖像动画视频

蚂蚁集团最近推出了一项名为EchoMimic的新技术。能通过音频和面部标志生成逼真的肖像动画视频,让你的声音和面部动作被完美复制到视频中,效果自然如照镜子。 EchoMimic不仅可以单独使用音频或面部标志点生成肖像视频,也可以将两者结合&#…

任意空间平面点云旋转投影至水平面—罗德里格旋转公式

1、背景介绍 将三维空间中位于任意平面上的点云数据,通过一系列的坐标变换(平移旋转),使其投影到XOY平面上,同时保证点云的几何中心与XOY平面的原点重合,同时点云形状保持不变。具体效果如下,具…

深入探究理解大型语言模型参数和内存需求

概述 大型语言模型 取得了显著进步。GPT-4、谷歌的 Gemini 和 Claude 3 等模型在功能和应用方面树立了新标准。这些模型不仅增强了文本生成和翻译,还在多模态处理方面开辟了新天地,将文本、图像、音频和视频输入结合起来,提供更全面的 AI 解…

MySQL MVCC原理

全称Multi-Version Concurrency Control,即多版本并发控制,主要是为了提高数据库的并发性能。 1、版本链 对于使用InnoDB存储引擎的表来说,它的聚簇索引记录中都包含两个必要的隐藏列: 1、trx_id:每次一个事务对某条…