研究论文 2022-Oncoimmunology:AI+癌RNA-seq数据 识别细胞景观

Wang, Xin, et al. "Deep learning using bulk RNA-seq data expands cell landscape identification in tumor microenvironment." Oncoimmunology 11.1 (2022): 2043662. https://www.tandfonline.com/doi/full/10.1080/2162402X.2022.2043662

被引次数:5

2022年分区:大类医学2区;小类免疫学2区,肿瘤学 3区

IF 7.723 JCR Q1

一、数据集

从GDC数据库(https://portal.gdc.cancer.gov/projects)下载32种“癌症样本和正常样本”,共有10906患者的表达谱和临床数据。

非小细胞肺癌数据的两种亚型:肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)

从GEO数据集(https://www.ncbi.nlm.nih.gov/geo/)下载5个数据集:

  • GSE81861(CRC):11例结直肠癌患者的样本,包含7种细胞类型。引用文献32

  • GSE75688(BC):11个乳腺癌细胞和淋巴结转移的单细胞测序数据。引用文献33。包括515个单细胞RNA测序数据,使用Illumina HiSeq 2500进行测序。基因表达水平以TPM(每百万转录本)表示,已经进行了标准化,可以在下一步的分析中进行比较。

  • GSE86146(FGC):2167个个体生殖细胞及其生殖腔细胞,涵盖了从怀孕后4周到26周的女性和男性人类胚胎的发育阶段。引用文献21。

  • GSE72056(Melanoma):31个黑色素瘤样本及其6种细胞类型。引用文献34。

  • GSE78220(PD1):38个黑色素瘤活检样本在抗PD-1治疗之前的转录组样本和相应的临床数据。引用文献35。

  • 细胞类型及其对应的标记基因来自CellMarker数据库(http://bio-bigdata.hrbmu.edu.cn/CellMarker/)。

CellMarker数据预处理

从CellMarker数据库中下载了来自158个人类组织中的467种细胞类型的13,605个标记基因。

数据处理如下:由于一些细胞及其标记基因在不同人类组织中重复出现,我们删除了组织特异性的重复,仅保留一个细胞及其标记基因作为重复组的代表。为了DCNet模型的训练目的,删除了在TCGA基因集中未检测到的标记基因[详见TCGA数据预处理],然后排除了33个细胞类型,因为未检测到任何标记基因。最终,保留了434个细胞类型,包括免疫细胞、癌细胞、基质细胞等,以及它们对应的9078个标记基因,用于进一步的分析。通过整合CellMarker数据库(http://biocc.hrbmu.edu.cn/CellMarker/)和Cell Ontology数据库(OBO:http://www.obofoundry.org/ontology/cl.html)中的类别信息,计算了主要细胞类型的细胞丰度。在DCNet识别的434个细胞类型中,有77个细胞类型没有Cell Ontology ID,137个细胞类型没有自己的Cell Ontology ID,但被分配到其父类的术语ID,220个细胞类型在OBO数据库中有自己的Cell Ontology ID。对于没有Cell Ontology ID或仅有其父类Cell Ontology ID的细胞类型,从CellMarker数据库中获取了细胞类型之间的层次关系信息。对于具有自己Cell Ontology ID的细胞类型,从Cell OBO数据库中下载了细胞类型之间的本体结构信息。整合这些信息,创建了附表1,其中包含了父细胞类型和子细胞类型的名称、细胞本体ID的父细胞类型和子细胞类型、数据源数据库(CellMarker或OBO)。

对于CellMarker数据库,父细胞类型的细胞丰度是通过累加其子细胞类型的细胞丰度计算的;而对于OBO数据库,父细胞类型的细胞丰度是通过累加其在细胞本体结构中的叶节点的细胞丰度计算的。

TCGA的表达谱数据预处理

对于TCGA的表达谱数据,删除了在超过1/3的样本中表达水平为0的基因,保留了21,136个基因,并进行了对数归一化。我们将每个样本的基因表达分为输入数据(9078个标记基因的表达水平)和输出数据(21,136个基因的表达水平)。由于癌症样本分布不均匀,我们采用了过采样方法来扩大样本数量,同时平衡样本类别。此外,在实验测量过程中,由于某些基因的低表达强度或实验误差,可能无法检测到一些基因,这将导致模型的输入维度与标记基因维度不匹配。为解决这个问题,输入数据以0.1、0.3、0.5的概率被随机删除(0填充),这不仅可以增加训练样本,还可以降低过拟合的风险。最后,所有样本按80%和20%的比例划分为训练集和测试集。

我们还使用TCGA biolink 软件包从TCGA队列中获取了1487名肿瘤转移患者的临床数据和药物治疗信息。如果接受某种药物治疗的患者数量小于48,则该药物的信息将被截断。

二、DCNet神经网络构建与训练

DCNet model trains a deep neural network, which embeds the relationships between cells and their marker genes, to predict more than 400 cell types proportion within bulk seq dataset. 

DCNet 模型训练深度神经网络,该网络嵌入细胞及其标记基因之间的关系,以预测批量 seq 数据集中 400 多种细胞类型的比例。

图1. DCNet架构和设计流程。 (a) 组织中不同的细胞类型,如基质细胞、红细胞、巨噬细胞、T细胞、B细胞、神经元细胞等。这些细胞又可进一步分割不同的细胞(b) DCNet模型的基本结构。输入是bulk RNA-seq中标记基因的表达水平,输出是所有基因的表达水平。中间层人工神经网络。(c) 神经灰色DCNet模型的第一级关系是细胞与标记基因的对应关系。DCNet模型的中间层代表细胞的相对内容。 显示全尺寸

三、比较

不同参数量下的NN比较(类似敏感性分析)

与其他方法比较:CIBERSORTx、EPIC、MCP-Counter、quanTIseq、xCell(默认参数,代码链接见正文,同时R包immunoconv包含了这些方法可用来预测细胞丰度)

四、模型训练

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/241591.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VSCode软件与SCL编程

原创 NingChao NCLib 博途工控人平时在哪里技术交流博途工控人社群 VSCode简称VSC,是Visual studio code的缩写,是由微软开发的跨平台的轻量级编辑器,支持几乎所有主流的开发语言的语法高亮、代码智能补全、插件扩展、代码对比等&#xff0c…

图解LRU缓存

图解LRU缓存 OJ链接 介绍 LRU 缓存机制可以通过哈希表辅以双向链表实现,我们用一个哈希表和一个双向链表维护所有在缓存中的键值对。 双向链表按照被使用的顺序存储了这些键值对,靠近尾部的键值对是最近使用的,而靠近头部的键值对是最久未…

适配器模式学习

适配器模式(Adapter)将一个类的接口转换成客户希望的另外一个接口。Adapter 模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。 适配器模式分为类适配器模式和对象适配器模式两种,前者类之间的耦合度比后者高,且要…

【常见的语法糖(详解)】

🟩 说几个常见的语法糖 🟢关于语法糖的典型解析🟢如何解语法糖?🟢糖块一、switch 支持 String 与枚举📙糖块二、泛型📝糖块三、自动装箱与拆箱🍁糖块四、方法变长参数🖥️…

STM32——CAN协议

文章目录 一.CAN协议的基本特点1.1 特点1.2 电平标准1.3 基本的五个帧1.4 数据帧 二.数据帧解析2.1 帧起始和仲裁段2.2 控制段2.3 数据段和CRC段2.4 ACK段和帧结束 三.总线仲裁四.位时序五.STM32CAN控制器原理与配置5.1 STM32CAN控制器介绍5.2 CAN的模式5.3 CAN框图 六 手册寄存…

LangChain 30 ChatGPT LLM将字符串作为输入并返回字符串Chat Model将消息列表作为输入并返回消息

LangChain系列文章 LangChain 实现给动物取名字,LangChain 2模块化prompt template并用streamlit生成网站 实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储,读取YouTube的视频文本搜索I…

深度学习(八):bert理解之transformer

1.主要结构 transformer 是一种深度学习模型,主要用于处理序列数据,如自然语言处理任务。它在 2017 年由 Vaswani 等人在论文 “Attention is All You Need” 中提出。 Transformer 的主要特点是它完全放弃了传统的循环神经网络(RNN&#x…

智能优化算法应用:基于爬行动物算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于爬行动物算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于爬行动物算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.爬行动物算法4.实验参数设定5.算法结果6.…

PHP函数定义和分类

函数的含义和定义格式 在PHP中,允许程序员将常用的流程或者变量等组件组织成一个固定的格式实现特定功能,也就是说函数是具有特定功能特定格式的代码段。 函数的定义格式如下: function 函数名(参数1,参数2,参数n) {…

Web前端 ---- 【Vue】vue路由守卫(全局前置路由守卫、全局后置路由守卫、局部路由path守卫、局部路由component守卫)

目录 前言 全局前置路由守卫 全局后置路由守卫 局部路由守卫之path守卫 局部路由守卫之component守卫 前言 本文介绍Vue2最后的知识点,关于vue的路由守卫。也就是鉴权,不是所有的组件任何人都可以访问到的,需要权限,而根据权限…

Hadoop入门学习笔记——六、连接到Hive

视频课程地址:https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接:https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记(汇总) 目录 六、连接到Hive6.1. 使用Hive的Shell客户端6.2. 使用Beel…

vue3(五)-基础入门之计算属性

一、计算属性 1.计算属性与普通方法的的区别: 计算属性在需要渲染数据时调用一次,而后将结果缓存起来。只有计算属性所依赖的数据发生改变时才会重新调用函数,否则每次渲染相同的数据都只会从缓存中读取。 普通方法在每次数据需要渲染时都会…

CGAL的网格简化

1、介绍 曲面网格简化是减少曲面网格中使用的面数,同时尽可能保持整体形状、体积和边界的过程。它是细分法的反面。 这里提出的算法可以使用称为边折叠的方法简化任何有向2流形曲面,具有任意数量的连接组件,有或没有边界(边界或孔…

为什么react call api in cDidMount

为什么react call api in cDM 首先,放到constructor或者cWillMount不是语法错误 参考1 参考2 根据上2个参考,总结为: 1、官网就是这么建议的: 2、17版本后的react 由于fiber的出现导致 cWM 会调用多次! cWM 方法已…

Redis数据一致解决方案

文章目录 前言技术积累查询缓存业务流程更新缓存业务流程 更新缓存问题解决方案写在最后 前言 当前的应用服务很多都有着高并发的业务场景,对于高并发的解决方案一般会用到缓存来降低数据库压力,并且还能够提高系统性能减少请求耗时,比如我们…

深度学习(七):bert理解之输入形式

传统的预训练方法存在一些问题,如单向语言模型的局限性和无法处理双向上下文的限制。为了解决这些问题,一种新的预训练方法随即被提出,即BERT(Bidirectional Encoder Representations from Transformers)。通过在大规模…

蓝牙技术在物联网中的应用

随着蓝牙技术的不断演进和发展,蓝牙已经从单一的传统蓝牙技术发展成集传统蓝牙。高速蓝牙和低耗能蓝牙于一体的综合技术,不同的应用标准更是超过40个越来越广的技术领域和越来越多的应用场景,使得目前的蓝牙技术成为包含传感器技术、识别技术…

【Spring Security】打造安全无忧的Web应用--使用篇

🥳🥳Welcome Huihuis Code World ! !🥳🥳 接下来看看由辉辉所写的关于Spring Security的相关操作吧 目录 🥳🥳Welcome Huihuis Code World ! !🥳🥳 一.Spring Security中的授权是…

Netty-2-数据编解码

解析编解码支持的原理 以编码为例,要将对象序列化成字节流,你可以使用MessageToByteEncoder或MessageToMessageEncoder类。 这两个类都继承自ChannelOutboundHandlerAdapter适配器类,用于进行数据的转换。 其中,对于MessageToMe…

基于 Webpack 插件体系的 Mock 服务

背景 在软件研发流程中,对于前后端分离的架构体系而言,为了能够更快速、高效的实现功能的开发,研发团队通常来说会在产品原型阶段对前后端联调的数据接口进行结构设计及约定,进而可以分别同步进行对应功能的实现,提升研…