不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...

大家好!为大家分享本课题组近期发表在Nucleic Acids Research的文章,题目为 “Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq data”,文章提出了一种基于表达密度谱的特征选择方法,能够有效进行特征子空间分离完成特征信息和噪音识别,并结合一致性分群策略,设计了一种单细胞转录组分群新算法(ENCORE)。

aba68998b584944a018e463442317e91.png

【背景介绍】

单细胞转录组测序技术使得我们能够捕获单个细胞的转录组信息,为复杂生物问题的研究提供更精细的分析手段。为了更有效地利用单细胞转录组数据、提取细胞异质性信息,我们需要使用高精度和高分辨率的聚类相关算法,因此近年来研究者们已经开发了大量单细胞转录组分群算法。这些算法通常包括归一化、特征选择、降维、距离计算、聚类、分群标记基因识别等关键步骤,新的算法也常是针对以上步骤进行改进。然而相比于其他步骤,特征选择的改进发展较为缓慢。多数算法选择在表达上具有高表达、高变异性的特征(基因或转录本)进行下游分析,该类方法容易受到噪音的干扰而丢失有效特征,导致结果被高表达的特征主导。

【设计思路】

为了解决目前特征选择所存在的问题,ENCORE提出了一种独特的子空间分离策略,用于降噪和特征选择,从而实现单细胞分群的优化。ENCORE的设计基于这样一个假设:在不考虑表达量的情况下,细胞间表达密度谱相似的特征可能携带相似的细胞异质性信息,因此将特征根据密度谱进行子空间分离后,细胞群在这些子空间中可能呈现更清晰的分布。具体过程如图1所示,主要包括子空间分离、子空间内分群、一致性分群三个步骤。首先对特征的表达密度谱进行分群,将对应特征分离到不同的子空间,这些子空间在各个维度上包含相当的异质性信息,因而更有利于提取异质性信息。随后ENCORE通过识别细胞簇来评估子空间的“熵”值,即子空间包含异质性信息的丰富程度。低熵子空间具有清晰的分群信息,细胞的分布规则;高熵子空间不具有清晰的分群信息,细胞的分布随机。接着ENCORE通过对低熵子空间的筛选实现更有效、准确的特征选择,该方法不仅能保留低表达的有效特征,而且对相似异质性特征的分群使得聚类信号更加集中。最后,ENCORE又利用新设计的一致性分群算法,实现了不同子空间分群信息的整合,增强了来自多个低熵子空间的共同信号并保留了各子空间的特有信号。在这种设计框架下,ENCORE可以在不同的单细胞转录组数据集上实现精确的细胞分群、二维可视化以及分群标记基因识别。

9e6a2edf519218fd18f5560dcb2c8253.png

图1. ENCORE算法示意图

【数据介绍】

首先我们将ENCORE应用于12个标准数据集和浙大小鼠细胞图谱的大数据集,以评估ENCORE的子空间分离性能以及特征选择、降噪能力。从图2可以看出,无论是小数据集(图2A)还是大数据集(图2B),ENCORE的子空间分离方法均能生成多个具有不同信息量的子空间。其中图1A的子空间2,3,4呈现较规则的细胞群分布,子空间1的细胞群分布则相对不规则;图1B的子空间34和43相较于其余子空间也具有较好的分群信息,说明ENCORE可以识别小数据集(图2A)或大数据集(图2B)的低熵子空间。图3展示了Seurat与ENCORE特征选择的结果比较,ENCORE选取的特征在变异系数和均值上具有更随机的分布,说明其与传统算法在特征选择上存在较大差异。

39c202fe2dafd0272e77bf5ea9f81b0b.png

图2. ENCORE子空间分离效果

44d93fe1c803025f1e1f3a41a8ccb1f5.png

图3. ENCORE与Seurat特征选择结果比较

接着,通过与四种广泛应用且高集成性的单细胞分群算法(Seurat, SIMLR, pcaReduce and t-SNE + K-means)进行比较,ENCORE验证了其分群的准确性和普适性。以12个具有已知实验分群标签的标准数据集作为测试数据集,并使用ARI(Adjusted Rand Index)和NMI(Normalized Mutual Information)作为分群准确性指标,两个指标的值越高说明算法预测分群与已知分群标签具有越好的一致性,即说明算法预测分群的准确性越高。如图4A所示,相比于其他算法,在所有数据集上,ENCORE都表现出最高或相当的分群准确性,即使是细胞数较少的数据集,ENCORE仍具有最好的分群准确性。由于这12个数据集来自不同测序平台,具有不同的数据量大小和测序深度,并且使用了不同的归一化方法,而ENCORE都表现出较好的分群准确性,说明ENCORE的分群性能更为稳健。同时,相较于其他算法,ENCORE的可视化结果不仅与聚类结果具有高度的一致性,而且更为清晰、直观(图4B)。

749d3b3e1bd14136ecb4ee4a4d648361.png

图4. ENCORE与其他算法的准确性及可视化结果比较

最后,为了评估了ENCORE对难分离数据集的信息提取能力,我们使用ENCORE对一个小鼠脂肪祖细胞数据集进行分析(图5)。尽管脂肪祖细胞间存在异质性,但是从单细胞转录组数据中识别清晰的分群和明显的标记基因还是困难的。从结果可以看出,ENCORE能够产生更清晰的细胞分型,并识别更具特异性的亚型标记基因,这些亚型标记基因的表达在热图上也能显示出清晰的模式(图5B)。接着,我们挑选了亚型标记基因Mgp(该基因为ENCORE推导的group 8的最优标志基因),对其功能展开初步探索。我们发现3T3-L1细胞中Mgp基因的过表达并不会影响成脂分化相关基因的表达,但是会显著提高Dio2基因的表达(图5D)。Dio2蛋白与甲状腺素(T4)向三碘甲状腺原氨酸(T3)转化相关。分析显示Mgp能够上调T3浓度,而又有报道显示T3能够刺激Mgp的表达上调,说明T3和Mgp之间存在潜在的正反馈回路(图5E)。这些结果表明,ENCORE能够从复杂的数据集中识别具有生物学意义的标记信息。

0f7c22271868780b95c36925c32c5093.png

图5. ENCORE在小鼠脂肪祖细胞分群中的应用

【总结】

在这篇文章中,本课题组和复旦大学李晋课题组开发了一种新型scRNA-seq分析方法ENCORE。基于相似表达密度谱的特征具有相似异质性信息的假设,ENCORE将特征分到不同的熵子空间中,基于子空间内分群信息量来实现高效的特征选择,从而提高细胞分群的准确性。此外,在ENCORE中提出了一种新的一致性聚类方法,以增强来自多个子空间的共有信号,同时保留各子空间的特有信号。与已有算法相比, ENCORE在大多数数据集上具有更优的分群性能、准确的标记识别以及更清晰的可视化效果。对于不同测序平台和归一化处理的数据,ENCORE的性能也更加稳定。ENCORE为单细胞数据的聚类、二维可视化分析提供了新的思路和方法,在细胞异质性研究和识别群体标记方面展现出巨大潜力。

撰稿人:林黎

校稿人:宋佳

原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa1157/6030236

5b5fdf6a8a1427927db24b79e13eb82b.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/334720.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mac OS 使用命令(scp/sftp)将本地文件上传到远程 Linux 服务器主机或者从远程主机下载文件到本地主机

文章目录一、使用 scp 命令(一)将本地的文件上传(上载/复制)到远程主机的指定目录下(二)将本地主机的目录内容(含目录本身)上传到远程主机指定的目录下1.将本地主机桌面上的目录 www…

java 9 module_Java 9:欢迎来到Module World

java 9 moduleJava 9已于9月21日正式发布,Eclipse从Eclipse Oxygen.1a(4.7.1a)支持Java 9,让我们进入模块世界。 从此处下载Java 9,并将其添加到Eclipse Installed JRE中,如下所示 就是这样,…

python提取html正文为txt,python 提取html文本的方法

假设我们需要从各种网页中提取全文,并且要剥离所有HTML标记。通常,默认解决方案是使用BeautifulSoup软件包中的get_text方法,该方法内部使用lxml。这是一个经过充分测试的解决方案,但是在处理成千上万个HTML文档时可能会非常慢。通…

Mac OS 通过配置窗口来连接远程主机

点击连接后,就跳到命令终端窗口中,输入远程主机 root 用户的登录密码,则完成连接。

温度补偿计算公式_一种工业用温度测量模块的设计与实现

一种工业用温度测量模块的设计与实现罗伯特侯0 引言温度是工业生产中最重要的参数之一,因此温度测量设备在工业领域不可或缺。热电偶是工业场合中应用最广泛的温度传感器,它的主要特点是测温范围宽,价格低,同时结构简单,坚固耐用。笔者采用高集成度、高精…

taskexecutor_弹簧和线程:TaskExecutor

taskexecutor在Web应用程序中使用线程并不罕见,尤其是当您必须开发长期运行的任务时。 考虑到spring,我们必须格外注意并使用它已经提供的工具,而不是生成我们自己的线程。 我们希望线程由spring管理,因此能够在没有任何影响的情…

Linux 命令之 find -- 查找文件和目录/搜索文件和目录

文章目录命令介绍语法格式常用选项文件类型参考示例(一)在当前目录及其子目录下搜索内容中含有“140.206.111.111”的所有文件(二)列出当前目录及其子目录下所有文件和目录(三)在指定目录下查找特定名称的文…

javaserver_什么是JavaServer Faces(JSF)–(第2部分)

javaserverFacelets声明语言 在第1部分中,我介绍了JavaServer Pages(JSF)背后的基本思想 。 在本文中,我想介绍Facelets声明语言 。 HTML标签 我们遇到的第一个标签是代表HTML元素HTML标签。 这些实际上只是HTML标记(…

微博如何发订阅消息_微信订阅号或将大变天,微博8年前就这么干了...

近日,微信又偷偷的做了一个大胆的尝试,将公众号消息排序改版,不再按照一直以来的“时间轴展示”,而是学起了微博,变成了“智能排序”。微信的“阅读效率优化”排序不过可能是为了独树一帜,微信管这种排序方…

html怎么填充颜色渐变,CSS实现不规则图形,填充渐变色

JS Bin/* 背景图片实现 */.background-box {width: 400px;height: 100px;/* 透明色替换为当前背景底色 */background:linear-gradient(-135deg, transparent 50px, red , yellow) top right;background-size: 50% 50%;background-repeat: no-repeat;}/* 边框实现 */.border-box…

Linux 命令之 locate -- 文件查找工具(查找文件/搜索文件)

文章目录一、命令介绍二、相关文件说明配置文件 updatedb.conf三、更新数据库四、常用选项五、命令示例搜索文件名以指定字符串开头的文件查找名称中含有指定字符串的文件使用正则表达式查找特定条件的文件一、命令介绍 locate 命令用来查找文件或目录。 locate 命令要比 find…

算法正义_正义联盟的Sprint Boot

算法正义正义联盟(Justice League)进入了黑暗时代,强大的Darkseid征服了人类。 蝙蝠侠在《神力女超人》的帮助下,努力使联盟与一个关键方面失联。 适当的正义联盟成员管理系统。 由于时间不在他们身边,他们不想经历繁琐…

indesign如何画弧线_彩铅画入门教程,如何给独角兽设计一款好发型

戳这里 → 查看“爱蜜干货文章目录”本次综合训练的目的1.挖掘你的绘画感和想象力,彩色鬃毛色彩大家可以自由发挥哦!2.练习彩铅的长线条,现在练习的长条还是比较简单的,下次综合训练我们还会练习更加复杂的3.彩铅这种画…

微型计算机作为载体的部件是,大工11秋《计算机应用基础》辅导资料二

计算机应用基础辅导资料二主题:计算机基础知识的辅导资料学习时间:2011年10月10日-10月16日内容:这周我们主要学习课件..第二章计算机的基础知识,本章的学习要求及需要掌握的重点内容如下&#…

Linux 命令之 whereis -- 显示命令及相关文件的路径

文章目录一、命令介绍二、选项参数三、参考示例(一)显示 ln 命令的程序和 man 手册页的位置(二)显示 tomcat 相关文件的路径一、命令介绍 whereis 命令用来定位指令的二进制程序、源代码文件和man手册页等相关文件的路径。 wher…

markdown如何设置图片大小_Gitee(码云)实现免费 Markdown 图床

“阅读本文大概需要 6 分钟前言Markdown是一种易于上手的轻量级标记语言,由于其目的在于注重文字内容而不是排版,目前很受大家欢迎,写完一篇文档可以直接复制到其他各大平台上,不用担心格式字体等混乱问题但是文章中如果引用了某个…

json-tree api_什么是JSON处理(JSON-P API)?

json-tree apiJava EE中的JSON-P简介 JSON处理1.0( JSR 353 )的Java API是一个低级,轻量级的JSON解析器和生成器,它提供了在属性和值级别上操作JSON数据的能力。 JSR 353提供了两种JSON处理模型: 对象模型和流模型。 …

适合利用计算机模拟的是,计算机模拟在数学建模中的应用

计算机模拟在数学建模中的应用计算机模拟是按时间来划分的,因为计算机模拟实质上是系统随时间变化而变化的动态写照,以下是小编搜集整理的一篇探究计算机模拟在数学建模应用的论文范文,供大家阅读参考。【摘要】本文主要阐述了如何利用计算机…

噪音声压和声功率的区别_南昌汽车隔音,深入了解汽车噪音的来源、危害以及解决方案...

汽车噪音带来的危害:汽车噪音对人体健康的影响是多方面的。噪音作用于人的中枢神经系统,使人们大脑皮层的兴奋与抑制平衡失调,导致条件反射异常,使脑血管张力遭到损害。这些生理上的变化,在早期能够恢复原状&#xff0…

Linux 命令之 which -- 查找并显示给定命令的绝对路径(查找命令的位置/查询命令的位置/搜索命令的位置/查看命令的位置)

文章目录一、命令介绍二、选项参数三、参考示例(一)查找 java 命令的位置一、命令介绍 which 命令的作用是在 PATH 变量指定的路径中,搜索某个系统命令的位置,并且返回第一个搜索结果。 运维人员在日常工作中经常使用 which 命令…