不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...

大家好!为大家分享本课题组近期发表在Nucleic Acids Research的文章,题目为 “Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq data”,文章提出了一种基于表达密度谱的特征选择方法,能够有效进行特征子空间分离完成特征信息和噪音识别,并结合一致性分群策略,设计了一种单细胞转录组分群新算法(ENCORE)。

aba68998b584944a018e463442317e91.png

【背景介绍】

单细胞转录组测序技术使得我们能够捕获单个细胞的转录组信息,为复杂生物问题的研究提供更精细的分析手段。为了更有效地利用单细胞转录组数据、提取细胞异质性信息,我们需要使用高精度和高分辨率的聚类相关算法,因此近年来研究者们已经开发了大量单细胞转录组分群算法。这些算法通常包括归一化、特征选择、降维、距离计算、聚类、分群标记基因识别等关键步骤,新的算法也常是针对以上步骤进行改进。然而相比于其他步骤,特征选择的改进发展较为缓慢。多数算法选择在表达上具有高表达、高变异性的特征(基因或转录本)进行下游分析,该类方法容易受到噪音的干扰而丢失有效特征,导致结果被高表达的特征主导。

【设计思路】

为了解决目前特征选择所存在的问题,ENCORE提出了一种独特的子空间分离策略,用于降噪和特征选择,从而实现单细胞分群的优化。ENCORE的设计基于这样一个假设:在不考虑表达量的情况下,细胞间表达密度谱相似的特征可能携带相似的细胞异质性信息,因此将特征根据密度谱进行子空间分离后,细胞群在这些子空间中可能呈现更清晰的分布。具体过程如图1所示,主要包括子空间分离、子空间内分群、一致性分群三个步骤。首先对特征的表达密度谱进行分群,将对应特征分离到不同的子空间,这些子空间在各个维度上包含相当的异质性信息,因而更有利于提取异质性信息。随后ENCORE通过识别细胞簇来评估子空间的“熵”值,即子空间包含异质性信息的丰富程度。低熵子空间具有清晰的分群信息,细胞的分布规则;高熵子空间不具有清晰的分群信息,细胞的分布随机。接着ENCORE通过对低熵子空间的筛选实现更有效、准确的特征选择,该方法不仅能保留低表达的有效特征,而且对相似异质性特征的分群使得聚类信号更加集中。最后,ENCORE又利用新设计的一致性分群算法,实现了不同子空间分群信息的整合,增强了来自多个低熵子空间的共同信号并保留了各子空间的特有信号。在这种设计框架下,ENCORE可以在不同的单细胞转录组数据集上实现精确的细胞分群、二维可视化以及分群标记基因识别。

9e6a2edf519218fd18f5560dcb2c8253.png

图1. ENCORE算法示意图

【数据介绍】

首先我们将ENCORE应用于12个标准数据集和浙大小鼠细胞图谱的大数据集,以评估ENCORE的子空间分离性能以及特征选择、降噪能力。从图2可以看出,无论是小数据集(图2A)还是大数据集(图2B),ENCORE的子空间分离方法均能生成多个具有不同信息量的子空间。其中图1A的子空间2,3,4呈现较规则的细胞群分布,子空间1的细胞群分布则相对不规则;图1B的子空间34和43相较于其余子空间也具有较好的分群信息,说明ENCORE可以识别小数据集(图2A)或大数据集(图2B)的低熵子空间。图3展示了Seurat与ENCORE特征选择的结果比较,ENCORE选取的特征在变异系数和均值上具有更随机的分布,说明其与传统算法在特征选择上存在较大差异。

39c202fe2dafd0272e77bf5ea9f81b0b.png

图2. ENCORE子空间分离效果

44d93fe1c803025f1e1f3a41a8ccb1f5.png

图3. ENCORE与Seurat特征选择结果比较

接着,通过与四种广泛应用且高集成性的单细胞分群算法(Seurat, SIMLR, pcaReduce and t-SNE + K-means)进行比较,ENCORE验证了其分群的准确性和普适性。以12个具有已知实验分群标签的标准数据集作为测试数据集,并使用ARI(Adjusted Rand Index)和NMI(Normalized Mutual Information)作为分群准确性指标,两个指标的值越高说明算法预测分群与已知分群标签具有越好的一致性,即说明算法预测分群的准确性越高。如图4A所示,相比于其他算法,在所有数据集上,ENCORE都表现出最高或相当的分群准确性,即使是细胞数较少的数据集,ENCORE仍具有最好的分群准确性。由于这12个数据集来自不同测序平台,具有不同的数据量大小和测序深度,并且使用了不同的归一化方法,而ENCORE都表现出较好的分群准确性,说明ENCORE的分群性能更为稳健。同时,相较于其他算法,ENCORE的可视化结果不仅与聚类结果具有高度的一致性,而且更为清晰、直观(图4B)。

749d3b3e1bd14136ecb4ee4a4d648361.png

图4. ENCORE与其他算法的准确性及可视化结果比较

最后,为了评估了ENCORE对难分离数据集的信息提取能力,我们使用ENCORE对一个小鼠脂肪祖细胞数据集进行分析(图5)。尽管脂肪祖细胞间存在异质性,但是从单细胞转录组数据中识别清晰的分群和明显的标记基因还是困难的。从结果可以看出,ENCORE能够产生更清晰的细胞分型,并识别更具特异性的亚型标记基因,这些亚型标记基因的表达在热图上也能显示出清晰的模式(图5B)。接着,我们挑选了亚型标记基因Mgp(该基因为ENCORE推导的group 8的最优标志基因),对其功能展开初步探索。我们发现3T3-L1细胞中Mgp基因的过表达并不会影响成脂分化相关基因的表达,但是会显著提高Dio2基因的表达(图5D)。Dio2蛋白与甲状腺素(T4)向三碘甲状腺原氨酸(T3)转化相关。分析显示Mgp能够上调T3浓度,而又有报道显示T3能够刺激Mgp的表达上调,说明T3和Mgp之间存在潜在的正反馈回路(图5E)。这些结果表明,ENCORE能够从复杂的数据集中识别具有生物学意义的标记信息。

0f7c22271868780b95c36925c32c5093.png

图5. ENCORE在小鼠脂肪祖细胞分群中的应用

【总结】

在这篇文章中,本课题组和复旦大学李晋课题组开发了一种新型scRNA-seq分析方法ENCORE。基于相似表达密度谱的特征具有相似异质性信息的假设,ENCORE将特征分到不同的熵子空间中,基于子空间内分群信息量来实现高效的特征选择,从而提高细胞分群的准确性。此外,在ENCORE中提出了一种新的一致性聚类方法,以增强来自多个子空间的共有信号,同时保留各子空间的特有信号。与已有算法相比, ENCORE在大多数数据集上具有更优的分群性能、准确的标记识别以及更清晰的可视化效果。对于不同测序平台和归一化处理的数据,ENCORE的性能也更加稳定。ENCORE为单细胞数据的聚类、二维可视化分析提供了新的思路和方法,在细胞异质性研究和识别群体标记方面展现出巨大潜力。

撰稿人:林黎

校稿人:宋佳

原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa1157/6030236

5b5fdf6a8a1427927db24b79e13eb82b.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/334720.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java 9 module_Java 9:欢迎来到Module World

java 9 moduleJava 9已于9月21日正式发布,Eclipse从Eclipse Oxygen.1a(4.7.1a)支持Java 9,让我们进入模块世界。 从此处下载Java 9,并将其添加到Eclipse Installed JRE中,如下所示 就是这样,…

Mac OS 通过配置窗口来连接远程主机

点击连接后,就跳到命令终端窗口中,输入远程主机 root 用户的登录密码,则完成连接。

温度补偿计算公式_一种工业用温度测量模块的设计与实现

一种工业用温度测量模块的设计与实现罗伯特侯0 引言温度是工业生产中最重要的参数之一,因此温度测量设备在工业领域不可或缺。热电偶是工业场合中应用最广泛的温度传感器,它的主要特点是测温范围宽,价格低,同时结构简单,坚固耐用。笔者采用高集成度、高精…

微博如何发订阅消息_微信订阅号或将大变天,微博8年前就这么干了...

近日,微信又偷偷的做了一个大胆的尝试,将公众号消息排序改版,不再按照一直以来的“时间轴展示”,而是学起了微博,变成了“智能排序”。微信的“阅读效率优化”排序不过可能是为了独树一帜,微信管这种排序方…

indesign如何画弧线_彩铅画入门教程,如何给独角兽设计一款好发型

戳这里 → 查看“爱蜜干货文章目录”本次综合训练的目的1.挖掘你的绘画感和想象力,彩色鬃毛色彩大家可以自由发挥哦!2.练习彩铅的长线条,现在练习的长条还是比较简单的,下次综合训练我们还会练习更加复杂的3.彩铅这种画…

微型计算机作为载体的部件是,大工11秋《计算机应用基础》辅导资料二

计算机应用基础辅导资料二主题:计算机基础知识的辅导资料学习时间:2011年10月10日-10月16日内容:这周我们主要学习课件..第二章计算机的基础知识,本章的学习要求及需要掌握的重点内容如下&#…

markdown如何设置图片大小_Gitee(码云)实现免费 Markdown 图床

“阅读本文大概需要 6 分钟前言Markdown是一种易于上手的轻量级标记语言,由于其目的在于注重文字内容而不是排版,目前很受大家欢迎,写完一篇文档可以直接复制到其他各大平台上,不用担心格式字体等混乱问题但是文章中如果引用了某个…

适合利用计算机模拟的是,计算机模拟在数学建模中的应用

计算机模拟在数学建模中的应用计算机模拟是按时间来划分的,因为计算机模拟实质上是系统随时间变化而变化的动态写照,以下是小编搜集整理的一篇探究计算机模拟在数学建模应用的论文范文,供大家阅读参考。【摘要】本文主要阐述了如何利用计算机…

噪音声压和声功率的区别_南昌汽车隔音,深入了解汽车噪音的来源、危害以及解决方案...

汽车噪音带来的危害:汽车噪音对人体健康的影响是多方面的。噪音作用于人的中枢神经系统,使人们大脑皮层的兴奋与抑制平衡失调,导致条件反射异常,使脑血管张力遭到损害。这些生理上的变化,在早期能够恢复原状&#xff0…

lua加密教程_我们相信加密! 教程

lua加密教程许多人认为加密是一个复杂的主题,这很难理解。 可以实现其某些方面,但是每个人都可以理解它在更高层次上的工作方式。 这就是我要处理的这篇文章。 用简单的术语解释它是如何工作的,然后使用一些代码。 是的,我们信任…

生产用计算机软件管理台账,计算机台账管理系统

计算机台账管理系统计算机台账管理系统是什么?什么是计算机台账管理系统?对于设备管理而言,设备台账是其重要的组成部分,计算机台账管理系统对设备的编号、适用规格、年限、使用部门等具体信息进行管理,方便设备资产的…

fcpx怎么合成延时摄影_延时摄影合成终极后期教程

原来常见的延时摄影,一般都是软件生成或视频加速实现,这种方法简单快捷,但是后期处理空间小,画质差。现在追求高画质都会采用拍摄照片,后期合成,索尼等相机型号,自带有间隔拍摄功能,…

计算机网络的拓扑模型,基于复杂网络模型的计算机网络拓扑结构研究

一篇基于复杂网络模型的计算机网络拓扑结构研究论文第卷期第年月计算机科学基于复杂网络模型的计算机网络拓扑结构研究杜彩凤中国石油大学摘,东营,要,随着计算机网络的快速发展网络结构日益复杂传统的随机网络模型已很难对其拓扑特性作出客观的描,.述因此复杂网络理论为计算机网…

交华为换机access配置_华为交换机VLAN内Proxy ARP配置示例

华为交换机VLAN内Proxy ARP配置示例1、组网需求图1 VLAN内Proxy ARP组网示例图如上图1所示,Switch的接口GE1/0/2和GE1/0/1属于同一个sub-VLAN2。该sub-VLAN属于super-VLAN3。要求:属于同一VLAN2的两台主机hostA和hostB之间二层隔离。hostA和hostB之间通过…

java中regex_Java 9中的新Regex功能

java中regex最近,我收到了Packt出版的Anubhava Srivastava提供的免费书籍“ Java 9 Regular Expressions” 。 这本书是一个很好的教程,它向想要学习正则表达式并从头开始的任何人介绍。 那些知道如何使用正则表达式的人可能仍然很有趣,以重申…

如何将本地 Windows 电脑中的文件复制(上传)到远程的 Windows 服务器主机上

文章目录第一步:点击「远程桌面连接」第二步:输入远程主机 IP 和 port第三步:设置本地目录共享第四步:点击「连接」按钮,输入登录用户名和密码第五步:复制本地文件到远程主机上第一步:点击「远程…

股票实例_注意了!手中的股票涨停,但是却封不住反复打开,说明了什么?看懂持股不慌...

手中的股票涨停,却封不住反复打开,说明了什么?如果一只股票收到涨停板但封不牢,说明在涨停位反复打开,而且成交比较大,因为一只股票出现涨停的时候,一般会有大量的买单排除在买位的位置封住涨停&#xff0…

vue设置标签自定义属性_Vue组件化开发之插槽

插槽为组件提供了强大的扩展能力。我们可以把电脑的主板理解为一个已经封装好的组件,主板上都会预留各种插槽,我们可以往插槽中插入内存条、显卡、声卡等设备。基于同样的思想,Vue在封装组件时,也可以预留插槽,在组件被…

sku设计mysql_基于spring boot拥有完整sku和下单流程的完全商城

一个基于spring boot、spring oauth2.0、mybatis、redis的轻量级、前后端分离、防范xss攻击、拥有分布式锁,为生产环境多实例完全准备,数据库为b2b2c设计,拥有完整sku和下单流程的完全开源商城前言Mall4j项目致力于为中小企业打造一个完整、易…

数据结构铁轨问题_每天5分钟用C#学习数据结构(20)图 Part 1

【基础知识】| 作者 / Edison Zhou这是恰童鞋骚年的第216篇原创文章前面已经介绍了线性表和树两类数据结构,线性表中的元素是“一对一”的关系,树中的元素是“一对多”的关系,本章所述的图结构中的元素则是“多对多”的关系。图(Graph)是一种…