特征选择策略:为检测乳腺癌生物标志物寻找新出口

内容一览:microRNA(小分子核糖核酸)是一类短小的单链非编码 RNA 转录体。这些分子在多种恶性肿瘤中呈现失控性生长,因此近年来被诸多研究确定为确诊癌症的可靠的生物标志物 (biomarker)。在多种病理分析中,差异表达分析 (Differential Expression Analysis) 常被视为检测关键生物标志物的有效方法,而来自意大利那不勒斯费德里科二世大学的研究人员,则提出基于机器学习的特征选择 (Feature Selection) 策略能够更为有效的检测,并建议将其发现的 20 种 microRNA 作为乳腺癌诊断性生物标志物。
关键词:特征选择 microRNA 乳腺癌

本文首发自 HyperAI 超神经微信公众平台~

根据国家卫健委发布的 2022 年版《乳腺癌治疗指南》,乳腺癌是女性常见的恶性肿瘤之一,发病率高居女性恶性肿瘤之首。世界卫生组织统计,2020 年,全球共有 230 万女性被诊断为乳腺癌,随着治疗手段的不断提高,早期乳腺癌五年生存率可达到 90% 甚至更高。因此,乳腺癌早期的准确诊断尤为重要。

microRNA 除了在生物方面具备诸多关键作用,其表达上的改变也与多种癌症相关,因此可作为可靠的诊断性生物标志物(putative diagnostic biomarker)。来自意大利那不勒斯费德里科二世大学的研究人员基于机器学习,利用特征选择策略,通过分析 3 种方法的稳定性和分类性能,得到了一组乳腺癌特定诊断生物标志物,同时还发现了乳腺癌疾病发展和演变中的推定关键基因。

目前,这一研究成果发表在《第 18 届生物信息学与生物统计学计算智能方法会议论文集(CIBB 2023)》上,标题为《Robust Feature Selection strategy detects a panel of microRNAs as putative diagnostic biomarkers in Breast Cancer》。

该研究成果已发表在 CIBB 2023 上

论文地址:

https://www.researchgate.net/publication/372083934

实验概述

在本研究中,科研人员发现借助 3 种特征选择方法(增益率、随机森林及支持向量机递归特征消除),可以更加高效地提取诊断分子组合,他们揭示了一个包含 20 个 microRNA 的组合 (panel),其中 hsa-mir-337、hsa-mir-378c 以及 hsa-mir-483 在目前的乳腺癌诊断生物标志物中,暂未受到医学界的广泛关注。该方法能够区分健康及肿瘤样本,与常用的差异表达法相比,其分类性能更佳,更容易识别易被低估甚至忽略的特征。

图 1: Pipeline 概述

Workflow 包含 4 个关键步骤:

(i) 在训练 TCGA 子集上进行 Ensemble-FS 计算

(ii) 对 TCGA/GEO 数据集进行差异表达分析

(iii) 比较差异表达分析和特征选择结果的分类性能,并评估特征选择方法的稳定性

(iv) 用计算机模拟验证所选 signature 的前 20 种 microRNA,对枢纽基因靶点进行检测。

实验详情

数据集

实验数据来源包含两个渠道:美国 GDC 官网的 TCGA-BRCA 项目以及 Gene Expression Omnibus (GEO) data repository (GSE97811)。

实验团队从 GDC TCGA-BRCA 项目中,合计收集了 1,881 个 microRNA-Seq 数据,并按照 8:2 的比例,分成了训练集和测试集两部分。这些数据与 300 个实体原发肿瘤样本 (T) 以及 101 个正常相邻肿瘤 (NAT) 样本相关,都属于导管及小叶乳腺组织。应用特征选择法之前,这些数据都进行了方差稳定归一化处理 (variance stabilizing normalization)。

同时,科研人员从 GEO 数据库 (GSE97811) 下载了一个包含 2,565 个 microRNA 的微阵列数据集 (microarray dataset),作为本次实验的验证集。该数据集包括 16 个正常样本及 45 个肿瘤样本,然后进行数据插补 (data imputation)。

由于 GEO 数据(本实验中的验证集)涉及到的是成熟 microRNA 表达,TCGA 数据(本实验中的训练集和测试集)则包含早期形态 (precursor form),为了统一数据,科研人员在 GEO 数据样本中只选择了平均计数值高于其对立链 (opposite strand) 的可替代成熟 microRNA;同时, microRNA 的名称也已经转换成了相应的早期形态名称。

通过这一过程后,GEO 数据(验证集)的维度减少至 1,361 个 microRNA,相应的 TCGA RNA-Seq 数据也被收集,共包括 20,404 种基因。

1. 特征选择法及 Ensemble 程序应用

科研人员选择了 3 种特征选择方法与差异表达分析法进行比较,分别是 Gain Ratio(增益率)、Random Forest(随机森林)和 SVM-RFE(支持向量机递归特征消除)。将 3 种方法应用于 microRNA-Seq 表达 TCGA 数据的 500 个子集上,以识别能区分正常样本和肿瘤样本的稳健特征面板 (panel)。观察到的结果中,按照 8:2 的比例划分为训练集和测试集,然后对数据通过重采样 (resampling) 进行自助法 (bootstrapping) 处理,使其符合数据扰动集成程序 (Data Perturbation Ensemble procedure)。每次计算返回的 500 个按「importance score」降序排列的 microRNA 向量。

|备注:importance score(重要性得分)表示用算法计算得出的每个 feature(特征)在分类中的影响。

importance score 越高,赋予 feature 的 rank 就越低。然后科研人员通过一个聚合程序,推导出每种特征选择方法的共识签名 (consensus signature),最终每组 microRNA 保留得分前 200 名的 feature。

2. 稳定性测试

用 Kuncheva Index (KI) 和 Percentage of Overlapping Gene/Features (POG) 评估特征选择方法的一致性,用 Stot 统计法(KI 的成对测量)确定所有方法之间的稳定性。这些统计数据是在 signature 长度逐渐增加的过程中计算得出的,feature 数量从 2 开始到 200 结束,每次重新计算增加 2 个 unit。

Stot 统计法公式

3. 差异表达分析和 DE-signature

对 TCGA 数据集(含 microRNA-Seq 及 RNA-Seq)进行差异表达分析,从原始计数 (raw count) 开始,使用精确检验 (Exact Test),然后保留 FDR <= 0.01 及 Log2FC 阈值为 |0.5| 的 DE feature。为了获得 DE-microRNA 的 signature,将 Log2FC 值转化为绝对值,并按照 abs (Log2FC) 递减的顺序对 microRNA(保留前 200 个 feature)进行排序。

GEO 验证集借助 Limma 进行差异分析表达,该数据集获取 DE-signature 的参数及程序与 TCGA 数据集一致。

4. 分类性能分析

为了确定每个 signature 区分健康人及癌症患者的能力,科研人员在测试子集 (TCGA) 和验证集 (GEO) 上对 4 个 signature(包括特征选择 panel 和差异表达 panel)都进行了预测性分析。

最后计算出精度平均值 (ACC)、K 统计量 (KK) 以及马修斯相关系数 (MCC) 在各个 fold 以及每个 signature 的多个长度上的平均值。

5.SVM-RFE microRNA-signature 靶点 (target) 检测

为了识别 microRNA 潜在的基因靶点,科研人员进行了以下操作:

1. 将前 20 个 SVM-RFE microRNA 按照其在肿瘤样本中的上调 (up-regulated) 或下调 (down-regulated) 进行分类。

2. 对 RNA-Seq 数据进行差异表达分析,检测差异表达基因 (FDR <= 0.05)。

3. 应用斯皮尔曼相关性分析,对比 microRNA 表达与差异表达基因,只保留与 down-microRNA 负相关的 up-gene,以及 up-microRNA 负相关的 down-gene (rho <= -0.5)。

4. 收集所有经过验证的 microRNA 基因靶点 (gene targets),且只保留那些也显示出 DE-correlated 的。

6. 网络中心性及枢纽基因识别

选定失调基因的相关矩阵 (Spearman),并用其构建一个图结构基因网络:保留 Kleinberg’s hub 中心性得分 > 75,rho > 0.8 或 rho < -0.6 的枢纽基因。对枢纽基因进行基因富集分析 (ORA),以便从 REACTOME 数据库中探索最丰富的 pathway。FDR 调整后 pValue 值阈设定为 0.005。

实验结果

实验表明,应用 3 种特征选择方法后,都返回了 500 个按 importance score 降序排列的 microRNA signature,汇总后得到 3 个共识 panel。值得注意的是,排名前 3 的 microRNA(hsa-mir-139、hsa-mir-96 及 hsa-mir-145)在所有 panel 中都出现了,显示出这些分子在区分肿瘤样本和健康样本中的重要性。

|结论 1:SVM-RFE 稳定性最高

从 KI 和 POG 在共识 panel 上的计算来看,SVM-RFE 法最具稳定性,signature 长度达到 20 个 feature 时最突出。同样,Stot 指数的结果也显示出 SVE-RFE 法具有最高稳定性。

图 2: 3 种特征选择方法的稳定性指数比较

蓝色:Random Forest(随机森林)

粉色:Gain Ratio(增益率)

黄色:SVM-RFE(支持向量机递归特征消除)

|结论 2: SVM-RFE signature 在分类中的表现优于差异表达 signature

所有单独 panel 进行分类性能分析后,无论是测试集 (TCGA) 还是验证集 (GEO),都显示出用 SVM-RFE 获得的 signature 的预测能力最高。

图 3: 前 20 个 microRNA 分类性能及维恩图

A:条形图显示了在测试子集和外部验证 GEO 数据集上计算的平均 statistic

ACC:精度

KK:K 统计量

MCC:马修斯相关系数

绿色:DE(差异表达分析法,该实验中的对照方法)

粉色:GR(增益率)

蓝色:RF(随机森林)

橙色:RFE(SVM-RFE,支持向量机递归特征消除)

B:每个 signature 的前 20 个 microRNA 的维恩图,其中标注了 SVM-RFE panel 前 20 中的一些有趣的 microRNA–hsa-mir-337、hsa-mir-378c 及 hsa-mir-483,这 3 个 micro-RNA 在 3 种特征选择方法中都出现了,但目前关于乳腺癌的研究中尚未完全确定其作为诊断依据是否可靠。

|结论 3: 网络分析揭示了疾病演变中的潜在关键基因

实验表明,CDC25、TPX2 及 KIF18B 在不同类型癌症以及三阴性乳腺癌患者的干细胞中,都显示高度表达,且 TGFBR2 的下调与癌症进展相关。

microRNA:乳腺癌早筛的又一理想候选

传统的乳腺癌筛查方法仍以 X 光成像及组织活检为主,无法对完整的癌症基因组建立更深入全面的理解。这种方法不光侵入性强、成本高,容易产生副作用,还常给出假阳性或假阴性结果,提高乳腺癌的早筛准确度及患者体验,仍需开发新策略来应对乳腺癌负担。

自 1993 年首次发现以来,micorRNA 不断深化了人类对癌症的理解,作为可靠的乳腺癌诊断生物标志物,它展现了巨大潜力。

microRNA 属于长度约 19-25 nt 的小型非编码 RNA,可以调控多种靶点基因 (target gene),参与了多种生物学和病理学过程的调控,包括癌症的形成和发展,有望弥补当下 X 光成像及组织活检作为临床上乳腺癌筛查主流诊断方法的局限性。

然而,目前尚未完全开发出 microRNA 的成熟临床应用,对 microRNA 使用过程中的安全评估体系也还未建立,要想让 microRNA 成为癌症的主流诊断依据,恐怕仍需时日。

参考文章:

[1]https://www.who.int/zh/news-room/fact-sheets/detail/breast-cancer

[2]https://guide.medlive.cn/guideline/25596

[3]https://www.abcam.cn/kits/micrornas-as-biomarkers-in-cancer-1

[4]https://caivd-org.cn/webfile/file/20220508/20220508153691029102.pdf

[5]https://www.sohu.com/a/318088245_100120288

本文首发自 HyperAI 超神经微信公众平台~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/7904.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3下的uniapp跨域踩坑

uniapp vue3 H5跨域踩坑 开发移动端H5的时候由于后端接口没有做跨域处理&#xff0c;因此需要做下服务器代理&#xff0c;于是百度搜索了uniapp下h5的跨域配置 在manifest下的h5配置proxy&#xff0c;大概是这样: "h5": {"devServer": {"https"…

安全—01day

文章目录 1. 编码1.1 ASCLL编码1.2 URL编码1.3 Unicode编码1.4 HTML编码1.5 Base64编码 2. form表单2.1 php接收form表单2.2 python接收form表单 1. 编码 1.1 ASCLL编码 ASCII 是基于拉丁字母的一套电脑编码系统&#xff0c;主要用于显示现代英语和其他西欧语言。它是最通用的…

ajax/axios访问后端测试方法

文章目录 1、浏览器执行javascript方法GET请求POST请求 2、Postman测试工具GET请求POST请求 3、idea IDE提供的httpclient4、Apache JMeter 1、浏览器执行javascript方法 GET请求 http://localhost:6060/admin/get/123 POST请求 技巧&#xff1a;打开谷歌浏览器&#xff0c…

C数据结构与算法——队列 应用(C语言纯享版 迷宫)

实验任务 (1) 掌握顺序循环队列及其C语言的表示&#xff1b; (2) 掌握入队、出队等基本算法的实现&#xff1b; (3) 掌握顺序循环队列的基本应用&#xff08;求解迷宫通路&#xff09;。 实验内容 使用C语言实现顺序循环队列的类型定义与算法函数&#xff1b;编写main()函数…

算法与数据结构(三)--栈

一.栈的基本概念 栈是一种特殊的表&#xff0c;这种表只在表首进行插入和删除操作。 因此&#xff0c;表首对于栈来说具有特殊的意义&#xff0c;称为栈顶。相应的&#xff0c;表尾称为栈底。不含任何元素的栈称为空栈。 栈的修改遵循后进先出的原则&#xff0c;Last In First…

Zabbix邮件报警(163网易邮箱)

目录 一、电脑登录网易邮箱配置 二、Server端安装配置邮件服务器 邮箱查看 三、编辑zabbix_server.conf 引用邮件脚本 查看邮件 五、配置zabbix web监控项邮件报警 操作思路 Server.zabbix.com web操作 确认报警媒介信息 配置zabbix中的用户所使用的报警媒介类型以及接收邮…

【网络】HTTPS协议

目录 一、概念 1、HTTPS 2、加密解密 3、加密的必要性 4、常见的加密方式 4.1、对称加密 4.2、非对称加密 5、数据摘要 && 数据指纹 6、数字签名 二、HTTPS的工作过程 1、只使用对称加密 2、只使用非对称加密 3、双方都使用非对称加密 4、非对称加密 对…

rust gtk 桌面应用 demo

《精通Rust》里介绍了 GTK框架的开发&#xff0c;这篇博客记录并扩展一下。rust 可以用于桌面应用开发&#xff0c;我还挺惊讶的&#xff0c;大学的时候也有学习过 VC&#xff0c;对桌面编程一直都很感兴趣&#xff0c;而且一直有一种妄念&#xff0c;总觉得自己能开发一款很好…

深入学习 Redis - 深挖经典数据类型之 set

目录 前言 一、Set 类型 1.1、操作命令 sadd / smembers&#xff08;添加&#xff09; sismember&#xff08;判断存在&#xff09; scard&#xff08;获取元素个数&#xff09; spop&#xff08;删除元素&#xff09; smove&#xff08;移动&#xff09; srem&#x…

Golang time 包以及日期函数

time 包 在 golang 中 time 包提供了时间的显示和测量用的函数。 time.Now()获取当前时间 可以通过 time.Now()函数获取当前的时间对象&#xff0c;然后获取时间对象的年月日时分秒等信息。 示例代码如下&#xff1a; package mainimport ("fmt""time" )…

Redis原理篇(二)

Redis原理 Redis数据结构 Redis网络模型 RESP协议 Redis内存回收 Redis原理篇 一、原理篇-Redis数据结构 1.1 Redis数据结构-动态字符串 我们都知道Redis中保存的Key是字符串&#xff0c;value往往是字符串或者字符串的集合。可见字符串是Redis中最常用的一种数据结构。 不…

网络安全 Day19-计算机网络基础知识04(网络协议)

计算机网络基础知识04&#xff08;网络协议&#xff09; 1. ARP1.1 ARP通讯原理1.2 arp欺骗1.3 ARP欺骗与预防1.4 排查ARP病毒 2. DHCP工作原理&#xff08;自动分配内网IP&#xff09;3. TCP协议三次握手、四次挥手原理4. DNS协议工作原理 1. ARP Linux查看arp&#xff1a;ar…

聊聊STM32 ADC的话题

STM32 微控制器系列提供了多个模拟数字转换器&#xff08;ADC&#xff09;模块&#xff0c;用于实现模拟信号的采集和转换为数字信号。ADC 在很多应用中都是非常重要的&#xff0c;例如传感器数据采集、电压测量等。 在 STM32 中&#xff0c;ADC 可以通过 STM32HAL 库提供的函…

自动驾驶感知系统-超声波雷达

超声波雷达&#xff0c;是通过发射并接收40kHz的超声波&#xff0c;根据时间差算出障碍物距离。其测距精度是1~3cm.常见的超声波雷达有两种&#xff1a;第一种是安装在汽车前后保险杠上的&#xff0c;用于测量汽车前后障碍物的驻车雷达或倒车雷达&#xff0c;称为超声波驻车辅助…

时间复杂度和空间复杂度

在计算机科学中&#xff0c;算法的效率是一个重要的概念。算法的效率可以通过复杂度来度量&#xff0c;其中包括时间复杂度和空间复杂度。 了解算法的复杂度对于程序员来说非常重要。在解决实际问题时&#xff0c;我们需要选择合适的算法来保证程序的性能和效率。因此&#xff…

【前端笔记】本地运行cli项目报错ERR_OSSL_EVP_UNSUPPORTED

报错原因 Node版本>17.x&#xff0c;本地npm run 起项目后会发现终端报错&#xff0c;具体有以下2块关键信息&#xff1a; Error: error:0308010C:digital envelope routines::unsupported和 opensslErrorStack: [ error:03000086:digital envelope routines::initializa…

SpringCloud学习路线(9)——服务异步通讯RabbitMQ

一、初见MQ &#xff08;一&#xff09;什么是MQ&#xff1f; MQ&#xff08;MessageQueue&#xff09;&#xff0c;意思是消息队列&#xff0c;也就是事件驱动架构中的Broker。 &#xff08;二&#xff09;同步调用 1、概念&#xff1a; 同步调用是指&#xff0c;某一服务…

ProtoBuf入门概念

目录&#xff1a; 序列化概念ProtoBuf是什么ProtoBuf的使⽤特点安装ProtoBuf如何学习ProtoBuf 1.序列化概念 序列化和反序列化 序列化&#xff1a;把对象转换为字节序列的过程称为对象的序列化。反序列化&#xff1a;把字节序列恢复为对象的过程称为对象的反序列化。 什么…

【搜索引擎Solr】Apache Solr 神经搜索

Sease[1] 与 Alessandro Benedetti&#xff08;Apache Lucene/Solr PMC 成员和提交者&#xff09;和 Elia Porciani&#xff08;Sease 研发软件工程师&#xff09;共同为开源社区贡献了 Apache Solr 中神经搜索的第一个里程碑。 它依赖于 Apache Lucene 实现 [2] 进行 K-最近邻…

【Python笔记】Python + xlrd + pymysql读取excel文件数据并且将数据插入到MySQL数据库里面

这篇文章&#xff0c;主要介绍Python xlrd pymysql读取excel文件数据并且将数据插入到MySQL数据库里面。 目录 一、Python读取excel 1.1、安装xlrd库 1.2、打开excel工作簿 1.3、获取sheet工作表 1.4、操作row数据行 1.5、操作column数据列 1.6、操作单元格 二、读取…