Nat. Med. | 基于遗传学原发部位未知癌症的分类和治疗反应预测

今天为大家介绍的是来自Alexander Gusev团队的一篇论文。原发部位未知癌症(Cancer of unknown primary,CUP)是一种无法追溯到其原发部位的癌症,占所有癌症的3-5%。CUP缺乏已建立的靶向治疗方法,导致普遍预后不佳。作者开发了OncoNPC,这是一个基于机器学习的分类器,使用来自三个机构的22种癌症类型中的36,445个肿瘤的定向次世代测序(NGS)数据进行训练。肿瘤NGS基础的原发癌类型分类器(OncoNPC)在保留的肿瘤样本上取得了加权F1分数为0.942的高置信度预测(≥ 0.9)。

d1a3945069c4792a142d742e1629715a.png

当标准化的诊断流程,包括影像学和病理学评估,未能确定转移性癌症的原发部位时,将其诊断为原发部位未知的癌症(Cancer of Unknown Primary,CUP)。CUP在全球范围内占所有癌症的约3-5%,以其侵袭性进展和预后不良(生存期为6-16个月)为特点。原发部位的隐藏性质限制了治疗选择,因为临床对某些治疗的反应因患者的肿瘤类型而异。新兴的癌症治疗针对可操作的分子改变通常是针对特定癌症类型开发的,因此对于CUP患者意义不怎么大。因此,准确地确定CUP肿瘤的潜在原发部位,并证明针对特定部位的治疗在临床上的益处,可能会为CUP患者开启许多现有的治疗选择。

病理学评估在根据免疫组织化学(IHC)结果以及肿瘤形态学和临床发现确定恶性肿瘤的原发癌症类型方面发挥着关键作用。然而,高度转移性或分化差的肿瘤的病理诊断可能具有挑战性。对于已知的癌症类型,先前的研究显示基于IHC的诊断流程可以正确识别77-86%的原发肿瘤,而对于转移性肿瘤则降低到60-71%。对于CUP患者,表明单一原发诊断的IHC结果仅占肿瘤的25%。分子肿瘤分析已被提出作为原发部位分类的一种替代方法,可能适用于CUP肿瘤,因为其具有定量性质,并且在已知癌症类型的肿瘤中具有高准确性。这些工具依赖于微阵列DNA甲基化、全基因组测序、RNA测序数据或基因表达谱。然而,尽管它们是有效的,但这些测序技术尚未整合到标准护理中,而且往往成本较高。在最近的研究中,已经证明通过针对目标区域的下一代测序(NGS)可以进行准确的原发癌症类型分类,这些测序数据现在在许多癌症中心收集。然而,它在诊断和辅助CUP患者治疗方面的临床效用尚未得到系统地调查。在这里,作者使用了来自三个机构的36,445个肿瘤样本的NGS目标面板测序数据,以训练和评估一个机器学习分类器,用于预测给定肿瘤样本的原发癌症类型。

7fdb68483c0f72767b263d31c6681350.png

图 1

OncoNPC准确地分类了22种已知的癌症类型

68f432daec0dfddbd015e7c1dfecd027.png

图 2

作者开发了OncoNPC,这是一个基于多中心目标面板测序数据训练的分子癌症类型分类器(图1)。OncoNPC使用体细胞变异,包括突变(单核苷酸变异(SNVs)和插入/缺失突变),突变标记、拷贝数变异(CNAs)以及测序时的患者年龄和性别等特征,使用XGBoost算法进行癌症类型预测。OncoNPC在包括来自Dana-Farber癌症研究所(DFCI)、Memorial Sloan Kettering(MSK)癌症中心和Vanderbilt-Ingram癌症中心(VICC)的22种已知癌症类型的29,176个原发肿瘤和转移肿瘤样本的处理数据上进行了训练和验证。在所有22种癌症类型中,OncoNPC在测试样本上实现了0.784的加权F1分数,其中包括7,289个肿瘤样本(加权精度和召回率分别为0.789和0.791)。在13个癌症组中(根据部位和治疗选择分组;表1),OncoNPC实现了0.806的整体加权F1分数(加权精度和召回率分别为0.810和0.809)。尽管癌症类型之间存在明显的类别不平衡,OncoNPC在癌症类型(图2a)和癌症组(图2b)之间展现出良好的平衡精度。作者在以下四个不同的预测置信水平下评估了OncoNPC的性能,这些水平基于pmax(即在22种癌症类型中的最大预测概率):0.0(涵盖所有样本),0.5,0.7和0.9。基于pmax的阈值应用结果进一步改善了性能,当pmax≥0.5时,加权F1得分为0.830,当pmax≥0.9时,加权F1得分为0.942(图2c、2d)。虽然罕见的癌症类型通常具有较低的整体性能,但增加pmax阈值可以减小常见/罕见癌症类型之间的差异。特征去除研究证明,在仅保留基因组特征的前50%的情况下,OncoNPC仍然可以获得高性能(整体加权F1得分为0.757,而在pmax阈值为0和0.9时分别为0.777和0.950)。

应用OncoNPC于CUP肿瘤样本

作者将OncoNPC应用于对971例CUP肿瘤的分类,这些肿瘤样本来自于被送往DFCI(Dana-Farber癌症研究所)并作为常规临床护理的一部分进行了测序。与DFCI的3690个已知原发癌肿瘤(CKP)的OncoNPC分类相比,CUP肿瘤的预测概率平均较低(0.764与0.881相比),但与DFCI的8025个CKP,包括未在OncoNPC中建模的肿瘤类型,的预测概率相当(0.769)。这表明CUP肿瘤可能包含其他罕见的肿瘤类型。尽管如此,41.2%的CUP肿瘤(971个中的400个)仍然可以高度自信地分类(即,pmax ≥ 0.9),并且多个分类的肿瘤类型,包括NSCLC、BRCA、PAAD和PRAD,其预测概率分布与其对应的CKP相当(图3a)。有趣的是,尽管在训练集中这些类型的肿瘤样本数量很少(n = 359,占训练集的0.99%),但被预测为GINET的CUP仍然高度自信,这表明一些罕见的肿瘤类型可能仍然可以自信地识别出来。如图3b所示,最常见的CUP癌症类型是NSCLC、PAAD、BRCA、EGC和COADREAD。NSCLC、BRCA和COADREAD也是最常见的CKP类型。这与以前的研究结果大致一致,即通过尸检揭示的CUP的潜在原发癌中,最常见的包括肺癌、大肠癌和胰腺癌。最后,将OncoNPC应用于MSK癌症中心的581个CUP肿瘤时也观察到了类似的比率。

解释OncoNPC癌症类型预测

8cf9429c1c57e95b0e4f301aa5bbc2f1.png

图 3

OncoNPC学习了输入体细胞变异和临床特征之间的复杂非线性关系,并提供可解释的原发癌症类型预测,其中每个输入特征对预测的影响通过SHAP值进行量化。作者调查了在CKP和CUP队列中预测每种癌症类型最有影响力的特征,以评估OncoNPC的有效性(有关CUP队列中前三个最常预测的癌症类型的信息,请参见图3d:NSCLC、BRCA和PAAD)。对于NSCLC,最重要的特征是EGFR突变和SBS4,这是与烟草吸烟相关的突变特征,分别用于预测CKP肿瘤样本和预测为NSCLC的CUP肿瘤样本,与肺癌的已知病因一致。EGFR基因的体细胞突变在NSCLC肿瘤中经常观察到,并且该基因本身是NSCLC患者的已知治疗靶点。烟草烟雾中的致癌物质已被认为是导致肺癌的原因。对于BRCA,对于CKP和CUP肿瘤样本,最重要的特征是性别,如预期的那样,其次是PIK3CA的体细胞突变和CCND1基因的变异,这些在乳腺癌中是已知的驱动基因和预后指标。对于PAAD,KRAS突变明显高于人群平均水平,并且是最重要的体细胞特征。KRAS基因的突变在胰腺癌患者中经常发生,并且已知具有预后意义。OncoNPC提供了直观的可视化,以解释个体级别的预测。

参考资料

Moon, I., LoPiccolo, J., Baca, S.C. et al. Machine learning for genetics-based classification and treatment response prediction in cancer of unknown primary. Nat Med 29, 2057–2067 (2023). 

https://doi.org/10.1038/s41591-023-02482-6

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/134367.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

支持存档的书签服务LinkWarden

什么是 LinkWarden ? Linkwarden 是一个自托管、开源协作书签管理器,用于收集、组织和存档网页。目标是将您在网络上找到的有用网页和文章组织到一个地方,并且由于有用的网页可能会消失(参见链接失效的必然性)&#xf…

回归模型原理总结及代码实现

前言 本文将介绍回归模型算法,并总结了一些常用的除线性回归模型之外的模型,其中包括一些单模型及集成学习器。 保序回归、多项式回归、多输出回归、多输出K近邻回归、决策树回归、多输出决策树回归、AdaBoost回归、梯度提升决策树回归、人工神经网络、…

Kibana使用Timelion根据时间序列展示数据

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

工业自动化工厂PLC远程控制网关物联网应用

远程控制网关在工厂自动化领域中起到了至关重要的作用,特别是在工厂PLC数据通讯方面。它充当着数据传输的桥梁,连接了工厂中的各类设备和系统,实现了远程监控和控制的功能。本文将详细介绍远程控制网关在工厂PLC数据通讯中的应用。 远程控制网…

计算机毕业设计 基于SpringBoot的私人西服定制系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

浅谈电力物联网时代物联网技术在电力系统中的应用

贾丽丽 安科瑞电气股份有限公司 上海嘉定201801 摘要:在电力系统建设中,物联网的应用不仅促进了我国电力工业的发展,而且对我国的物联网技术也起到了一定的促进作用。随着物联网技术应用于电力系统,推动了中国工业的快速发展。因…

利用python找出偏序集中极大元、极小元、最大元和最小元

1 问题 在离散数学“关系”这一章的学习过程中,学到偏序集中极大元、极小元、最大元和最小元的求解方法,于是提出能不能用python语言实现偏序集中极大元、极小元、最大元和最小元的求解? 2 方法 判断偏序集中的极大元、极小元、最大元和最小元…

常见React Hooks 钩子函数用法

一、useState useState()用于为函数组件引入状态(state)。纯函数不能有状态,所以把状态放在钩子里面。 import React, { useState } from react import ./Button.cssexport function UseStateWithoutFunc() {const [name, setName] useStat…

了解高防服务器的工作原理

在当今互联网时代,网络安全问题日益突出,各种网络攻击层出不穷。为了保护企业的网络安全,高防服务器应运而生。那么,你是否了解高防服务器的工作原理呢?下面就让我们一起来探索一下。 高防服务器是一种能够有效抵御各种网络攻击的…

Bun 1.0.7 版本发布,实现多个 Node.js 兼容改进

导读Bun 是一个集打包工具、转译器和包管理器于一体的 JavaScript 运行时,由 Jarred Sumner 发布了 1.0.7 版本。本次更新实现了对 Node.js 运行时的多项兼容性改进,并修复了近 60 个 bug。 根据发布说明,本版本对 “bun install” 命令进行…

uview组件u-tabs添加badge数字消息提醒

效果图 在slot插槽中&#xff0c;使用v-if指令来判断当前选项卡是否是当前激活的选项卡&#xff08;即index是否等于currentTab&#xff09;&#xff0c;以及徽标数是否大于0。 <view><u-tabs:list"listTab" //标题数据:is-scroll"false":curre…

【C++初阶】一、入门知识讲解(C++关键字、命名空间、C++输入输出、缺省参数、函数重载)

相关代码gitee自取&#xff1a; C语言学习日记: 加油努力 (gitee.com) 接上期&#xff1a; 【数据结构初阶】十一、归并排序(比较排序)的讲解和实现 &#xff08;递归版本 非递归版本 -- C语言实现&#xff09;-CSDN博客 引言&#xff1a;什么是C C语言是结构化和模块化的…

pytest全局变量的使用

这里重新阐述下PageObject设计模式&#xff1a; PageObject设计模式是selenium自动化最成熟&#xff0c;最受欢迎的一种模式&#xff0c;这里用pytest同样适用 这里直接提供代码&#xff1a; 全局变量 conftest.py """ conftest.py 全局变量&#xff0c;主要实…

探索ChatGPT在学术写作中的应用与心得

随着人工智能的迅猛发展&#xff0c;ChatGPT作为一种强大的自然语言处理模型&#xff0c;逐渐在学术界引起了广泛的关注。本文将探讨ChatGPT在学术写作中的应用&#xff0c;并分享使用ChatGPT进行学术写作时的一些经验和心得。 01 — ChatGPT在学术写作中的应用 1.文献综述和…

高速串行总线——SATA

SATA简介 SATA的全称是Serial Advanced Technology Attachment(串行高级技术附件&#xff0c;一种基于行业标准的串行硬件驱动器接口)&#xff0c;它是一种电脑总线&#xff0c;主要功能是用作主板和大量存储设备&#xff08;如硬盘及光盘驱动器&#xff09;之间的数据传输 SA…

挑战100天 AI In LeetCode Day04(热题+面试经典150题)

挑战100天 AI In LeetCode Day04&#xff08;热题面试经典150题&#xff09; 一、LeetCode介绍二、LeetCode 热题 HOT 100-62.1 题目2.2 题解 三、面试经典 150 题-63.1 题目3.2 题解 一、LeetCode介绍 LeetCode是一个在线编程网站&#xff0c;提供各种算法和数据结构的题目&am…

Flink SQL Window TopN 详解

Window TopN 定义&#xff08;⽀持 Streaming&#xff09;&#xff1a; Window TopN 是特殊的 TopN&#xff0c;返回结果是每⼀个窗⼝内的 N 个最⼩值或者最⼤值。 应⽤场景&#xff1a; TopN 会出现中间结果&#xff0c;出现回撤数据&#xff0c;Window TopN 不会出现回撤数据…

蓝桥杯每日一题2023.11.5

题目描述 方格分割 - 蓝桥云课 (lanqiao.cn) 题目分析 对于每个图我们可以从中间开始搜索&#xff0c;如果到达边界点就说明找到了一种对称的方法&#xff0c;我们可以直接对此进行答案记录每次进行回溯就会找到不同的图像&#xff0c;如果是一样的图像则算一种情况&#xff…

[Kettle] Excel输入

Excel文件采用表格的形式&#xff0c;数据显示直观&#xff0c;操作方便 Excel文件采用工作表存储数据&#xff0c;一个文件有多张不同名称的工作表&#xff0c;分别存放相同字段或不同字段的数据 数据源 物理成绩(Kettle数据集2).xls https://download.csdn.net/download/H…

AI智能公文写作助手“文山会海“

公文写作痛点 没思路&#xff0c;公文写作无从下手公文类型繁多&#xff0c;一时难以全面掌握公文内容组织难度大&#xff0c;不易清晰、有逻辑的进行表达时间紧任务急&#xff0c;往往需要在有限的时间内完成大量写作工作反复修改优化&#xff0c;需满足更多新要求&#xff0…