在单细胞分辨率下预测细胞对新型药物扰动的反应

scRNA-seq能够在单个细胞分辨率下研究细胞异质性对扰动的响应。然而,由于技术限制,扩大高通量筛选(HTSs,highthroughput screens)来测量许多药物的细胞反应仍然是一个挑战。因此,目前依然需要借助常规的bulk-RNA传递信息。chemCPA是一种新的编码器-解码器结构,用于研究未知药物的扰动效应。作者将该模型与迁移学习的架构相结合,演示了如何在现有的bulkRNA-HTS数据集上进行训练可以提高泛化性能。更好的泛化减少了对单细胞分辨率的昂贵需求,最终加速药物发现。

来自:Predicting Cellular Responses to Novel Drug Perturbations at a Single-Cell Resolution

目录

  • 背景概述
    • 相关工作
  • 化学组合扰动自编码器
    • 基因编码解码器
    • 属性embedding和加性latent space
    • 扰动网络
    • 对抗分类器用于学习不变的basal状态
  • 数据集和迁移学习

背景概述

单细胞测序允许同时分析数百万个细胞,增加了探索细胞异质性的分辨率。利用scRNA-seq和高通量筛选(HTSs),人们现在可以在细胞分辨率上研究不同扰动(即药物剂量组合,drug-dosage combinations)对转录组的影响。与传统的HTs不同,scRNAseq HTs可以识别基因表达和细胞异质性的细微变化,这是制药和药物发现的基石。

因此,需要计算方法来解决现有实验方法的有限探索能力,并发现有希望的候选药物。合适的方法应该预测对未知组合扰动的反应。就医学影响而言,对未知扰动的预测可能是最理想的。同时,它要求模型在多个不同的细胞环境中正确捕获复杂的化学相互作用。这种泛化能力还不能仅从单细胞HTs中学习,因为它们被认为不能覆盖所需的化学相互作用的广度。在这项工作中,作者利用跨数据集的信息来缓解这个问题。

相关工作

在过去的几年里,深度学习(DL)已经成为分析和解释scRNA-seq数据的重要工具。特别是表征学习,不仅可用于识别细胞异质性和整合,还能将query映射到reference,而且还可用于模拟单细胞扰动响应。

与线性模型不同,DL适用于捕获非线性细胞类型特异性反应,并且易于扩展到全基因组测量。最近,Lotfollahi等人引入了CPA方法对scRNA-seq数据进行扰动建模。CPA不能推广到看不见的化合物,这阻碍了其应用于尚未通过scRNA-seq数据测量的药物的虚拟筛选,而这是有效药物发现所必需的。

另一方面,对于bulkRNA数据,已经提出了几种方法来预测de novo化学物质的基因表达谱。至关重要的是,LINCS项目引入的L1000数据集极大地促进了基于表型的化合物筛选的进展。然而,目前尚不清楚如何将这些方法转化到具有少量化合物信息的单细胞数据集,并且可用于不同的基因集合。

化学组合扰动自编码器

考虑一个数据集 D = { ( x i , y i ) } i = 1 N = { ( x i , ( d i , s i , c i ) ) } i = 1 N D=\left\{(x_{i},y_{i})\right\}_{i=1}^{N}=\left\{(x_{i},(d_{i},s_{i},c_{i}))\right\}_{i=1}^{N} D={(xi,yi)}i=1N={(xi,(di,si,ci))}i=1N其中 x i ∈ R n x_{i}\in R^{n} xiRn描述了 n n n维基因表达, y i y_{i} yi是属性集。对于scRNA-seq扰动数据,我们通常考虑药物和剂量属性(drug and dosage attributes), d i ∈ d_{i}\in di{drugs in D D D}, s i ∈ R s_{i}\in R siR。细胞 i i i的细胞系记为 c i c_{i} ci。注意,这组属性依赖于可用数据,并且可以扩展为协变量,如患者或物种。

预测反事实组合的一种可能方法是将细胞的基因表达 x i x_i xi从其属性 y i y_i yi不变地编码为latent z i z_i zi,称为basal state。 z i z_{i} zi可以与属性 z d i z_{d_{i}} zdi z c i z_{c_{i}} zci组合,编码任意属性组合 y i ′ ≠ y i y_{i}'\neq y_{i} yi=yi,并解码回对应这组新选择属性的基因表达状态 x ^ i \widehat{x}_{i} x i

为此,作者将化学组合扰动自编码器chemCPA分为三个部分:1.基因表达编码器和解码器,2.属性嵌入器,3.对抗性分类器,参见图1的说明。

fig1

  • 图1:chemCPA架构,模型包含3部分:1.基因表达编码器和解码器,2.属性嵌入器,3.对抗性分类器。分子编码器 G G G可以是任意的graph-based和language-based模型,前提是生成固定长度的embedding h d r u g s h_{drugs} hdrugs。MLPs S S S M M M被训练用于映射embedding到扰动latent space。这里, z d i z_{d_{i}} zdi被添加到basal state和协变量embedding z c i z_{c_{i}} zci中。在这项工作中,后者对应于细胞系。basal state z i = E θ ( x i ) z_{i}=E_{\theta}(x_{i}) zi=Eθ(xi)通过对抗性分类器 A ϕ j A_{\phi}^{j} Aϕj训练为不变量,解码器 D ψ D_{\psi} Dψ产生高斯似然 N ( x i ∣ μ i , σ i ) N(x_{i}|\mu_{i},\sigma_{i}) N(xiμi,σi)

基因编码解码器

模型基于结合对抗训练的编码解码器架构。编码器 E θ : R n → R l E_{\theta}:R^{n}\rightarrow R^{l} Eθ:RnRl是一个MLP将测量的基因表达 x i ∈ R n x_{i}\in R^{n} xiRn映射到 z i ∈ R l z_{i}\in R^{l} ziRl。通过对抗分类器, z i z_{i} zi被训练成不包含任何关于属性 y i y_{i} yi的信息。这让我们可以控制latent space,我们在latent space中用选择的附加属性embedding更新 z i z_{i} zi并获得 z i ′ z_{i}' zi

解码器 D ψ : R l → R 2 n D_{\psi}:R^{l}\rightarrow R^{2n} Dψ:RlR2n是MLP,取 z i ′ z_{i}' zi作为输入并计算基因表达的分布 P P P,如果输入的 x i x_{i} xi是原始数据则 P P P遵循NB分布,如果输入的 x i x_{i} xi是预处理数据则 P P P遵循高斯分布。假设是高斯分布,则得到参数化输出 μ = D ψ μ ( z ′ ) , σ 2 = D ψ σ 2 ( z ′ ) \mu=D_{\psi}^{\mu}(z'),\sigma^{2}=D_{\psi}^{\sigma^{2}}(z') μ=Dψμ(z),σ2=Dψσ2(z)。虽然chemCPA支持这两种设置,但作者在实验中观察到高斯分布具有更好的收敛性,因此重建损失为: L r e c ( θ , ψ ) = N ( x i ∣ μ i , σ i ) = 1 2 [ I n ( D ψ σ 2 ( z i ′ ) ) + ( D ψ μ ( z i ′ ) − x i ) 2 D ψ σ 2 ( z i ′ ) ] z i ′ = E θ ( x i ) + z a t t r i b u t e L_{rec}(\theta,\psi)=N(x_{i}|\mu_{i},\sigma_{i})=\frac{1}{2}[In(D_{\psi}^{\sigma^{2}}(z_{i}'))+\frac{(D_{\psi}^{\mu}(z_{i}')-x_{i})^{2}}{D_{\psi}^{\sigma^{2}}(z_{i}')}]\\ z_{i}'=E_{\theta}(x_{i})+z_{attribute} Lrec(θ,ψ)=N(xiμi,σi)=21[In(Dψσ2(zi))+Dψσ2(zi)(Dψμ(zi)xi)2]zi=Eθ(xi)+zattribute接下来,作者提供了关于如何有意义地解释潜在空间的方法以及如何编码药物和细胞系属性的方法。

属性embedding和加性latent space

假设潜在空间中的扰动响应具有加性结构: z i ′ = z i + z c i + s ^ i z d i z_{i}'=z_{i}+z_{c_{i}}+\widehat{s}_{i}z_{d_{i}} zi=zi+zci+s izdi其中, z c i z_{c_{i}} zci z d i z_{d_{i}} zdi对应细胞系和药物属性, s ^ i \widehat{s}_{i} s i为剂量的编码。

这种线性的选择使模型对生物学家等用户来说是可解释的,因为它允许单独分析和去除组分。加性结构的另一个优点是它的排列不变性,它允许添加新的协变量。

由于药物和细胞系属性的不同,作者在潜空间中分别编码药物和细胞系属性。对于细胞系,使用与Lotfollahi等人(2021)相同的方法,其中为每个细胞系 c c c编码了 l l l维潜在表示 z c z_{c} zc。对于药物,作者提出了一个新的嵌入网络 P φ P_{\varphi} Pφ

扰动网络

网络 P φ P_{\varphi} Pφ映射分子的表示,由 G , M , S G,M,S G,M,S组成,见图1(2)。分子编码器 G G G将分子映射到固定长度的向量 h d i ∈ R m h_{d_{i}}\in R^{m} hdiRm。后续步骤中,扰动编码器 M : R m → R l M:R^{m}\rightarrow R^{l} M:RmRl以分子向量作为输入,生成药物扰动表示 z d i z_{d_{i}} zdi。剂量 S : R m + 1 → R S:R^{m+1}\rightarrow R S:Rm+1R使用 h d i h_{d_{i}} hdi,并将其与剂量 s i s_{i} si一起映射到缩放后的剂量表示 s ^ i \widehat{s}_{i} s i。作者选择 S S S映射回标量值 s ^ \widehat{s} s ,因为这使我们能够以一种简单的方式计算药物反应曲线。此外,这种编码方式与 z d i z_{d_i} zdi编码药物的一般效应(与剂量无关)的场景相匹配。合在一起,得到: s ^ i × z d i = P φ ( g i , s i ) = S ( h d i , s i ) × M ( h d i ) \widehat{s}_{i}\times z_{d_{i}}=P_{\varphi}(g_{i},s_{i})=S(h_{d_{i}},s_{i})\times M(h_{d_{i}}) s i×zdi=Pφ(gi,si)=S(hdi,si)×M(hdi)分子编码器 G G G可以是任何将分子表示映射到固定大小嵌入的编码网络。由于scRNA-seq HTs中可用的药物数量有限,作者建议依靠预训练的编码模型并在训练期间冻结 G G G。同时,作者发现RDKit特征的表现良好,并报告了使用RDKit作为分子编码器 G G G的chemCPA的结果。

通过该设计,我们可以为药物和细胞系选择一组新的属性,并计算新的latent状态为: z i ′ = z i + z a t t r i b u t e z_{i}'=z_{i}+z_{attribute} zi=zi+zattribute。基于扰动网络,chemCPA可以预测实验未观察到的分子的药物扰动。

学习不变表示的目的:数据集中的基因表示本质都是受到协变量控制的,解耦后才能和协变量结合产生有意义的预测结果。因此,接下来,将描述如何“从属性信息中剥离 z i z_i zi”以获得basal状态表示。

对抗分类器用于学习不变的basal状态

生成basal也被称为解开 z i , z d i , z c i z_{i},z_{d_{i}},z_{c_{i}} zi,zdi,zci的纠缠,使用对抗分类器 A ϕ d r u g A_{\phi}^{drug} Aϕdrug A ϕ c o v A_{\phi}^{cov} Aϕcov。对抗网络 A ϕ j : R l → R N j A_{\phi}^{j}:R^{l}\rightarrow R^{N_{j}} Aϕj:RlRNj z i z_{i} zi为输入,目标是预测细胞 i i i应用的药物及其细胞系 c i c_i ci。在训练这些分类器以提高分类性能的同时,作者还在编码器 E θ E_{\theta} Eθ的训练目标中添加了reversed sign分类损失。因此,编码器试图产生一个不包含有关属性信息的潜在表示 z i z_i zi。注意,这种basal、药物和协变量信息的明确分离,称之为解纠缠,是使问题易于处理的近似。同时,这种分离有助于将扰动效应归因于特定来源,例如药物或细胞系,这与生物学应用和下游分析有关。

使用交叉熵损失: L c l a s s d r u g s = C E ( A ϕ d r u g ( z i ) , d i ) L c l a s s c o v = C E ( A ϕ c o v ( z i ) , c i ) L_{class}^{drugs}=CE(A_{\phi}^{drug}(z_{i}),d_{i})\\ L_{class}^{cov}=CE(A_{\phi}^{cov}(z_{i}),c_{i}) Lclassdrugs=CE(Aϕdrug(zi),di)Lclasscov=CE(Aϕcov(zi),ci)作者在对抗性分类器的损失函数中添加了一个零中心梯度惩罚,以最小化: L p e n j = 1 k ∑ k ∣ ∣ ∂ z i A ϕ j ( z i ) k ∣ ∣ 2 2 L_{pen}^{j}=\frac{1}{k}\sum_{k}||\partial_{z_{i}}A_{\phi}^{j}(z_{i})_{k}||_{2}^{2} Lpenj=k1k∣∣ziAϕj(zi)k22

当应用于生成对抗网络时,这种梯度惩罚被证明使判别器对噪声更具鲁棒性,并实现局部收敛。在训练期间,作者在以下相互竞争的目标之间交替更新步骤: L A E ( θ , ψ , φ ∣ ϕ ) = L r e c ( θ , ψ , φ ) − λ d i s ∑ j L c l a s s j ( θ ∣ ϕ ) L A d v ( ϕ , θ ) = ∑ j L c l a s s j ( ϕ ∣ θ ) + λ p e n L p e n j ( ϕ ) L_{AE}(\theta,\psi,\varphi|\phi)=L_{rec}(\theta,\psi,\varphi)-\lambda_{dis}\sum_{j}L_{class}^{j}(\theta|\phi)\\ L_{Adv}(\phi,\theta)=\sum_{j}L_{class}^{j}(\phi|\theta)+\lambda_{pen} L_{pen}^{j}(\phi) LAE(θ,ψ,φϕ)=Lrec(θ,ψ,φ)λdisjLclassj(θϕ)LAdv(ϕ,θ)=jLclassj(ϕθ)+λpenLpenj(ϕ)其中, λ d i s \lambda_{dis} λdis平衡重建和编码器的不变表示,以产生解纠缠的 z i z_{i} zi

数据集和迁移学习

作者分别使用sci-Plex3和L1000数据集进行单细胞数据的主要评估和bulk实验的预训练。

数据集:L1000数据包含了大约130万份针对978种不同基因的bulkRNA的观察结果。它包括对近2万种不同药物的测量,其中一些是FDA批准的,而另一些是合成化合物,对任何疾病都没有证实的效果。与scRNA-seq数据相比,L1000允许探索更多样化的分子空间,这使其成为预训练的理想选择。

sci-Plex3包含649,340个细胞的7561个药物敏感基因的测量值。在三种人类癌细胞系(A549、MCF7和K562)上,研究了188种药物在4种不同剂量(10 nM、100 nM、1μM和10μM)下的单化合物扰动。请注意,所有细胞系和大约150种化合物与L1000数据重叠。此外,Srivatsan等人(2020)为所有化合物分配了19种不同的作用模式,也称为pathway,描述了细胞暴露于药物分子所导致的变化。

迁移学习:当我们用高斯似然损失训练chemCPA时,首先对数据集进行归一化,然后log变换。根据实验,进一步减少了单细胞数据中包含的基因数量。对于扩展了基因集的情况(因为通常考虑2000个基因),可以在 E θ E_{\theta} Eθ前加一个非线性层将微调数据集的2000基因压缩到预训练上的977基因。在微调过程中训练所有的层,包括新添加的层。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/5629.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

excel表格在筛选状态下,怎样从指定数字开始填充序列?

分两种情况分开来说吧: 一、表格根据需要做数据筛选,指定列的序号始终保持0012开始的连续序号。 B2TEXT(AGGREGATE(3,5,B$1:B1)11,"0000") 然后向下填充公式。 当C列数据做了筛选以后,B列仍旧保持连续的序号,改变筛选…

MySQL连表查询

MySQL简介,我们为什么要学习各种join MySQL是SQL的一种,SQL意为结构化查询语言(Structure Query Language),MySQL可以应用于现实世界的各种结构化数据。 SQL(结构化查询语言),处理结构化数据的查询语言&a…

房产中介小程序高效开发攻略:从模板到上线一站式服务

对于房产中介而言,拥有一个高效且用户友好的小程序是提升业务、增强客户黏性的关键。而采用直接复制模板的开发方式,无疑是实现这一目标的最佳途径,不仅简单快捷,而且性价比极高。 在众多小程序模板开发平台中,乔拓云网…

Java项目:基于SSM框架实现的高校专业信息管理系统设计与实现(ssm+B/S架构+源码+数据库+毕业论文+PPT+开题报告)

一、项目简介 本项目是一套基于SSM框架实现的高校专业信息管理系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操作简单、…

前端vite+rollup前端监控初始化——封装基础fmp消耗时间的npm包并且发布npm beta版本

文章目录 ⭐前言💖vue3系列文章 ⭐初始化npm项目💖type为module💖rollup.config.js ⭐封装fmp耗时计算的class💖npm build打包class对象 ⭐发布npm的beta版本💖 npm发布beta版本 ⭐安装web-performance-tool的beta版本…

5G前传光纤传输的25G光模块晶振SG2016CAN

一款适用于5G前传光纤传输网络中的25G光模块的5G晶振SG2016CAN。随着5G时代的到来,5G晶振的重要性也不言而喻,小体积宽温晶振SG2016CAN可以用于5G前传的25G光模块,具有高稳定性、小体积、宽温等优势。在5G前传光纤传输网络中,25G光…

Mac 上安装多版本的 JDK 且实现 自由切换

背景 当前电脑上已经安装了 jdk8; 现在再安装 jdk17。 期望 完成 jdk17 的安装,并且完成 环境变量 的配置,实现自由切换。 前置补充知识 jdk 的安装路径 可以通过查看以下目录中的内容,确认当前已经安装的 jdk 版本。 cd /Library/Java/Java…

【大前端】ECharts 绘制立体柱状图

立体柱状图分为: 纯色立体柱状图渐变立体柱状图 常用实现方式 纯色立体柱状图 纯色立体柱状图,使用MarkPoint和颜色渐变就实现,如下代码 import * as echarts from "echarts";var chartDom document.getElementById("main&…

AI大模型探索之路-训练篇9:大语言模型Transformer库-Pipeline组件实践

系列篇章💥 AI大模型探索之路-训练篇1:大语言模型微调基础认知 AI大模型探索之路-训练篇2:大语言模型预训练基础认知 AI大模型探索之路-训练篇3:大语言模型全景解读 AI大模型探索之路-训练篇4:大语言模型训练数据集概…

Android View事件分发面试问题及回答

问题 1: 请简述Android中View的事件分发机制是如何工作的? 答案: 在Android中,事件分发机制主要涉及到三个主要方法:dispatchTouchEvent(), onInterceptTouchEvent(), 和 onTouchEvent(). 当一个触摸事件发生时,首先被Activity的…

展会资讯 | 现场精彩回顾 阿尔泰科技参展2024第23届中国国际(西部)光电产业!

2024第23届中国国际(西部)光电产业博览会,在成都世纪城新国际会展中心圆满落幕!来自各地的光电领域设备及材料厂商汇聚一堂,展示前沿技术及创新成果。 展会现场,来自全国各地的500余家企业就精密光学、信息…

ChatGPT 网络安全秘籍(四)

原文:zh.annas-archive.org/md5/6b2705e0d6d24d8c113752f67b42d7d8 译者:飞龙 协议:CC BY-NC-SA 4.0 第八章:事故响应 事故响应是任何网络安全策略的关键组成部分,涉及确定、分析和缓解安全漏洞或攻击。 及时和有效地…

Linux深入学习内核 - 中断与异常(下)

软中断,Tasklet和Work Queue 由内核执行的几个任务之间有一些不是紧急的,他们可以被延缓一段时间!把可延迟的中断从中断处理程序中抽出来,有利于使得内核保持较短的响应时间,所以我们现在使用以下面的这些结构&#x…

通用漏洞评估系统CVSS4.0简介

文章目录 什么是CVSS?CVSS 漏洞等级分类历史版本的 CVSS 存在哪些问题?CVSS 4.0改进的“命名法”改进的“基本指标”考虑“OT/IOT”新增的“其他指标”CVSS 4.0存在的问题 Reference: 什么是CVSS? 在信息安全评估领域,CVSS为我们…

2024五一数学建模C题Python代码+结果表数据教学

2024五一数学建模竞赛(五一赛)C题保姆级分析完整思路代码数据教学 C题 煤矿深部开采冲击地压危险预测 第一问 导入数据 以下仅展示部分,完整版看文末的文章 import numpy as np import pandas as pd import matplotlib.pyplot as plt imp…

基于Springboot的音乐翻唱与分享平台

基于SpringbootVue的音乐翻唱与分享平台设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 用户登录 首页 音乐资讯 音乐翻唱 在线听歌 后台登录 后台首页 用户管理 音乐资讯管理…

labview强制转换的一个坑

32位整形强制转换成枚举的结果如何? 你以为的结果是 实际上的结果是 仔细看,枚举的数据类型是U16,"1"的数据类型是U32,所以转换产生了不可预期的结果。所以使用强制转换时一定要保证两个数据类型一致,否则…

CentOS7安装MySQL8.3(最新版)踩坑教程

安装环境说明 项值系统版本CentOS7 (具体是7.9,其他7系列版本均可)位数X86_64,64位操作系统MySQL版本mysql-8.3.0-1.el7.x86_64.rpm-bundle.tar 实际操作 官网下载安装包 具体操作不记录,相关教程很多。 mkdir /o…

锂电池SOH预测 | 基于BP神经网络的锂电池SOH预测(附matlab完整源码)

锂电池SOH预测 锂电池SOH预测完整代码锂电池SOH预测 锂电池的SOH(状态健康度)预测是一项重要的任务,它可以帮助确定电池的健康状况和剩余寿命,从而优化电池的使用和维护策略。 SOH预测可以通过多种方法实现,其中一些常用的方法包括: 容量衰减法:通过监测电池的容量衰减…

QT5制做两个独立窗口

目录 增加第二个窗口 主窗口文件添加一个私有成员为子窗口 定义两个槽函数和 关联按钮和子窗口和主窗口 添加子窗口成员 子窗口处理函数 补充回顾 增加第二个窗口 1、 2、 3 主窗口文件添加一个私有成员为子窗口 在mainwidget.h文件 同时添加两个槽;来处理…