R语言处理DNA等位基因不平衡(一)

在生物信息学和基因组学研究中,等位基因不平衡分析是一种重要的方法,用于识别在特定生物过程或疾病状态中可能受到选择压力的基因或基因区域。等位基因不平衡(Allele Imbalance)指的是基因座上两个等位基因表达或存在的比例不等,这种不平衡可能是由于自然选择、遗传漂变或基因流等进化力量的作用。

1. 背景:

基因的等位基因表达不平衡可以揭示关于细胞类型特异性、基因调控机制、遗传变异对表型影响的重要信息。

例如,在肿瘤细胞中,特定基因的等位基因不平衡可能指示肿瘤发展过程中的选择性优势或遗传不稳定性。通过对来自不同组织、不同疾病状态或不同发展阶段的样本进行等位基因不平衡分析,研究人员可以识别出关键的遗传变异,这些变异可能在生物过程的调控或疾病的发生发展中起着关键作用。

本研究旨在通过对特定基因区域内的等位基因不平衡进行系统分析,来识别可能在特定生物过程或疾病中发挥作用的基因或基因区域。利用高通量测序技术产生的大量基因组数据,我们可以细致地分析个体或细胞群中的基因变异,并评估这些变异之间的不平衡关系。

2. demo

2.1 导入包和数据

读取计数文件(例如,某种类型的基因表达或变异数据),并对数据进行初步处理,比如过滤。

args = commandArgs(trailingOnly = TRUE)
filename.count= args[1]
filename.region= args[2]
filename.output= args[3]
print(args)# load libraries
suppressMessages(library(data.table))
suppressMessages(library(plyr))
suppressMessages(library(dplyr))
suppressMessages(library(rmutil))
suppressMessages(library(rtracklayer))
suppressMessages(library(pbapply))
suppressMessages(library(parallel))# edit counts
cnt= read.table(filename.count, header=T, skip = 87)

2.2 数据预处理

通过bedtools merge命令(在R中使用系统调用来执行),合并相邻的或重叠的区域,以减少数据中的冗余。

# select colnames
col.names= c("seqnames", "start", "ref.matches", "alt.matches", "ref", "alt")# edit counts
cnt= read.table(filename.count, header=T, skip = 87)colnames(cnt) = col.namescnt$N= rowSums(cnt[, c("ref.matches", "alt.matches")])# filter counts
cnt = subset(cnt, N >= 10)# add end position and name
cnt$end= cnt$start

2.3 等位基因不平衡分析

  • 对每个区域内的变异进行等位基因不平衡测试,使用贝塔-二项式模型来估计每个位点的等位基因频率。
  • 使用优化方法(如optimise和optimize)来找到使似然函数最大化的等位基因不平衡参数。
# function to estimate dispersion under assumption of no allele-imbalance
mtmp <- function(par, x, n){# likelihood given het sites p= dbetabinom(x, n, m= 0.5, s= par)# maximize likelihood for being het-sum(log(p))
}# estimate dispersion
print("estimating dispersion")m0<- optimise(mtmp, c(1e-05, 100), x= cnt$ref.matches, n= cnt$N)d<- m0$minimum# convert to granges
gr1= cnt %>% makeGRangesFromDataFrame(keep.extra.columns = T)# test regions
reg= import.bed(filename.region)reg$name= paste0(seqnames(reg), "_" , start(reg), "_" , end(reg))# function to estimate allele proportions
ll.new<- function(par, x, n, d){allelic.imbalance <- par# for first sitep1= dbetabinom(x[1], n[1], m= 0.5 + allelic.imbalance, s= d)# for subsequent siteslen = length(x)if(len > 1) {# precompute likelihoods of each subsequent SNP given 'in-phase' with first SNPsnp.phase1.like <- dbetabinom(x[2:len], n[2:len], m=0.5 + allelic.imbalance, s = d)# precompute likelihoods of each subsequent SNP given 'out-of-phase' with first SNPsnp.phase0.like <- dbetabinom(x[2:len], n[2:len], m=0.5 - allelic.imbalance, s = d)# create phase arrayphase1.like.array <- rep(NA, len)phase0.like.array <- rep(NA, len)# add likelihood for first sitephase1.like.array[1] <- p1phase0.like.array[1] <- p1for(i in 2:len) {# prior SNP was either in-phase or out-of-phase with first SNP, consider# both mutually exclusive possibilities when computing combined likelihood of# all possible combinations of phasesprev <- (0.5 * phase1.like.array[i-1]) + (0.5 * phase0.like.array[i-1])phase1.like.array[i] <- prev * snp.phase1.like[i-1]phase0.like.array[i] <- prev * snp.phase0.like[i-1]}# total likelihood is sum of last two elementsl = -log(0.5*phase1.like.array[len] + 0.5*phase0.like.array[len])} else {l = -sum(log(p1))}# returnreturn(l)
}# function to estimate allele imbalancefun = function(i){# test regiongr2= reg[i]# subset by overlapsdat= subsetByOverlaps(gr1, gr2, type = "any") %>% as.data.frame()if(nrow(dat)> 3){# sort by startdat=dat[order(dat$start),]rownames(dat)<- NULLm1<- optimize(ll.new, c(-0.49, 0.49), x= dat$ref.matches, n= dat$N, d= d)# resultres= data.frame(seqnames= seqnames(gr2),start= start(gr2), end= end(gr2), name= gr2$name, a =  m1$minimum ,nsites= nrow(dat))} else{res<- NULL}res
}

2.4 结果合成与输出

将每个区域的分析结果合并成一个列表,然后将该列表转换成数据框,最后写入CSV文件以供后续分析使用。

my.list=llply(1:length(reg), fun, .progress = progress_text(char="+"))# combine list
res= rbindlist(my.list) %>% as.data.frame()# output results
write.csv(res , filename.output, row.names = F)

这part的demo特针对于DNA数据,代码已debug,根据各自搭建的环境运行,记得提前加载R包。

下期出RNA的处理~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/804782.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小程序打开空白的问题处理

小程序打开是空白的&#xff0c;如下&#xff1a; 这个问题都是请求域名的问题&#xff1a; 一、检查服务器域名配置了 https没有&#xff0c;如果没有&#xff0c;解决办法是申请个ssl证书&#xff0c;具体看这里 https://doc.crmeb.com/mer/mer2/4257 二、完成第一步后&#…

基于springboot实现墙绘产品展示交易平台管理系统项目【项目源码+论文说明】

基于springboot实现墙绘产品展示交易平台系统演示 摘要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本墙绘产品展示交易平台就是在这样的大环境下诞生&#xff…

RTSP/Onvif视频安防监控平台EasyNVR调用接口返回匿名用户名和密码的原因排查

视频安防监控平台EasyNVR可支持设备通过RTSP/Onvif协议接入&#xff0c;并能对接入的视频流进行处理与多端分发&#xff0c;包括RTSP、RTMP、HTTP-FLV、WS-FLV、HLS、WebRTC等多种格式。平台拓展性强、支持二次开发与集成&#xff0c;可应用在景区、校园、水利、社区、工地等场…

【小程序】常用方法、知识点汇总1

欢迎来到《小5讲堂》 这是《小程序》系列文章&#xff0c;每篇文章将以博主理解的角度展开讲解&#xff0c; 温馨提示&#xff1a;博主能力有限&#xff0c;理解水平有限&#xff0c;若有不对之处望指正&#xff01; 目录 前言请求超时Markdown解析逐行显示效果文本变动事件转发…

Python 设计一个监督自己的软件2

们可以为这个日常任务记录和评分系统添加更多功能,使其更加丰富和实用。以下是一些可以考虑的功能: 用户登录和个人资料管理自定义任务和权重每日、每周、每月的任务统计和可视化任务提醒和待办事项列表成就系统和奖励机制社交分享和好友竞争 下面我们来逐步实现这些功能: 用…

【Linux的进程篇章 - 环境变量的理解】

Linux学习笔记---007 Linux之进程优先级、环境变量以及地址空间的理解1、进程优先级1.1、什么是优先级&#xff1f;1.2、为什么要有优先级&#xff1f;1.3、Linux的优先级特点以及查看方式1.4、进程的几个特性 2、环境变量2.1、概念2.2、命令行参数2.2.1、什么是命令行参数&…

自定义类型—结构体

目录 1 . 结构体类型的声明 1.1 结构的声明 1.2 结构体变量的创建与初始化 1.3 结构体的特殊声明 1.4 结构体的自引用 2. 结构体内存对齐 2.1 对齐规则 2.2 为什么存在内存对齐 2.3 修改默认对齐数 3. 结构体传参 4.结构体实现位段 4.1 位段的内存分配 4.3 位段的…

强化学习MPC——(二)

本篇主要介绍马尔科夫决策&#xff08;MDP&#xff09;过程&#xff0c;在介绍MDP之前&#xff0c;还需要对MP&#xff0c;MRP过程进行分析。 什么是马尔科夫&#xff0c;说白了就是带遗忘性质&#xff0c;下一个状态S_t1仅与当前状态有关&#xff0c;而与之前的状态无关。 为…

【重磅消息】2024年中国质量协会正式发布六西格玛项目报告编制要求及撰写模板

2024年&#xff0c;中国质量协会正式发布六西格玛系列项目报告编制要求及撰写模板&#xff08;以下简称模板&#xff09;&#xff0c;模板针对项目报告的项目简介、项目背景、项目选择、项目管理、项目实施、效果总结等几个部分的内容、格式以及撰写注意事项等方面作了详细要求…

Android11 以太网修改静态IP后需要网线插拔一下才能上网

mtk6771 Android11 以太网修改静态IP后需要网线插拔一下才能上网_mtk 11 增加以太网动态/静态ip设置-CSDN博客 [RK3399/RK3328][Android10.0]Ethernet:以太网设置静态ip&#xff0c;重启后无法获取IP的问题「建议收藏」-腾讯云开发者社区-腾讯云 (tencent.com)

【前端捉鬼记】使用nvm切换node版本后再用node -v查看仍然是原来的版本

今天遇到一个诡异的问题&#xff0c;使用nvm切换node版本&#xff0c;明明提示已经切换成功&#xff0c;可是再次查看node版本还是之前的&#xff01; 尝试了很多办法&#xff0c;比如重新打开一个cmd窗口、切换前执行nvm install version都没成功&#xff0c;直到找到这篇文章…

New Phytologist | 丛枝菌根真菌介导的土壤有机质动态过程的新概念框架

8月2日&#xff0c;中国科学院生态环境研究中心陈保冬团队等合作在著名期刊New Phytologist上发表题为"Soil organic matter dynamics mediated by arbuscular mycorrhizal fungi – an updated conceptual framework"的观点类文章&#xff0c;详述了丛枝菌根真菌介导…

App 测试必备 - 建议所有测试人收藏

移动端App性能测试需要关注多个方面&#xff0c;包括响应时间、稳定性、内存使用、CPU使用率、网络性能、电池消耗以及设备兼容性等。通过综合考虑这些方面&#xff0c;并在不同条件下进行全面的测试&#xff0c;可以确保应用程序在各种情况下都能够提供优质的用户体验&#xf…

QGIS操作:制作速率专题图

1、修改配色色带 双击打开的矢量文件&#xff0c;弹出如下图所示的图层属性界面&#xff0c;如下图所示&#xff1b; 点击左侧 符号化&#xff0c;选择色带的变化方式、符号、颜色渐变等方式&#xff1b; 设置每个色带所表示的数值范围&#xff0c;变化模式等内容&#xff1…

如何在Java中实现多维数组?

目录 1. 多维数组的基础 2. 多维数组的初始化 3. 多维数组的访问 4. 更高维度的数组 5. 多维数组的应用场景 总结 Java中实现多维数组的方法多样&#xff0c;涵盖了从基础的二维数组到更复杂的多维数组动态初始化等。 1. 多维数组的基础 在Java中&#xff0c;多维数组实…

《深入Linux内核架构》第2章 进程管理和调度 (2)

目录 2.4 进程管理相关的系统调用 2.4.1 进程复制 2.4.2 内核线程 2.4.3 启动新程序 2.4.4 退出进程 本专栏文章将有70篇左右&#xff0c;欢迎关注&#xff0c;订阅后续文章。 2.4 进程管理相关的系统调用 2.4.1 进程复制 1. _do_fork函数 fork vfork clone都最终调用_…

在js中如果a的值是空是不是if(表达式的值是false)?

在JavaScript中&#xff0c;一个变量的“空”值可以有多种含义&#xff0c;具体取决于该变量的类型和内容。对于if语句中的条件表达式&#xff0c;其值会被隐式地转换为布尔值。以下是JavaScript中常见的“空”值以及它们在布尔上下文中的行为&#xff1a; null&#xff1a;在…

逻辑卷和磁盘配额

文章目录 一、逻辑卷二、磁盘配额 一、逻辑卷 为什么会出现技术&#xff1f; 分区的缺点&#xff1a; 没有备份功能无法扩容性能取决于硬盘本身 相关概念 LVM 是 Logical Volume Manager 的简称&#xff0c;译为中文就是逻辑卷管理。它是 Linux 下对硬盘分区的一种管理机制。…

玩转儿童数码摄影,儿童人像摄影指南

一、资料前言 本套儿童人像摄影&#xff0c;大小250.91M&#xff0c;共有8个文件。 二、资料目录 《爱孩子爱摄影》.pdf 《六招拍儿童》.pdf 《数码摄影工坊-儿童摄影》.pdf 《专业儿童人像摄影指南》.pdf 宝贝看镜头.pdf 儿童摄影手册.pdf 儿童摄影艺术.pdf 玩转儿童…

5.7Python之元组

元组&#xff08;Tuple&#xff09;是Python中的一种数据类型&#xff0c;它是一个有序的、不可变的序列。元组使用圆括号 () 来表示&#xff0c;其中的元素可以是任意类型&#xff0c;并且可以包含重复的元素。 与列表&#xff08;List&#xff09;不同&#xff0c;元组是不可…