GEO生信数据挖掘(二)下载基因芯片平台文件及注释

检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例

目录

下载平台文件

1.AnnotGPL参数改为TRUE,联网下载芯片平台的soft文件。(国内网速奇慢经常中断)

2.手工去GEO官网下载

转换芯片探针ID为gene name

拓展:通过bioconductor注释包

# 找到GPL6244相应的注释包hgu133a.db



上节我们下载了GEO数据集,并提取了基因表达矩阵,但是矩阵行名称是芯片探针需要转换为基因名。

下载平台文件

1.AnnotGPL参数改为TRUE,联网下载芯片平台的soft文件。(国内网速奇慢经常中断)

注意:下载好soft文件,才可以直接可以提取注释,没下载好,注释内容全为空,后续代码可以运行但是,不能得到正确数据的矩阵。

# 提取注释信息
annotation <- featureData(gse_info[[1]])  

library(GEOquery)
# 指定GEO数据集的ID
gse_id <- "GSE1297"
# 使用getGEO函数获取数据集的基础信息
gse_info <- getGEO(gse_id, destdir = ".", AnnotGPL = TRUE )# 提取注释信息
annotation <- featureData(gse_info[[1]])  #下载好soft,可以直接可以提取注释,没下载好注释内容全为空#查看平台文件列名
colnames(annotation)#仅提取两列,第一列芯片探针名,第十一列基因名
platform_file_set=annotation[,c(1,11)]

#还可以尝试单独下载GPL96平台文件

gse_gp<-getGEO('GPL96',destdir =".")  #  网速不佳 下载失败提示 Failed to download ./GPL96.soft.gz!

2.手工去GEO官网下载

GEO Accession viewerNCBI's Gene Expression Omnibus (GEO) is a public archive and resource for gene expression data.icon-default.png?t=N7T8https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL96

dir() #打印项目文件列表
# 读取芯片平台文件txt
platform_file <- read.delim("GPL96-57554.txt", header = TRUE, sep = "\t", comment.char = "#")
#查看平台文件列名
colnames(platform_file)#仅提取两列,第一列芯片探针名,第十一列基因名
platform_file_set=platform_file[,c(1,11)]

转换芯片探针ID为gene name

先将上节中提取到的表达矩阵转换格式。

表达矩阵是Matrix对象,而我们接下来要用到的merge函数不能对Matrix对象使用,因此要先将表达矩阵转换为data.frame对象。否则会报错。Error in fix.by(by.x, x) : 'by'必需指定唯一有效的列

#将Matrix格式表达矩阵转换为data.frame格式
exprSet <- data.frame(expression_data)#给表达矩阵新增加一列ID
exprSet$ID <- rownames(exprSet) # 得到表达矩阵,行名为ID,需要转换,新增一列#矩阵表达文件和平台文件有相同列‘ID’,使用merge函数合并
express <- merge(x = exprSet, y = platform_file_set, by.x = "ID")#删除探针ID列
express$ID =NULL

最终将探针ID列删除,剩余32列,即得到有基因名称的表达矩阵。

大家观察最后一列,一个芯片探针匹配到多个基因,下节我们来看看处理方案。

拓展:通过bioconductor注释包

GPL96hgu133a
# 找到GPL6244相应的注释包hgu133a.db

gpl    bioc_package    title
GPL32    mgu74a    [MG_U74A] Affymetrix Murine Genome U74A Array
GPL33    mgu74b    [MG_U74B] Affymetrix Murine Genome U74B Array
GPL34    mgu74c    [MG_U74C] Affymetrix Murine Genome U74C Array
GPL71    ag    [AG] Affymetrix Arabidopsis Genome Array
GPL72    drosgenome1    [DrosGenome1] Affymetrix Drosophila Genome Array
GPL74    hcg110    [HC_G110] Affymetrix Human Cancer Array
GPL75    mu11ksuba    [Mu11KsubA] Affymetrix Murine 11K SubA Array
GPL76    mu11ksubb    [Mu11KsubB] Affymetrix Murine 11K SubB Array
GPL77    mu19ksuba    [Mu19KsubA] Affymetrix Murine 19K SubA Array
GPL78    mu19ksubb    [Mu19KsubB] Affymetrix Murine 19K SubB Array
GPL79    mu19ksubc    [Mu19KsubC] Affymetrix Murine 19K SubC Array
GPL80    hu6800    [Hu6800] Affymetrix Human Full Length HuGeneFL Array
GPL81    mgu74av2    [MG_U74Av2] Affymetrix Murine Genome U74A Version 2 Array
GPL82    mgu74bv2    [MG_U74Bv2] Affymetrix Murine Genome U74B Version 2 Array
GPL83    mgu74cv2    [MG_U74Cv2] Affymetrix Murine Genome U74 Version 2 Array
GPL85    rgu34a    [RG_U34A] Affymetrix Rat Genome U34 Array
GPL86    rgu34b    [RG_U34B] Affymetrix Rat Genome U34 Array
GPL87    rgu34c    [RG_U34C] Affymetrix Rat Genome U34 Array
GPL88    rnu34    [RN_U34] Affymetrix Rat Neurobiology U34 Array
GPL89    rtu34    [RT_U34] Affymetrix Rat Toxicology U34 Array
GPL90    ygs98    [YG_S98] Affymetrix Yeast Genome S98 Array
GPL91    hgu95av2    [HG_U95A] Affymetrix Human Genome U95A Array
GPL92    hgu95b    [HG_U95B] Affymetrix Human Genome U95B Array
GPL93    hgu95c    [HG_U95C] Affymetrix Human Genome U95C Array
GPL94    hgu95d    [HG_U95D] Affymetrix Human Genome U95D Array
GPL95    hgu95e    [HG_U95E] Affymetrix Human Genome U95E Array
GPL96    hgu133a    [HG-U133A] Affymetrix Human Genome U133A Array
GPL97    hgu133b    [HG-U133B] Affymetrix Human Genome U133B Array
GPL98    hu35ksuba    [Hu35KsubA] Affymetrix Human 35K SubA Array
GPL99    hu35ksubb    [Hu35KsubB] Affymetrix Human 35K SubB Array
GPL100    hu35ksubc    [Hu35KsubC] Affymetrix Human 35K SubC Array
GPL101    hu35ksubd    [Hu35KsubD] Affymetrix Human 35K SubD Array
GPL198    ath1121501    [ATH1-121501] Affymetrix Arabidopsis ATH1 Genome Array
GPL199    ecoli2    [Ecoli_ASv2] Affymetrix E. coli Antisense Genome Array
GPL200    celegans    [Celegans] Affymetrix C. elegans Genome Array
GPL201    hgfocus    [HG-Focus] Affymetrix Human HG-Focus Target Array
GPL339    moe430a    [MOE430A] Affymetrix Mouse Expression 430A Array
GPL340    mouse4302    [MOE430B] Affymetrix Mouse Expression 430B Array
GPL341    rae230a    [RAE230A] Affymetrix Rat Expression 230A Array
GPL342    rae230b    [RAE230B] Affymetrix Rat Expression 230B Array
GPL570    hgu133plus2    [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
GPL571    hgu133a2    [HG-U133A_2] Affymetrix Human Genome U133A 2.0 Array
GPL886    hgug4111a    Agilent-011871 Human 1B Microarray G4111A (Feature Number version)
GPL887    hgug4110b    Agilent-012097 Human 1A Microarray (V2) G4110B (Feature Number version)
GPL1261    mouse430a2    [Mouse430_2] Affymetrix Mouse Genome 430 2.0 Array
GPL1318    xenopuslaevis    [Xenopus_laevis] Affymetrix Xenopus laevis Genome Array
GPL1319    zebrafish    [Zebrafish] Affymetrix Zebrafish Genome Array
GPL1322    drosophila2    [Drosophila_2] Affymetrix Drosophila Genome 2.0 Array
GPL1352    u133x3p    [U133_X3P] Affymetrix Human X3P Array
GPL1355    rat2302    [Rat230_2] Affymetrix Rat Genome 230 2.0 Array
GPL1708    hgug4112a    Agilent-012391 Whole Human Genome Oligo Microarray G4112A (Feature Number version)
GPL2112    bovine    [Bovine] Affymetrix Bovine Genome Array
GPL2529    yeast2    [Yeast_2] Affymetrix Yeast Genome 2.0 Array
GPL2891    h20kcod    GE Healthcare/Amersham Biosciences CodeLink™ UniSet Human 20K I Bioarray
GPL2898    adme16cod    GE Healthcare/Amersham Biosciences CodeLink™ ADME Rat 16-Assay Bioarray
GPL3154    ecoli2    [E_coli_2] Affymetrix E. coli Genome 2.0 Array
GPL3213    chicken    [Chicken] Affymetrix Chicken Genome Array
GPL3533    porcine    [Porcine] Affymetrix Porcine Genome Array
GPL3738    canine2    [Canine_2] Affymetrix Canine Genome 2.0 Array
GPL3921    hthgu133a    [HT_HG-U133A] Affymetrix HT Human Genome U133A Array
GPL3979    canine    [Canine] Affymetrix Canine Genome 1.0 Array
GPL4032        [Maize] Affymetrix Maize Genome Array
GPL4191    h10kcod    CodeLink UniSet Human I Bioarray
GPL5188    huex10sttranscriptcluster    [HuEx-1_0-st] Affymetrix Human Exon 1.0 ST Array [probe set (exon) version]
GPL5689    hgug4100a    Agilent Human 1 cDNA Microarray (G4100A) [layout C]
GPL6097    illuminaHumanv1    Illumina human-6 v1.0 expression beadchip
GPL6102    illuminaHumanv2    Illumina human-6 v2.0 expression beadchip
GPL6244    hugene10sttranscriptcluster    [HuGene-1_0-st] Affymetrix Human Gene 1.0 ST Array [transcript (gene) version]
GPL6246    mogene10sttranscriptcluster    [MoGene-1_0-st] Affymetrix Mouse Gene 1.0 ST Array [transcript (gene) version]
GPL6885    illuminaMousev2    Illumina MouseRef-8 v2.0 expression beadchip
GPL6947    illuminaHumanv3    Illumina HumanHT-12 V3.0 expression beadchip
GPL8300    hgu95av2    [HG_U95Av2] Affymetrix Human Genome U95 Version 2 Array
GPL8321    mouse430a2    [Mouse430A_2] Affymetrix Mouse Genome 430A 2.0 Array
GPL8490    IlluminaHumanMethylation27k    Illumina HumanMethylation27 BeadChip (HumanMethylation27_270596_v.1.2)
GPL10558    illuminaHumanv4    Illumina HumanHT-12 V4.0 expression beadchip
GPL11532    hugene11sttranscriptcluster    [HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array [transcript (gene) version]
GPL13497    HsAgilentDesign026652    Agilent-026652 Whole Human Genome Microarray 4x44K v2 (Probe Name version)
GPL13534    IlluminaHumanMethylation450k    Illumina HumanMethylation450 BeadChip (HumanMethylation450_15017482)
GPL13667    hgu219    [HG-U219] Affymetrix Human Genome U219 Array
GPL14877    hgu133plus2    Affymetrix Human Genome U133 Plus 2.0 Array [Brainarray Version 13, HGU133Plus2_Hs_ENTREZG]
GPL15380    GGHumanMethCancerPanelv1    Illumina Sentrix Array Matrix (SAM) - GoldenGate Methylation Cancer Panel I
GPL15396    hthgu133b    [HT_HG-U133B] Affymetrix HT Human Genome U133B Array [custom CDF: ENTREZ brainarray v. 14]
GPL17556    hugene10sttranscriptcluster    [HuGene-1_0-st] Affymetrix Human Gene 1.0 ST Array [HuGene10stv1_Hs_ENTREZG_17.0.0]
GPL17897    hthgu133a    [HT_HG-U133A] Affymetrix Human Genome U133A Array (custom CDF: HTHGU133A_Hs_ENTREZG.cdf version 17.0.0)
GPL18190    hugene11sttranscriptcluster    [HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array [CDF: Brainarray HuGene11stv1_Hs_ENTREZG_15.1.0]
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/89593.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

u盘初始化后怎么恢复文件?这几步操作帮你找回

随着科技的进步和便携设备的普及&#xff0c;U盘已经成为我们日常工作和生活中不可缺少的存储介质。然而&#xff0c;在使用U盘的过程中&#xff0c;我们可能会遇到各种问题&#xff0c;其中之一就是意外的初始化导致文件丢失。本文将为大家介绍如何在U盘初始化后恢复文件的方法…

Jenkins学习笔记4

配置构建流程&#xff1a; Jenkins任务创建&#xff1a; 1&#xff09;创建新任务&#xff1a; 把这个Accept first connection改成 No Validation。问题得到解决。 说明下&#xff0c;要确认下主分支的名称是master还是main。 构建触发器这块暂时没有需要配置的。 传输文件…

【yolov1】详解yolov1理论 代码

目标检测要解决的3大问题&#xff1a; 1、有没有&#xff1f; 图片中是否有要检测的物体&#xff1f;&#xff08;检测物体&#xff0c;判定前景背景&#xff09; 2、是什么&#xff1f; 这些物体分别是什么&#xff1f;&#xff08;检测到的物体是什么&#xff09; 3、在…

vuereact质检工具(eslint)安装使用总结

1、ESLint ESLint工具主要类似java中的checkStyle和findbugs&#xff0c;是检查代码样式和逻辑规范的工具。 1.1、ESLint安装流程 打开VSCode软件&#xff0c;打开扩展中心&#xff0c;下载ESLint插件 图1.1 点击后面的install按进行安装&#xff0c;如图1.2所示&#xff1…

单元测试

一、什么是单元测试 二、Junit单元测试框架 三、如何使用Junit单元测试框架 package study.StringUtils;public class StringUtil {public static void printNumber(String name){if (namenull){System.out.println ("名字的长度是&#xff1a;0");return;}System.ou…

性能测试监控-java分析工具Arthas

Arthas监控docker中的jvm_ray_my的博客-CSDN博客 Quick Start | arthas arthas是什么 Arthas是阿里巴巴开源的Java诊断工具&#xff0c;它可以帮助开发人员快速、方便地定位和解决Java应用的问题。 Arthas主要包括以下功能&#xff1a; 诊断Java应用中的性能问题&#xff…

天眼查询企业信息API接口

"天眼"一般是指"天眼查"&#xff0c;这是一个提供全国企业信息查询的API接口。天眼查以"天眼"作为用户logo&#xff0c;基于人工智能算法的数据采集和分析技术&#xff0c;为企业和个人提供全量、精准、实时、权威的企业信息查询服务。 天眼查A…

国产5G手机20天销量不及苹果一天,被iPhone15按在地上摩擦

iPhone15的上市销售&#xff0c;最大竞争对手无疑是国产5G手机&#xff0c;如今iPhone15上市首日的销量数据也已经出炉&#xff0c;高达200万台&#xff0c;这比国产5G手机卖20天的销量还要多&#xff0c;iPhone15让国产手机领教了什么叫遥遥领先。 据了解苹果对iPhone15的预期…

第十四届蓝桥杯大赛软件赛决赛 C/C++ 大学 B 组 试题 A: 子 2023

[蓝桥杯 2023 国 B] 子 2023 试题 A: 子 2023 【问题描述】 小蓝在黑板上连续写下从 1 1 1 到 2023 2023 2023 之间所有的整数&#xff0c;得到了一个数字序列&#xff1a; S 12345678910111213 ⋯ 20222023 S 12345678910111213\cdots 20222023 S12345678910111213⋯2…

[React] React高阶组件(HOC)

文章目录 1.Hoc介绍2.几种包装强化组件的方式2.1 mixin模式2.2 extends继承模式2.3 HOC模式2.4 自定义hooks模式 3.高阶组件产生初衷4.高阶组件使用和编写结构4.1 装饰器模式和函数包裹模式4.2 嵌套HOC 5.两种不同的高阶组件5.1 正向的属性代理5.2 反向的继承 6.如何编写高阶组…

第5章 网络编程

5.1 OSI模型有哪几层?以及各自的作用 难度:★ 重点:★ 白话解析 无它,唯记尔;实在记不住也需要有个印象。 参考答案 OSI(Open System Interconnection):开放式系统互联参考模型。它分为7层,自顶而下分别是:应用层、表示层、会话层、传输层、网络层、数据链路层和物…

【数据结构与算法】 - 时间复杂度和空间复杂度、二分查找、线性查找

数据结构与算法 1. 数据结构的定义2. 二分查找2.1 二分查找的定义2.2 二分查找分析2.3 二分查找实现2.4 二分查找算法图解2.5 二分算法引发的问题2.6 二分算法改良版2.7 二分算法改良版解析2.8 二分算法改良版图解2.9 二分算法改良版注意事项 3. 时间复杂度3.1 时间复杂度的概念…

【c语言中数组和指针的联系】

C语言中的数组和指针之间存在紧密的联系&#xff0c;因为数组名本质上就是指向数组首元素的指针。这种联系使得在处理数组时可以像处理指针一样操作&#xff0c;同时也使得数组和指针可以互相转换。 下面详细说明数组和指针之间的联系&#xff0c;并提供一些示例来演示这种联系…

LeetCode算法二叉树—226. 翻转二叉树

目录 226. 翻转二叉树 代码&#xff1a; 运行结果&#xff1a; 给你一棵二叉树的根节点 root &#xff0c;翻转这棵二叉树&#xff0c;并返回其根节点。 示例 1&#xff1a; 输入&#xff1a;root [4,2,7,1,3,6,9] 输出&#xff1a;[4,7,2,9,6,3,1]示例 2&#xff1a; 输入…

OpenCV读取图像时按照BGR的顺序HWC排列,PyTorch按照RGB的顺序CHW排列

OpenCV读取RGB图像 在OpenCV中&#xff0c;读取的图片默认是HWC格式&#xff0c;即按照高度、宽度和通道数的顺序排列图像尺寸的格式。我们看最后一个维度是C&#xff0c;因此最小颗粒度是C。 例如&#xff0c;一张形状为2562563的RGB图像&#xff0c;在OpenCV中读取后的格式…

IDEA 启动 java web 老项目

背景&#xff1a;一套 java web 老代码&#xff0c;使用 eclipse 工具开发。内网&#xff0c;无 eclipse 开发工具&#xff0c;只有 IDEA。 代码目录结构如下&#xff1a; demo/.settings/* demo/src/com/demo/controller/* demo/webapp/js/* demo/webapp/jsp/* demo/webapp/M…

MySQL学习笔记18

MySQL的备份与恢复&#xff1a; 制定数据库备份策略进行备份&#xff0c;并且把数据导入到测试环境。 核心技术&#xff1a; 1&#xff09;掌握MySQL的备份工具使用及各自特点&#xff1b; 2&#xff09;熟悉Shell脚本&#xff1b; 3&#xff09;熟悉MySQL数据的导入导出&a…

数据计算-第15届蓝桥杯第一次STEMA测评Scratch真题精选

[导读]&#xff1a;超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成&#xff0c;后续会不定期解读蓝桥杯真题&#xff0c;这是Scratch蓝桥杯真题解析第154讲。 第15届蓝桥杯第1次STEMA测评已于2023年8月20日落下帷幕&#xff0c;编程题一共有6题&#xff0c;分别如下&a…

浅谈安科瑞ADL系列导轨式多功能仪表在迪拜楼宇EMS中的应用

摘要&#xff1a;用户端消耗着整个电网80%的电能&#xff0c;用户端智能化用电管理对用户可靠、安全、节约用电有十分重要的意义。构建智能用电服务体系&#xff0c;推广用户端智能多功能仪表、智能用电管理终端等设备用电管理解决方案&#xff0c;实现电网与用户的双向良性互动…

计算机网络 - 应用层

计算机网络 - 应用层 计算机网络 - 应用层 域名系统文件传送协议动态主机配置协议远程登录协议电子邮件协议 1. SMTP2. POP33. IMAP 常用端口Web 页面请求过程 1. DHCP 配置主机信息2. ARP 解析 MAC 地址3. DNS 解析域名4. HTTP 请求页面 域名系统 DNS 是一个分布式数据库&a…