代谢组数据分析七:从质谱样本制备到MaxQuant搜库

前言

LC-MS/MS

Liquid Chromatography-Mass Spectrometry(LC-MS/MS ,液相色谱-质谱串联)可用于残留化合物检测、有机小分子检测、鉴定和定量污染物以及在医药和食品领域添加剂检测和生物小分子等检测。

LC-MS/MS一般包含五个步骤(Figure 1):

  1. 样本制备;
  2. 样本分离:使用液相色谱方法分离;
  3. 质谱上机:离子化、LUMOS原理、采集模式(DDA、DIA、SRM/PRM);
  4. 质谱鉴定:谱图格式(Raw、MzXML、MGF)、搜库、打分算法、FDR质控、蛋白推断;
  5. 生信分析:谱图校验和下游数据统计分析。

步骤详解

样本制备

提取样品中的蛋白质后,再使用蛋白酶对蛋白进行酶切处理,一般处理后的肽段在35AA以内即可上机(Figure2)。常用蛋白酶是Trypsin。

样本分离

液相色谱包括固定相和流动相的一类分离技术,以液体作为流动相,固定相可以是多种类型也可以是液体也可以是固体等。Figure3 固定相是3A中圆孔材料,流动相是两类液体,液体A可将肽段插入到固定相中。在不断增加液体B的浓度后,肽段可以及液体B的浓度大小呈现梯度整齐分布,最后计算肽段在液相过程的保留时间(Retention time, RT),该指标反应肽段的疏水作用,时间越长疏水效果越强。

质谱上机

质谱仪的构成简要图(Figure 4

质谱仪元件

离子源 [Ion Sources make ions from sample molecules.]

  • 基质辅助激光解吸电离(MALDI)
  • 电喷雾电离(ESI)

质量分析器[Mass analyzers separate ions based on their mass-to-charge ratio (m/z)]

  • 傅立叶变换离子回旋加速器(FT-MS)
  • 线性离子阱(Linear ion trap)
  • 三维离子阱(3D ion trap)
  • 轨道离子阱(Orbitrap)
  • 四极杆(Quadrupole)
  • 飞行时间(Time-of-flight, TOF)

信号检测器[Ion Detector registers the number of ions at each m/z value.]**

  • 微通道板(Microchannel Plate)
  • 电子倍增器(Electron Multiplier)
  • 光电倍增混合管(Hybrid with photomultiplier)

质谱图谱示意图(Figure5)图解:

  1. 正面主视图是液相色谱图(以Retention Time作为X轴,intensity可认为是relative abundance作为Y轴),每个峰表示RT时间相近也即是疏水作用强度相同的肽段离子;
  2. 侧面黑色X轴是m/Z是一级质谱图,x轴是肽段的质荷比,每一个峰表示该比值下的肽段集合;
  3. 侧面蓝色是上一步一级图谱同质荷比下的二级图谱,是分辨率更高的图谱结果;
  4. intensity可以理解为色谱和质谱的响应强度。

数据采集模式

非靶向质谱数据采集模式:Full-scan(全扫描)、DDA(数据依赖采集)和DIA(数据非依赖采集)。

  • 全扫描模式是将肽段一级和二级图谱分开全部扫描,所需时间较长,但获取的峰最多。

  • DDA数据依赖采集,根据全扫描的一级图谱中的一堆母离子的intensity以及动态时间去解析二级图谱,但该过程可能后漏掉携带有用信息的峰;**优点:**DDA采用了较窄m/z窗口,二级质谱图没有干扰离子影响,搜库鉴定容易;**缺点:**丰度依赖,谱图采样随机性大,重复性差。

  • DIA数据非依赖采集,在一级图谱扫描过程不对碎裂母离子做筛选,而是设置窗口(窗口大小依据仪器和软件设定),落在该窗口内的母离子全部进入二级碎裂得到二级图谱。**优点:**全面获取所有离子的碎片信息。**缺点:**采集点多会导致谱图信息过度,难以解析。鉴定需要依赖于预先lable的DDA库。

    由于DIA是一次性放了一堆母离子进来,同时碎裂,所以对于DIA来说,不是一张谱图对应一个母离子,而是一堆谱图对应一堆来自多个母离子的碎片离子混合物。因此,我们不可能通过对二级谱图的解析来得到一个一个的母离子。

    那我们应该如何解析呢?我们用DIA二级谱图与平行实验中的DDA的二级谱图进行比对,从中抽取出相同的二级信号,拿这些数据来进行DIA数据的定性以及相应的定量,而这个定量就是依赖于MS2的信号强度。

Targeted是靶向质谱数据采集

质谱鉴定

质谱的原始图谱格式通常有:

  • Thermo RAW(赛默飞二进制加密的图形文件,Thermo Xcalibur Browser软件查看);

  • MGF(Mascot Generic Format,是常用格式但仅保留二级谱图信息,原始数据一般不能被肽段图谱比对打分软件识别,需要经过格式转换为打分软件可识别的格式);

  • mzXML

质谱打分比对软件

图谱识别可通过De novo和Database Search两种方式实现.

搜库策略:软件根据设定理论参数对蛋白数据库模拟实验过程进行理论酶切,接着理论肽段又会生成理论图谱,最后将实验得到的图谱也就是质谱的图谱和数据库模拟出的理论图谱进行比较,最终鉴定和定量蛋白质。Figure7

搜库步骤

搜索引擎会对数据库里所有的蛋白序列进行理论酶切,得到肽段序列,再对肽段序列进行理论碎裂,形成理论谱图。

然后,用每一张导入搜索引擎的实验谱图与落入母离子质量误差窗口内的理论谱图进行匹配打分,并选择打分最好的理论谱图对应的肽段作为该实验谱图的鉴定结果。

搜库质控:实验图谱和理论图谱匹配不一定正确,一般需要设置p value等评估匹配结果的指标阈值

错误匹配原因:

  1. 蛋白质序列库不完整或者存在测序错误;
  2. 未知修饰,导致谱图难以被正确鉴定;
  3. 酶切实验的偏差,比如错切、漏切等;
  4. 母离子或子离子质量偏差;
  5. 搜索引擎的打分无法区分谱图对应的正确肽段和错误肽段,因此需要评价肽段鉴定的可靠性,搜索引擎才能根据鉴定到的可信肽段序列进行蛋白质推断。

定性和定量蛋白质

在获取质谱图谱数据后,可通过带有搜库引擎的软件进行定性和定量鉴定蛋白质。我们从仪器中心获得去质谱原始data是Thermo RAW的二进制加密文件,在一般的搜库软件是无法识别的,需要使用ThermoRawFileParser或MSconvert转换为软件可识别的文件。(FAIMS技术相当于在现有图谱分级基础上又再一次对肽段进行分级)

PS:在获取图谱过程中,常会用到2018年才推出的FAIMS(High-Field Asymmetric Waveform Ion Mobility Spectrometry)技术以用于加载不同电压(肽段在ESI离子化后,进入质谱之前实现快速气相分离,提高分离的峰容量),直接使用多电压下的raw data做MaxQuant定量分析是错误的,MaxQuant软件只能识别单电压的raw data,因此需要使用FAIMS MzXML Generator 软件将raw data转换成各自电压下的MzXML文件。

软件

格式转换软件

  • ThermoRawFileParser
  • MSconvert
  • FAIMS MzXML Generator

搜库软件:

  • 免费:MaxQuant,MSGFplus,Comet(前一个最好用win版本,后两个用linux版本,然后后两个是最好用主流的质控软件);
  • 收费:Proteome Discoverer, Mascot;
  • 也有基于X!Tandem算法的rTANDEM R包。

结果评估:

  • PTXQC R包

  • proteoQC R包

数据库

来自欧洲生物信息学中心的UniProt KB数据库是现在使用较多的蛋白质数据库。除了选择公共数据库外,还可以自行添加或者从头构建蛋白质数据库(一般会加入实验室常见污染物数据库,方便剔除)。另外,如果所研究的物种没有对应的蛋白质数据库,可选择最近物种的序列库。

实操过程

下面部分是原始质谱数据定性和定量蛋白质过程:

  1. 安装数据转换和搜库软件:本教程基于MaxQuant 1.6.17.0版本,该软件可从MaxQuant官网直接下载或从子目录Software直接解压获取。另外,需和仪器中心确定是否使用了FAIMS技术后,再从子目录Software中解压安装FAIMS MzXML Generator软件;

  2. 下载蛋白质数据库Database子目录下已下载23/2/2021年的human的Uniprot蛋白质数据,或者直接上Uniprot官网下载(1.进入官网,选择Proteomes;2.以human作为关键字搜索后,选择Organism的Homo sapiens后进入;3.进入下图后选择Download按钮以FASTA格式下载数据即可);

  3. 转换原始数据格式:若使用FAIMS技术,则需要使用FAIMS MzXML Generator软件将RAW转换成40/60/80不同电压下的mzXML文件,否则跳过该步骤;

  4. 搜库鉴定蛋白质:我们使用免费开源的MaxQuant 1.6.17.0版本软件进行鉴定蛋白质,在运行前,需要配置好一下参数和注意以下事项:

    • Raw data功能项导入图谱数据(mzXML),可通过最右侧功能栏设置样本的名称和分组等信息;

    • Group-specific parameters:

      • “Modifications”:选择样本相关的修饰(LabelFree增加Deamidation(NQ)、Gln->pyro-Glu);

      • “Instrument”:MaxQuant会自动选择机器类型,也可以手动修改,参数选择软件默认的即可;

      • “digestion”:选择默认的Trypsin/P;

      • “Label-free quantification”:选择LFQ及其默认参数。

    • Global parameters:(其他参数选择默认参数即可,也可根据实际情况自行设置)

      • “Sequence”:选择"Add"导入蛋白质fasta文件,并点"Identifier",选择"Up to first space";

      • “Identification”:选择Match between runs;

      • “Label-free quantification”:选择iBAQ;

      • “Folder locations”:可自行设置Combined结果的输出路径也可使用默认。

    • 在设置完所有参数后,点击上面File选择保存parameters files,方便下次重复运行。

    • 完成保存设置参数文件后,最左下方提供选择CPU数目,一般设置电脑total(CPU) -1的数目。设置完成后,可在电脑空闲时候选择Start,即可在Performance界面看到软件在运行的状态。

结果

MaxQuant完成蛋白质定性和定量后,会生成如下combined目录,其子目录txt下的proteinGroups.txt文件即是蛋白质结果文件。

下游数据分析

下游数据分析可参考。

致谢

感谢张乐同学seminar分享的PPT,本文很多图片或知识点来自于他的PPT,再次感谢。

参考

  1. A Critical Review of Trypsin Digestion for LC-MS Based Proteomics

  2. Peptide retention time prediction

  3. 蛋白质组学数据分析基础3

  4. 2019-11-12p值、E值、FDR、q值…你晕菜了吗?

  5. MGF Files (MS/MS container files)

  6. ThermoRawFileParser

  7. proteoQC

  8. MaxQuant – Information and Tutorial

  9. Bioconductor的质谱蛋白组学数据分析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/5701.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

50. 【Android教程】xml 数据解析

xml 是一种标记扩展语言(Extension Mark-up Language),学到这里大家对 xml 语言一定不陌生,但是它在 Android 中的运用其实只是冰山一角。抛开 Android,XML 也被广泛运用于各种数据结构中。在运用 xml 编写 Android 布…

HashMap的底层存储介绍

HashMap底层实现采用了哈希表,这是一种非常重要的数据结构。对于我们一行理解很多技术都非常有帮助。 数据结构中由数组和链表来实现对数据的存储,他们各有特点。 (1)数组:占用空间连续。寻址容易,查询速…

openlayer 使用ol-ext插件实现凸显区域

使用ol-ext插件实现凸显多变形 效果如图 1、创建openlayer var map; var view; var tileLayer, source, vector;function init() {tileLayer new ol.layer.Tile({source: new ol.source.TileArcGISRest({url: "http://map.geoq.cn/arcgis/rest/services/ChinaOnlineStr…

Windows 10 使用 Vagrant 快速创建虚拟机

一、下载 VirtualBox 官网地址:Oracle VM VirtualBox 阿里云盘:阿里云盘分享 二、安装 VirtualBox 安装软件前请先确认 CPU 是否开启了虚拟化,要求开启 2.1、双击运行可执行文件后点击下一步 2.2、选择安装路径,为了避免中文乱码…

Rust Web开发实战:构建高效稳定的服务端应用

如果你厌倦了缓慢、占用大量资源且不稳定的模板化Web开发工具,Rust就是你的解决方案。Rust服务提供了稳定的安全保证、非凡的开发经验,以及能够自动防止常见错误的编译器。 《Rust Web开发》教你使用Rust以及重要的Rust库(如异步运行时的Tokio、用于Web…

OpenFeign修改HttpClient为Apache HttpClient 5

OpenFeign中http client 如果不做特殊配置,OpenFeign默认使用JDK自带的HttpURLConnection发送HTTP请求, 由于默认HttpURLConnection没有连接池、性能和效率比较低。所以修改为Apache HttpClient 5。 总结为两步: 加依赖改yml 具体操作请往…

GORM数据库连接池对接Prometheus

一、背景与介绍 Golang的database/sql包定了关于操作数据库的相关接口,但是没有去做对应数据库的实现。这些实现是预留给开发者或者对应厂商进行实现的。 其中让我比较关注的是Golang的sql包有没有实现连接池pool的机制呢? 毕竟Golang是静态语言,类似J…

platformd device、driver注册过程

本文以smsc911x驱动为例 platform_device注册过程 该设备被定义在dts里面了 参考文章设备树节点转换为设备节点device_node、和平台设备资源platform_device_设备树节点转换成平台设备-CSDN博客 dts里面的节点会被转换为device_node和platform_device(并不是所有节点都会被转…

vi编辑器使用

说明:本文介绍vi编辑器使用; 介绍&基础使用 vi编辑器是linux操作系统中最常用的编辑器,使用vi或vim命令启动。vim是vi编辑器的增强版,大多数情况使用vi命令也会打开vim编辑器,为了方便介绍,以下均称v…

【Web】2024XYCTF题解(全)

目录 ezhttp ezmd5 warm up ezMake ez?Make εZ?мKε? 我是一个复读机 牢牢记住,逝者为大 ezRCE ezPOP ezSerialize ezClass pharme 连连看到底是连连什么看 ezLFI login give me flag baby_unserialize ezhttp 访问./robots.txt 继…

从阿里云崩溃看IT系统非功能能力验证

昨天下午6点左右学员群里有人说阿里云又出问题了,并且还挺长时间没有恢复了。 我也登录了一下,结果登录直接不停地302。如下所示: 做为阿里云重要的基础设施,这一故障影响了。如官方通告的处理时间线: 17:44起&#…

【JavaEE初阶系列】——理解tomcat 带你实现最简单的Servlet的hello world程序(七大步骤)

目录 🚩认识Tomcat 🚩运用Tomcat 🚩Servlet 🎓完成简单的Servlet的hello world程序 🎈创建项目Maven 🎈引入依赖 🎈创建目录 🎈编写代码 🎈打包程序 &#x1…

Go 语言基础(一)【基本用法】

前言 最近心情格外不舒畅,不仅仅是对前途的迷茫,这种迷茫倒是我自己的问题还好,关键它是我们这种普通吗喽抗衡不了的。 那就换个脑子,学点新东西吧,比如 Go? 1、Go 语言入门 介绍就没必要多说了&#xff0…

求矩阵对角线元素之和(C语言)

一、N-S流程图&#xff1b; 二、运行结果&#xff1b; 三、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>int main() {//初始化变量值&#xff1b;int i 0;int j 0;int sum 0;int a[3][3] { 0 };//获取数组a的值&#xff1b;printf(&qu…

『大模型笔记』Code Example: Function Calling with ChatGPT

Code Example: Function Calling with ChatGPT 文章目录 一. Code Example: Function Calling with ChatGPT二. 参考文献一. Code Example: Function Calling with ChatGPT from openai import OpenAI from dotenv import load_dotenv import json# --------------------------…

标准汽车试验铁地板的技术要求

在现代科技化发展的工作中&#xff0c;试验平台被广泛使用。铸铁试验平台&#xff08;试验铁地板&#xff09;又叫试验工作平台&#xff0c;听名字大家也不难想象出来这是一款带有箱式体的台面&#xff0c;这是一种有长方形或者圆形又或者正方形的试验工作台。 铸铁试验平台&a…

调用WinPE给现有的Windows做一个备份

前言 前段时间有小伙伴问我&#xff1a;如何让给电脑备份系统。 小白直接告诉他&#xff1a;为啥要备份系统呢&#xff1f;直接给电脑创建一个还原点就好了。 Windows还原点创建教程&#xff08;点我跳转&#xff09; 没想到小伙伴的格局比小白大得多&#xff0c;他说&…

2024年第二十一届 五一杯 (C题)大学生数学建模挑战赛 | 多目标优化问题,深度学习分析 | 数学建模完整代码解析

DeepVisionary 每日深度学习前沿科技推送&顶会论文&数学建模与科技信息前沿资讯分享&#xff0c;与你一起了解前沿科技知识&#xff01; 本次DeepVisionary带来的是五一杯的详细解读&#xff1a; 完整内容可以在文章末尾全文免费领取&阅读&#xff01; 首先&…

编码方式导致的csv文件错误

写入csv文件时&#xff0c;假如出现了csv文件是乱码的情况&#xff0c;那么说明编码方式有问题&#xff0c;需要修改一下编码方式为utf-8-sig。 把编码方式修改一下为encodingutf-8-sig &#xff0c;再次运行就不会是乱码了&#xff0c;可见再读写csv文件时&#xff0c;假如使用…

【报错处理】ib_write_bw执行遇到Found Incompatibility issue with GID types.原因与解决办法

文章目录 拓扑现象根因解决办法解决后效果 拓扑 #mermaid-svg-zheSkw17IeCpjnVA {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-zheSkw17IeCpjnVA .error-icon{fill:#552222;}#mermaid-svg-zheSkw17IeCpjnVA .error…