FastEI论文阅读

前言

       研究FastEI(Ultra-fast and accurate electron ionization mass spectrum matching for compound identification with million-scale in-silico library)有很长时间了,现在来总结一下,梳理一下认知。PS:为什么要加红呢,这是一个重点,即EI-MS,作者使用的是一级谱。

        论文地址:https://www.nature.com/articles/s41467-023-39279-7,Github项目地址:https://github.com/Qiong-Yang/FastEI。

概要

       这篇文章做的工作是小分子质谱匹配,就是说给定一个小分子的质谱,然后根据这个质谱到数据库中检索与它相近的质谱,并返回相应的分子信息。FastEI取得的成绩就是在较大的数据集上(in-silico library,数据量是百万级别)取得了较好的效果:Top10的召回率是80.4%,Top1的召回率是36.7%。此外作者还做了个检索程序,可以在电脑上运行。

架构

       模型需要分为两条线来说,一条线是查询:给定查询的实验谱(Query spectrum),将实验谱经Word2vec模型转化为嵌入向量(Spectral embeddings),用嵌入向量进行匹配,返回近似结果;另一条线是建库:给定分子信息, 经NEIMS模型转化为预测谱(分子信息和预测谱存入数据库中),再转化为嵌入向量,用嵌入向量构造检索架构(HNSW)。

模型

       下面来分别介绍一下用来生成预测谱的NEIMS、将质谱转化为嵌入向量的Spec2vec、加速检索速度的HNSW。

NEIMS

       NEIMS的全称是Neural Electron-Ionization Mass Spectrometry,论文地址:https://pubs.acs.org/doi/full/10.1021/acscentsci.9b00085。这个模型的原理就是先调用rdkit生成ECFPS分子指纹(关于ECFPS,可以去看这个博客:https://www.jianshu.com/p/8167a050debc),然后使用全连接神经网络去预测它的质谱。这个项目的Github地址:https://github.com/brain-research/deep-molecular-massspec。顺便吐槽一下:这是个19年的陈年老项目,用的是tensorflow1.13.2,然后Contributors也不解答issue了。

Spec2vec

        Spec2vec这个方法脑洞确实比较大,其作者是收到自然语言处理Word2vec的启发,将质谱的每一个峰表示为“Peak@m/z”这一word,然后再将这个word转化为vector。我觉得这样做的信息损耗也太大了,直接将质谱信息转化为vector不好吗?论文地址:https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1008724,Github项目地址:https://github.com/iomega/spec2vec。

HNSW

        HNSW的全称是Hierarchical Navigable Small-World graph,意为分层可导航小世界图,是用来快速检索的。要快速检索的原因是数据量比较大,你不可能去一一比对。它是一个贪心算法:从顶层到底层,向量逐层增加;从顶层进入,找到最近邻,向下深入,再找最近邻……一直找到底层的最近邻,将底层的Topk最近邻返回。论文地址:https://ieeexplore.ieee.org/abstract/document/8594636,Github项目地址:https://github.com/nmslib/hnswlib。

数据

       这个项目用到了三大数据集,分别是NIST2017、HMDB和ChEMBL 28。其中NIST是付费的,需要用到它的验证集和测试集,其余用NEIMS生成预测谱就可以。除了这三大数据集,还有10种 作者提出了四大过滤原则,分别是分子质量≤1000道尔顿、只含11种元素(H, C, O, N, P, S, Cl, F, Br, I, Si)、非离子化合物、LogP∈[-12,24]。

        在经过四大条件过滤之后, 三大数据集之间进行去重,确保没有重复元素。过滤和去重之后的数据集称为f-NIST、f-ChEMBL和f-HMDB。

实验结果

        这里主要展示一下召回率,in-silico library的召回率要比expanded library高一些,因为数据多了肯定。

结语

        有问题欢迎在评论区讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/796251.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode: 21. 合并两个有序链表 + 链表】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

组件循环依赖问题

场景: a组件 引入 b组件 b组件 引入 a组件 a组件 import B from ./b console.log(A组件,,B) export default Ab组件 import A from ./a console.log(B组件,,A) export default B输出结果: B组件,undefined A组件&am…

axios快速入门

一、环境配置 1.1概述 上古浏览器页面在向服务器请求数据时,因为返回的是整个页面的数据,页面都会强制刷新一下,这对于用户来讲并不是很友好。并且我们只是需要修改页面的部分数据,但是从服务器端发送的却是整个页面的数据&#…

搭建爬虫代理服务器:使用云服务器

1.原理 代理服务器的作用是代替客户端向目标服务器发送请求,然后将目标服务器的响应返回给客户端。在网络中,代理服务器可以用来隐藏客户端的真实 IP 地址,或者用于访问某些受限制的内容,或者实现缓存、安全策略等功能。 在这个…

攻防世界 Broadcast 题目解析

Broadcast 一:题目 二:解析 将压缩包解压,得到如上图所示,打开task.py,之后得到flag 这个有点简单了,不要被解压后文件太多所迷惑。

InnoDB中的索引方案

文章目录 InnoDB中的索引方案 InnoDB支持多种类型的索引,包括B-tree索引、全文索引、哈希索引等。B-tree索引是InnoDB存储引擎的默认索引类型,适用于所有的数据类型,包括字符串、数字和日期等。 以下是创建InnoDB表及其B-tree索引的示例代码…

python+ opencv(Mat)——笔记

opencv中用Mat数据类型来表示图片; python中将mat转化为numpy的ndarray;type(img)numpy.ndarray; Mat的属性: rows:表示矩阵的行数。cols:表示矩阵的列数。size:表示矩阵的尺寸,即…

VBA数据库解决方案第九讲:把数据库的内容在工作表中显示

《VBA数据库解决方案》教程(版权10090845)是我推出的第二套教程,目前已经是第二版修订了。这套教程定位于中级,是学完字典后的另一个专题讲解。数据库是数据处理的利器,教程中详细介绍了利用ADO连接ACCDB和EXCEL的方法…

2024年阿里云4核8G服务器多少钱一年?4C8G服务器955元

阿里云服务器4核8G租用优惠价格955元一年,配置为云服务器ECS通用算力型u1实例4核8G配置、ESSD Entry盘20G-40G、1M-3M带宽,实例规格为ecs.u1-c1m2.xlarge,阿里云优惠活动 yunfuwuqiba.com/go/aliyun 活动链接打开如下图: 阿里云4核…

SpringBoot整合Quartz报错

SpringBoot整合Quartz报错 报错信息如下: Unable to detect database type原因:刚开始为了生成quartz的表,配置的是always,后面再次启动没有修改 spring:quartz:jdbc:initialize-schema: always#每次启动时创建quartz表解决办法…

【数据结构】ArrayList详解

目录 前言 1. 线性表 2. 顺序表 3. ArrayList的介绍和使用 3.1 语法格式 3.2 添加元素 3.3 删除元素 3.4 截取部分arrayList 3.5 其他方法 4. ArrayList的遍历 5.ArrayList的扩容机制 6. ArrayList的优缺点 结语 前言 在集合框架中,ArrayList就是一个…

spring boot学习第十六篇:配置多数据源

1、代码参考: dynamic-ds/spring-boot-dynamic-ds at main veminhe/dynamic-ds GitHub 2、验证 2.1调用POST接口http://localhost:8081/hmblogs/blog/addBlog 2.2改动数据源为BJ 然后调用接口添加数据 然后查看ds0库的博客数据

【最新可用】Claude国内镜像,可上传图片,可用Claude3全系模型(包括Pro版本的Opus)!亲测比GPT好用!

亲测可用,镜像地址:Claude 3 镜像 使用方法 访问镜像:Claude 3 镜像 2. 点击设置,配置授权码,关闭设置。这里免费赠送一个体验版的授权码 sk-SZcJyvx3RXRID624E2D3795578Df44C7Af03F2909a8f5eA0 即可发起对话啦&…

Android Studio学习9——使用Logcat打印日志

在Android开发中,Logcat是一个工具,它允许开发者查看设备或模拟器的日志信息。开发者可以使用Log类来打印日志信息,这对于调试和错误排查非常有帮助。 v 或 verbose: 最低等级,显示所有消息。d 或 debug: 用于调试消息。i 或 info…

网络安全介绍

网络安全是指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,系统能够连续可靠正常地运行,网络服务不中断。以下是一些网络安全相关的方面: 首先,随着科学技术的进…

工业物联网中的区块链技术应用

工业物联网(Industrial Internet of Things, IIoT)与区块链技术的结合,为工业自动化和信息化带来了新的可能性。这种融合可以提高工业系统的安全性、透明度、效率和可追溯性。以下是工业物联网中区块链技术应用的几个关键方面: 数…

深入浅出 -- 系统架构之负载均衡Nginx动静分离

一、Nginx动静分离 动静分离应该是听的次数较多的性能优化方案,那先思考一个问题:为什么需要做动静分离呢?它带来的好处是什么? 其实这个问题也并不难回答,当你搞懂了网站的本质后,自然就理解了动静分离的重…

Docker安装mysql并且设置主从

Docker安装部署mysql 下载镜像 docker pull mysql:5.7.35查看镜像 docker images启动 直接启动不挂载文件 docker run -p 3306:3306 --name mysql -e MYSQL_ROOT_PASSWORD123456 -d mysql:5.7.35挂载文件 docker run -p 3306:3306 --name mysql \ -v /usr/local/docker/m…

Python2 与 Python3 print 不换行

Python2 与 Python3 print 不换行 分类 编程技术 本文主要介绍在 Python2 与 Python3 下 print 实现不换行的效果。 Python 3.x 在 Python 3.x 中,我们可以在 print() 函数中添加 end"" 参数,这样就可以实现不换行效果。 在 Python3 中&a…

【Linux】环境基础开发工具使用——gcc/g++使用

Linux编译器-gcc/g使用 1. 背景知识 1. 预处理(进行宏替换 ) 2. 编译(生成汇编 ) 3. 汇编(生成机器可识别代码) 4. 连接(生成可执行文件或库文件 ) 2. gcc如何完成 格式 gcc [ 选项 ] 要编译的文件 [ 选…