科学家使用机器学习获得前所未有的小分子视图

编辑 | 绿萝

数以千计的不同小分子(称为代谢物)在整个人体中传输能量和传递细胞信息。由于它们非常小,因此很难在血液样本分析中将代谢物彼此区分开来——但识别这些分子对于了解运动、营养、饮酒和代谢紊乱如何影响健康非常重要。

尽管在过去十年中预测方法和工具取得了快速进展,但生物样本中小分子的结构注释仍然是非靶向代谢组学的关键瓶颈。液相色谱-串联质谱法(LC-MS)是使用最广泛的分析平台之一,可以检测样品中的数千个分子,即使使用一流的方法,其中绝大多数仍未被识别。

近日,来自阿尔托大学和卢森堡大学的研究人员开发了一种机器学习框架:LC-MS^2Struct,用于对 LC-MS 测量产生的小分子数据进行结构注释。经过数十个实验室的数据训练,成为识别小分子最准确的工具之一。

LC-MS^2Struct 获得了比早期方法显著更高的注释精度,并将最先进的 MS^2 评分器的注释精度提高了高达 106%。使用立体化学感知分子指纹可提高预测性能,这突出了现有方法的局限性,并对未来的计算 LC-MS 发展具有重要意义。

该研究以「Joint structural annotation of small molecules using liquid chromatography retention order and tandem mass spectrometry data」为题,于 2022 年 12 月 19 日发布在《Nature Machine Intelligence》上。

01f63ef15ca361efb32f227811aaff9b.png

论文链接:https://www.nature.com/articles/s42256-022-00577-2

生物样品中小分子的结构注释是生物医学、生物技术、药物发现和环境科学等各个研究领域的关键瓶颈。非靶向代谢组学研究中的样本通常包含数千种不同的分子,其中绝大多数仍未被识别。LC-MS 是使用最广泛的分析平台之一,因为它可以进行高通量筛选、高度灵敏并且适用于范围广泛的分子。

对于每个离子,记录的碎片及其强度构成 MS^2 谱图,其中包含有关分子中子结构的信息,并作为注释工作的基础。在典型的非靶向 LC-MS^2 工作流程中,数千个 MS 特征(MS^1、MS^2、RT)来自单个样本。结构注释的目标是将每个特征与候选分子结构相关联,以供进一步的下游解释。

近年来,已经开发了许多预测 MS^2 质谱图结构注释的强大方法。有趣的是,RT 信息在基于 MS^2 的结构注释自动化方法中仍未得到充分利用。自动注释管道中另一个有点被忽视的方面是立体化学的处理,即分子的不同三维 (3D) 变体。

在此,研究人员着手为联合使用 MS^2 和 retention order (RO) 结合立体化学感知分子特征来提供 LC-MS^2 数据结构注释的新视角。提出了一种名为 LC-MS^2Struct 的新型机器学习框架,它学习如何以最佳方式组合 MS^2 和 RO 信息,以准确注释一系列 MS 特征。

LC-MS^2Struct 依赖于结构化支持向量机 (SSVM) 和最大间隔马尔可夫网络(max-margin Markov network)框架。框架不需要单独学习的 RO 预测模型。相反,它优化了 SSVM 参数,使得正确和任何其他注释序列之间的分数差最大化。通过这种方式,LC-MS^2Struct 学习如何以最佳方式使用来自一组 LC-MS^2 实验的 RO 信息。

根据 MassBank 提供的所有可用反相 LC 数据对LC-MS^2Struct 进行了训练和评估,包括来自 18 种不同 LC 配置的总共 4,327 个分子,因此在模型评估中达到了高水平的测量多样性。

5174fccb9059d08831c993ead08cbdf2.png

图示:LC-MS^2Struct 工作流程概览。(来源:论文)

LC-MS^2Struct 与其他三种方法(RT 过滤、logP 预测和 RO 预测)进行了比较。LC-MS^2Struct 可以与任何 MS^2 评分器结合使用,并使用 CFM-ID、MetFrag 和 SIRIUS 工具进行了演示。

b59ce86f6c42f54079c3033b77a23876.png

图示:组合 MS^2 和 RT 信息的不同方法。(来源:论文)

实验表明,LC-MS^2Struct 注释小分子的准确性远远优于更传统的 RT 过滤和基于 logP 的方法,也明显优于以前依赖 RO 的方法。所有三个研究的 MS^2 评分器都可以通过LC-MS^2Struct 进行改进,包括同类最佳的 SIRIUS,由于其已经很高的基线准确性,通常很难对其进行改进。对于 CFM-ID 和 MetFrag,LC-MS^2Struct 比 only-MS^2 的 top-1 准确度提高了 4.7 和 7.3% 单位,分别对应于 80.8% 和 106% 的性能增益。

研究结果显示了立体化学感知分子特征对于 LC-MS^2 数据结构注释的优越性。值得注意的是,这不仅适用于立体异构体的注释,也适用于仅通过其二维结构区分的候选物。

接下来,研究了LC-MS^2Struct 是否可以比单独使用 MS^2 更准确地注释立体异构体,考虑到双键方向不同的立体异构体之间的差异(例如,顺反异构或 E-Z 异构),这可能会导致其 LC 行为的差异。候选分子使用两种不同的分子指纹表示:一种包括立体化学信息 (3D);和一个省略它的 (2D)(方法)。这使我们能够评估立体化学感知特征对于结构注释的重要性。

02274763cab3d3e42e449b856af63824.png

图示:使用LC-MS^2Struct 识别立体异构体。(来源:论文)

在查看LC-MS^2Struct (3D) 的单个 MS^2 评分器的 top-1 性能时,观察到 CFM-ID、MetFrag 和 SIRIUS 分别提高了 2.6、3.8 和 3.2 个百分比单位。这分别转化为 87.3%、95.9% 和 44.3% 的性能提升。

一般来说,LC-MS^2Struct 提高了所有三个 MS^2 评分者的排名。然而,当使用立体化学感知 (3D) 候选特征时,改进明显更大。有趣的是,在 ALLDATA 设置中可以观察到类似的行为,尽管绝对性能改进较小。该实验表明LC-MS^2Struct 可以使用 RO 信息来改进立体异构体的注释。

「我们的研究表明,虽然绝对保留时间可能会有所不同,但保留顺序在不同实验室的测量中是稳定的,」阿尔托大学的博士生 Eric Bach 解释道。「这使我们能够有史以来第一次合并所有公开可用的代谢物数据,并将其输入到我们的机器学习模型中。」

卢森堡大学卢森堡系统生物医学中心 (LCSB) 副教授 Emma Schymanski 说:「使用立体化学提高了鉴定性能这一事实对所有代谢物鉴定方法的开发人员来说都是一个启示。这种方法也可以用来帮助识别和追踪环境中的微污染物,或表征植物细胞中的新代谢物。」

参考内容:https://phys.org/news/2022-12-scientists-machine-unprecedented-view-small.html

人工智能 × [ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481245.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Brain】脑洞从何而来?加州大学最新研究:有创造力的人神经连接会「抄近道」...

来源:量子位为什么有的人更富创造力?总能想到别人不会想到的东西,做别人想不到做的事?最近,这个问题的答案被找到了:有创造力的人,大脑里的神经活动会“抄近道”。加州大学洛杉矶分校的研究人员…

一位老师,一位领导,一个让全体学生考上目标学校的故事

今天,小夕给大家讲一个故事... 从前,有座山...​ 山里,有座学校... 学校里,有一位老师,一位领导,还有五只可爱的小仙(学)女(生)。 这5个学生的名字是:小兔,小青,小路&…

小冰李笛:ChatGPT在向“让你认为它有知识”的方向发展 | MEET 2023

来源:量子位衡宇 整理自 MEET2023ChatGPT技惊四座,甚至不少人认为它已经能“取代搜索引擎”。然而就在MEET2023智能未来大会上,却出现了这样一种迥然相异的观点:未来5年里,大家想要获取知识,最好的方法还是…

从前,有只小仙女叫...

从前,有只小仙女叫小音✧٩(ˊωˋ*)و✧这一篇真的不是小夕萌的技术文啦( ̄∇ ̄)今天小夕给大家推送一点好玩的东西~毕竟高中老师说过,不能只学不玩嘛( ̄∇ ̄)虽然小夕以萌著称\(//∇//)\,但是在da…

DeepMind新研究:AI也懂合纵连横

摘要人类文明的成功,植根于我们通过沟通和制定共同计划进行合作的能力。人工智能主体面临着与人类类似的问题。最近,人工智能公司 DeepMind 展示了AI如何利用沟通在桌游“强权外交”中更好地合作。研究发现,沟通主体容易受到背叛协议者的负面…

从逻辑回归到神经网络

回顾小夕在文章《逻辑回归》中详细讲解了逻辑回归模型,又在《Sigmoid与Softmax》中详细讲解了Sigmoid的实际意义(代表二类分类问题中,其中一个类别的后验概率)。至此,我们已经比较透彻的理解了逻辑回归模型假设函数(也…

华为2019年校招(20届实习)机考题python版解答与思路(2019-3-13软件题)

试题为今天考试时记下,记于此仅做学习分享。侵删。 答案思路仅供参考,肯定有更优的办法!第三题没解出来,欢迎大家评论提点! 第一题: 这道题对输入做切分(调用split()方法)后&#xf…

语言模型生成了自然界不存在的蛋白质,图灵奖得主LeCun:蛋白质编程来了

来源:药学前沿进展Meta:设计蛋白质这件事,语言模型就能干。用机器学习去研究蛋白质结构预测,吸引了众多科技大厂、科研机构的目光纷纷投入其中,这期间,他们也产出了重要成果。如在 2021 年 《Science》的十…

神经网络中的偏置项b到底是什么?

前言很多人不明白为什么要在神经网络、逻辑回归中要在样本X的最前面加一个1,使得 X[x1,x2,…,xn] 变成 X[1,x1,x2,…,xn] 。因此可能会犯各种错误,比如漏了这个1,或者错误的将这个1加到WX的结果上,导致模型出各种bug甚至无法收敛。…

【重版】朴素贝叶斯与拣鱼的故事

重版公告由于小夕之后要讲的好几篇文章要基于这一篇的知识,但是以前写的的这篇文章对朴素贝叶斯的讨论不够深入,又不值得再额外写一篇朴素贝叶斯啦,因此本文重版了以前的文章《朴素贝叶斯》。与旧版相比,新版对基础知识的讲解进行…

2022,这些国之重器让人眼前一亮!

来源:新华社2022即将收官这一年我们有许多难忘的回忆回顾,是为了更好出发我们将这一年各领域走过的壮阔征程制作成了精美的系列海报第一期让我们来看看那些让人眼前一亮的国之重器它们——上天入海!乘风破浪!贯通聚能!…

逻辑回归与朴素贝叶斯的战争

0一起走过的首先,小夕带领大家回顾一下文章《逻辑回归》、《Sigmoid与Softmax》、《朴素贝叶斯》中的几点内容,这几点内容也是本文的前置知识:1. 逻辑回归模型的表达式(假设函数):,其中。2. 逻辑回归模型本质上是二类分…

OpenAI年底上新,单卡1分钟生成3D点云,text-to 3D告别高算力消耗时代

来源:大数据文摘授权转载自HyperAI超神经作者:三羊OpenAI 年底冲业绩,半个多月前发布的 ChatGPT 广大网友还没玩明白,近日又悄么发布了另一利器--可以依据文本提示,直接生成 3D 点云的 PointE。text-to-3D:…

机器学习相关从业者如何兼顾理论与工程能力

理论与工程首先,小夕说一下自己目前对理论与工程的理解吧,这也是小夕当前研究理论和熟练工程时主要的出发点。(仅为个人思考,请勿当成真理理论注重的是学科中各个知识点的大一统,将各种散乱的算法、现象、技巧来归结到…

万字拆解!追溯ChatGPT各项能力的起源

导语一篇十分深度剖析GPT系列模型的文章,作者翻译成了中文,在这里分享给大家。来源:李rumor作者:符尧, yao.fued.ac.uk,爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学与 彭昊&#xff0…

用excel做数据分析

我们先来看看某公司全国产品销售的报表(截取了部分) 某公司全国产品销售的报表通过货品销售数据案例,需反映如下结果: 货品销售情况货品交货情况销售货品结构构成货品销售区域构成货品按时交货与合格品综合评价 我们使用 excel 进…

消失了一周的小夕在玩什么啦?

啊,你们的小夕回来啦~有没有被吓到( ̄∇ ̄)0小夕在玩什么小夕,终于,在今天,把,各种deadline,完成了(Д )首先,小夕要像大家深深的说一声谢谢啦。好多天没有打开订阅号的后台…

第四届泰迪杯数据挖掘大赛

<script src"//g.alicdn.com/aliyun/goldeneye-deploy/0.0.1/static/goldeneye.js"></script> <link rel"stylesheet" href"//at.alicdn.com/t/font_422887_vrqbpml6oos.css"><!--top-header begin-->云栖社区博客问答聚…

一般化机器学习与神经网络

0前言机器学习的初学者很容易被各种模型搞得晕头转向。如果扎进各种模型的细节无法自拔的话&#xff0c;可能很难发现一般化的框架。如果你觉得神经网络是非常不同的机器学习模型&#xff0c;如果你觉得神经网络的各种新名词让你觉得这完全就是一片新天地&#xff0c;那么可能你…

扩散模型再发力!图灵奖得主Hinton团队提出:图像和视频全景分割新框架

来源&#xff1a;机器之心作者&#xff1a;Ting Chen 等 编辑&#xff1a;赵阳本文的创新点一方面在于能够在大型全景掩码上训练扩散模型&#xff0c;一方面在于可以同时适配图片和流媒体场景。全景分割是一项基本的视觉任务&#xff0c;该任务旨在为图像的每个像素指定语义标…