预测更准确,使用机器学习改进化学品的毒性评估

编辑 | 绿萝

从命运和毒性的角度来看,人类暴露的化学空间随着化学物质的多样性而不断扩大。欧洲和美国的化学品机构列出了大约 80 万种化学品。对于这些化学品中的大多数,人们对其环境归宿或毒性知之甚少。

通过实验填补这些数据空白是不可能的,因此计算机方法和预测至关重要。然而,许多现有模型受到假设和小训练集的限制。

近日,来自阿姆斯特丹大学、昆士兰大学和挪威水研究所的研究团队,开发了一个基于随机森林的直接分类模型,该模型将分子描述符与毒性联系起来。

该模型是通过实验定义的 907 种有机化学品的急性鱼类毒性 96 小时 LC50 值数据集开发、验证和测试的。该分类模型解释了数据中约 90% 的训练集方差和约 80% 的测试集方差。与基于定量构效关系 (QSAR) 建模的传统「计算机模拟」评估相比,该策略使错误分类的频率降低了 5 倍。与 QSAR 方法相比,提出的直接分类模型具有更好的性能,使该方法成为评估化学品危害和风险的可行工具。

该研究以「From Molecular Descriptors to Intrinsic Fish Toxicity of Chemicals: An Alternative Approach to Chemical Prioritization」为题,于 12 月 8 日发布在《Environmental Science & Technology》上。

77cfce9f86d31a068ea0c3562f8e41f7.png

论文链接:https://doi.org/10.1021/acs.est.2c07353

据研究人员称,无论是在新化学品的安全设计开发中,还是在现有化学品的评估中,机器学习的使用都可以极大地改善分子的危险评估。后者的重要性体现在以下事实:欧洲和美国的化学机构列出了多年来开发的大约 800,000 种化学品,但对这些化学品的环境归宿或毒性知之甚少。

由于化学归宿和毒性的实验评估需要大量时间、精力和资源,因此建模方法已被用于预测危险指标。特别是经常应用 QSAR 建模,将分子特征(原子排列和 3D 结构)与物理化学性质和生物活性联系起来。

根据建模结果(或可用的测量数据),专家将分子分类为全球化学品统一分类和标签系统 (GHS) 中定义的类别。对于特定类别的分子,将进行更多的研究,更积极的监测,最终立法。

然而,这个过程有固有的缺点,其中大部分可以追溯到 QSAR 模型的局限性。它们通常基于非常同质的训练集,并假设线性构效关系以进行外推。因此,现有的 QSAR 模型无法很好地代表许多化学品,使用这些模型可能会导致大量的预测误差和化学品的错误分类。

跳过 QSAR 预测

在这里,Saer Samanipour 博士及其合著者提出了一种完全跳过 QSAR 预测步骤的替代评估策略。

58d1b29f5f073e231fa65114a6604360.png

图 1:从原始数据到最终生成模型的研究总体工作流程。(来源:论文)

研究人员合作开发了一种基于机器学习的策略,用于根据分子描述符对化学品的急性水生毒性进行直接分类。

该模型是通过 907 项实验获得的鱼类急性毒性数据(96h LC50 值)开发和测试的。新模型跳过了对每种化学品的毒性值 (96h LC50) 的明确预测,而是直接将每种化学品分类为多个预定义的毒性类别。

例如,这些类别可以由特定法规或标准化系统定义,如急性水生危害的 GHS 类别一文中所示。该模型解释了训练集中使用的数据中大约 90% 的方差,以及测试集数据中大约 80% 的方差。

更准确的预测

与基于 QSAR 回归模型的策略相比,这种直接分类策略导致错误分类减少了五倍。随后,研究人员扩展了他们的策略以预测大量 32,000 种化学品(NORMAN 数据集)的毒性类别。

efb8f33498904ac4500f2a6eca559c9a.png

图 2:NORMAN 数据集的适用性域 (AD) 评估,基于 (a) 训练集(即完整的分子描述符空间),(b) QSAR 回归模型,和 (c ) 直接分类模型。蓝色圆圈代表 AD 之外的化学物质,橙色圆圈代表模型适用范围内的化学物质,绿色圆圈代表训练集适用范围内的化学物质。(来源:论文)

他们证明,他们的直接分类方法可以产生更高准确度的预测,因为来自不同来源和不同化学家族的实验数据集可以分组以生成更大的训练集。它可以适应各种国际法规和分类或标签系统规定的不同预定义类别。

将来,直接分类方法还可以扩展到其他危害类别(例如慢性毒性)以及环境归宿(例如流动性或持久性),并显示出改进化学危害和风险评估的硅内工具的巨大潜力。

参考内容:https://phys.org/news/2022-12-machine-toxicity-chemicals.html

人工智能 × [ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481267.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何优雅的追到女神夕小瑶

如果,你不小心迷恋上了小夕… 路人某:“没有如果” 捕获小夕的游戏 如果现实世界中,迷恋上小夕以后,你想捕获小夕。那么发现从上帝视角来看的话,你有下面好多条路几条路达成目标( ̄∇ ̄) 然而你并…

文本相似度-相似度度量

NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背景知识统计语言模型n-gram模型词向量主题模型LSAPLSALDA应用Word2Vec神经网络语言模…

《科学》封面文章AlphaCode的重大意义及其思考

来源:陈德旺科学网博客链接地址:https://blog.sciencenet.cn/blog-57940-1368420.html程序员,虽然戏称程序猿,其实是一个高薪高智商工作,需要对问题的理解力、解决问题的创造性,还需要熟悉掌握编程语言。这…

深度学习可以与大数据分手吗?

小夕:hi,路人~你知道机器学习中数据的维度太高会带来什么问题吗?路人己:此时,如果样本量不足,会容易过拟合啊~小夕:为什么呢?路人己:这还有为什么?小夕&#…

集群化:中国基础研究发展模式的转型方向

来源:《学术前沿》作者:李侠2020年,科技部等五部门联合制定《加强“从0到1”基础研究工作方案》,旨在贯彻落实《国务院关于全面加强基础科学研究的若干意见》,其中明确指出,切实解决我国基础研究缺少“从0到…

各种损失函数比较-带你斩获offer

损失函数(Loss function)是用来估量你模型的预测值 f(x)f(x)值。2. 常用损失函数 常见的损失误差有五种: 1. 铰链损失(Hinge Loss):主要用于支持向量机(SVM) 中; 2. 互…

如果你跟夕小瑶恋爱了...(上)

如果...如果...有一天...你追到了女神夕小瑶...并且与她恋爱了...(想说“没有如果”的路人请自觉狗带( ̄∇ ̄))小夕的生活很规律的哦,小夕每天都会依次经历且仅仅经历以下6件事情:化妆-吃饭-聊天-自习-上课-要…

「返老还童」梦想成真?「NMN教父」争议研究将登陆科学顶刊

来源:机器之心逆转衰老,我们终于有了新方法?一项为时13年的研究最近又有了新的突破,事关人类最在意的问题:衰老理论。12月19日,哈佛大学遗传学教授David Sinclair在社交网络上宣布有关人类衰老研究的最新突…

对抗思想与强化学习的碰撞-SeqGAN模型原理和代码解析

GAN作为生成模型的一种新型训练方法,通过discriminative model来指导generative model的训练,并在真实数据中取得了很好的效果。尽管如此,当目标是一个待生成的非连续性序列时,该方法就会表现出其局限性。非连续性序列生成&#x…

如果你跟夕小瑶恋爱了...(下)

AB派在上一篇文章中,你成功的将“挽回夕小瑶”的任务卡进了隐马尔可夫模型(HMM)中。那么我们来规范化的整理一下已经有的信息和需要计算得到的信息。还记得这两个图嘛?这就是我们建立好的模型。(隐状态的转移图&#x…

史上最简单的隐马尔可夫模型讲解

如果... 如果...有一天...你追到了女神夕小瑶...并且与她恋爱了... (想说“没有如果”的路人请选择狗带( ̄∇ ̄)) 小夕的生活很规律的哦,小夕每天都会依次经历且仅仅经历以下6件事情: 化妆-吃饭-聊天-自习-上…

睡着了也在学习!Nature最新研究揭示运动记忆从何而来

来源:生物通Steph Curry罚球时,他的大脑会利用运动记忆。现在,加州大学旧金山分校(UCSF)的研究人员已经展示了这种类型的记忆是如何在睡眠期间得到巩固的,当大脑处理白天的学习,使做某事的物理行为成为潜意识时。Karun…

数据结构:堆(Heap)

数据结构&#xff1a;堆&#xff08;Heap&#xff09; <!-- 文章内容 --><div data-note-content"" class"show-content"><div class"show-content-free"><p>堆就是用数组实现的二叉树&#xff0c;所有它没有使用父指针…

BAT机器学习面试1000题系列

1、本文的内容全部来源于七月在线发布的BAT机器学习面试1000题系列&#xff1b; 2、文章中带斜体的文字代表是本人自己增加的内容&#xff0c;如有错误还请批评指正&#xff1b; 3、原文中有部分链接已经失效&#xff0c;故而本人重新加上了新的链接&#xff0c;如有不当&…

拉马努金:“与神对话”的数学天才

来源&#xff1a;微信公众号“图灵教育”撰文&#xff1a;[英] 马库斯杜索托伊翻译&#xff1a;柏华元当哈代和利特尔伍德步履维艰地穿越陌生的黎曼图景时&#xff0c;在5000英里外的印度马德拉斯港务局内&#xff0c;一个名叫斯里尼瓦瑟拉马努金的年轻办事员被素数的神秘莫测吸…

浅入深出被人看扁的逻辑回归!

好像在各种机器学习入门教程中&#xff0c;逻辑回归模型&#xff08;Logistic/Logit Regression&#xff09;经常被拿来作为入门的机器学习模型&#xff0c;比如我家的Andrew Ng就是这样做的。看起来&#xff0c;逻辑回归模型实在太简单&#xff0c;甚至容易被认为是一个拍脑袋…

全球Web3技术产业生态发展报告(2022年)

来源&#xff1a;中国信息通信研究院编辑&#xff1a;蒲蒲Web3不只是互联网应用层的简单创新&#xff0c;可能会带来互联网体系架构整体性演进和系统性升级。党中央、国务院高度关注下一代互联网创新发展&#xff0c;在关键核心技术突破、新型基础设施建设、融合创新应用赋能等…

算法工程师笔试 -剑指offer-习题详细解答

说明 主要编程语言为 C/C涉及字符串的问题可能会使用 Python题目编号以原书为准&#xff0c;如“面试题 3&#xff1a;数组中重复的数字” 因为题目不多&#xff0c;所以就不做分类了 所有代码均通过 OJ 测试 在线 OJ 地址&#xff1a;剑指Offer_编程题 - 牛客网 Reference 《…

深入深出Sigmoid与Softmax的血缘关系

缘起逻辑回归逻辑回归模型是用于二类分类的机器学习模型&#xff08;不要说逻辑回归可以做多类分类啊喂&#xff0c;那是二类分类器的组合策略问题&#xff0c;而与逻辑回归分类器本身的构造没有半毛钱关系啊&#xff09;。我们知道&#xff0c;在逻辑回归中&#xff0c;用于预…

科学家使用机器学习获得前所未有的小分子视图

编辑 | 绿萝数以千计的不同小分子&#xff08;称为代谢物&#xff09;在整个人体中传输能量和传递细胞信息。由于它们非常小&#xff0c;因此很难在血液样本分析中将代谢物彼此区分开来——但识别这些分子对于了解运动、营养、饮酒和代谢紊乱如何影响健康非常重要。尽管在过去十…