蛋白质/聚合物防污的机器学习(材料基因组计划)

前言:对于采用机器学习去研究聚合物的防污性能,以及或者其他性质。目前根据我的了解我认为最困难的点有三条:

  1. 其一:数据,对于将要训练的数据必须要有三点要求,1.数据要多,也就是大数据,通过大量的数据更能发现某些共性的规律。而且数据量大之后对于某些误差数据的干扰就会减少。2.数据要准,其实对于某些文章的实验数据我报有很大的怀疑态度。最好的数据来源就是亲身计算的数据或者某些知名数据库的数据。3.数据类型要丰富,数据类型越丰富,可以描述的性质越多,可能或者对于所研究的性质关联性越强。

  2. 其二:描述符,对于描述符的选取也十分重要,好的描述符能够准确简洁的描述好想要研究的性质,不会出现过拟合或者欠拟合的状态。
  3. 其三:拟合函数。拟合函数也不是越复杂越好,一个合适的拟合函数,能够准确的描述想要研究的性质,最好具有迁移性以及扩展性。

如果能够准确的解决以上三个重点,发一篇好的文章肯定是志在必得的事情。

一、数据

数据质量是ML模型的基石,它直接影响模型的性能和应用。因此,在ML建模之前收集可靠的数据非常重要。数据集通常由因变量和自变量组成。因变量是指聚合物的目标特性,可以从实验、数据库、出版物、第一性原理计算或分子动力学模拟中获得。用实验数据构建的ML模型可以帮助研究人员更直观地指导实验,同时牺牲相对较高的经济性、劳动力和时间成本。从数据库中收集数据是在短时间内获取大量数据的一种非常方便的方法。

收集可用的聚合物数据库

Materials ProjectComputed properties of known and hypothetical materialshttps://materialsproject.org
Protein Data Bank (PDB)3D structures of proteins, nucleic acids, and complex assemblieshttp://www.wwpdb.org
CitrinationComputed and experimental properties of materialshttps://citrination.com
Polymer GenomeAn informatics platform for polymer property prediction and designhttps://www.polymergenome.org
PoLyInfoVarious data required for polymeric material designhttps://polymer.nims.go.jp
NanoMineAn open-source data resource for members of the nanocomposites communitymaterialsmine
Polymer Property Predictor and DatabaseFlory–Huggins χ parameters and glass transition temperatures for various polymershttps://pppdb.uchicago.edu
Physical Properties of PolymersVarious physical properties and characterization techniques of polymersby J. Mark, K. Ngai, W. Graessley, L. Mandelkern, E. Samulski, J. Koenig and G. Wignall
ACD/Labs NMR DatabasesPolymer NMR spectraACD/Labs | Software for R&D | Chemistry Softwareproducts/dbs/nmr_db
Polymer Science Learning Center Spectral DatabasePolymer IR and NMR spectrahttps://pslc. uwsp.edu
NIST Synthetic Polymer MALDI Recipes DatabaseMatrix-assisted laser desorption ionization (MALDI) mass spectrometry on a wide variety of synthetic polymershttps://maldi. nist.gov
CROW Polymer Properties DatabaseA multitude of polymer propertieshttp://polymerdatabase.com
MATWEB Material Property DataMaterial properties of thermoplastic and thermoset polymershttp://www.matweb.com
Material Properties DatabaseEngineering material properties that emphasize ease of comparisonhttps://www.makeitfrom.com
1聚合物基因组Polymer Genome: Predict高分子材料的计算或实验特性数据库以及用于快速预测的相应机器学习模型。
2PoLy信息高分子データベース(PoLyInfo) - DICE :: 国立研究開発法人物質・材料研究機構PoLyInfo 从学术文献中提供有关高分子材料的 ≈100 性质、化学结构和合成方法的信息。
3聚合物性能预测器和数据库Polymer Property Predictor and Database用于结构和多功能应用的聚合物材料的Flory-Huggins χ参数和玻璃化转变温度。
4材料属性数据库MakeItFrom.com: Material Properties Database该数据库提供聚合物材料的机械、热学和电学性能。
5CROW聚合物特性数据库iPage高分子科学数据库,包括高分子材料的结构、性能和应用。
6PI1MGitHub - RUIMINMA1996/PI1M: A benchmark dataset for polymer informatics.100万种聚合物用于聚合物信息学。
7UniProt的UniProtUniProt 提供全面、高质量且可免费访问的蛋白质序列和功能信息资源。

二、描述符

传统的分子描述符主要包括组成、结构、工艺参数和光谱信息。

因此,如何使用ML快速高效地从出版物中提取数据也成为研究热点。近年来,第一性原理计算和分子动力学模拟在预测目标性质方面得到了快速发展。但是,在ML过程中传输的计算中也存在不可避免的错误,从而降低了模型的鲁棒性。自变量是指影响因变量的因素,也称为特征或描述符。这些描述符包括化学成分、原子参数、结构参数或过程参数,可以从领域知识或描述符生成软件中获得。

聚合物指纹

尼龙-6的重复单元可以看作是1-NH-,5-CH的连接2- 和 1-CO 块。构成重复单元的这些构建块称为聚合物指纹

常用的聚合物指纹图谱包括摩根指纹图谱(MF)、分子嵌入图谱(ME)和分子图谱(MG)除了最常用的MF、ME和MG指纹作为聚合物表示外,还有其他指纹也可以用来表示聚合物,如原子对指纹、拓扑扭转指纹、分层指纹等。

结构的描述符

聚合物指纹图谱更侧重于重复单元的组成信息,而基于结构的描述符不仅反映了重复单元的组成信息,还表征了结构信息。根据分子结构的维度,基于结构的描述符可分为二维描述符和三维描述符

2D 和 3D 描述符可以通过专业的描述符生成软件获得,例如 Dragon;或开源工具包,例如 Mordred 和 RDKit 中的其他工具包。

使用最广泛的基于 2D 的结构描述符是 SMILES 表示。SMILES 的全称是 Simplified Molecular Input Line Entry System,

基于 3D 结构的描述符可以通过 Mordred 和 Dragon 等描述符生成软件获得。

2.1 描述符的评估

根据描述符和目标之间的冗余和相关性,特征可以分为四个基本子集:不相关特征、冗余特征、弱相关但非冗余特征和强相关特征。不相关和冗余的特征往往会降低模型的评估指标,使模型性能更差。适当的特征选择算法应在不丢失任何重要信息的情况下降低输入空间的维数。根据评估策略与建模算法的关系,特征选择技术可分为滤波器、包装器和嵌入式。

滤波方法旨在通过原始数据集计算特征与目标之间的相关性,并通过设置阈值来选择关键特征,以消除相关性较弱的特征。[88]滤波方法的主要特点在于特定判别模型的独立性以及对特征之间潜在相关性的无知。[89、90]Wrapper 方法从所有特征组合中尽可能地选择最优特征组合,将特征选择过程视为搜索最优任务。[91]过滤法和包装法的区别在于建模算法是否在特征选择过程中引入。

因此,这种方法基本上通过特征选择来封装分类或预测结果,一次评估一次变量的组合。3显示了高分子材料中常用的过滤器和包装器类型的特征选择算法。嵌入式方法是筛选出特定算法的重要特征子集,在构建分类或回归模型时,可以给出每个特征的评价分数。该方法结合偏最小二乘回归(PLSR)、随机森林(RF)和惩罚回归等不同算法,可以提高整体预测精度。

 高分子材料中的常见特征选择算法

1CFSFilterCFS estimates the performance of a subset of features rather than a single feature. It introduces a forward search strategy to select strongly correlated non-redundant features.
2mRMRFiltermRMR uses incremental search to select features, which can maximize the correlation between features and categories as well as minimize the redundancy between features.
3Markov blanketFilterMarkov blankets can perform feature redundancy analysis. In the feature space, the detailed information of the target variable can be obtained from its Markov blanket, and the non-Markov blanket can be regarded as redundant features of the target variable to reduce the feature dimension.
4Genetic algorithmWrapperGenetic algorithm uses an evolution-based method to determine the optimal set. After the algorithm runs for a certain number of generations, the optimal member of the group is the selected feature.
5Backward eliminationWrapperAll independent variables are selected into the model and then the partial F test is performed on each independent variable. The smallest F value is recorded as FL and compared with the pre-specified significance level F0. If FL < F0, the variable is eliminated, and refit the regression model with the remaining variables.
5Forward selectionWrapperForward selection method is a method of independent variable selection of a regression model. Its characteristic is to introduce the candidate independent variables into the regression equation one by one to test the significance of the regression coefficient, and to decide whether to introduce the independent variable into the model.

三、ML算法

监督学习:训练数据包含输出标签以实现数据分类或回归

支持向量机,人工神经

无监督学习:无输出标签

K均值聚类和主成分分析

强化学习:迭代方法,其中智能体采取行动改变其状态并与环境交互以最大化其目标奖励值

马尔可夫决策过程和主动学习

算法:支持向量机(SVM) 图神经网络 (GNN)、高斯过程回归 (GPR)、主动学习和支持向量机 (SVM)人工神经网络(ANN)深度学习 迁移学习 遗传算法(GA)贝叶斯算法。

四、实际流程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/832522.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电子取证平航杯的复现

闻早起部分&#xff1a; 一、闻早起的windows10电脑 &#xff08;1&#xff09;.“闻早起”所使用的笔记本电脑使用何种加密程式&#xff1f; 1.在EFI文件中找到加密程式 &#xff08;2&#xff09; 教徒“闻早起”所使用的笔记本电脑中安装了一款还原软件&#xff0c;其版本…

寻找最佳App分发平台:小猪APP分发脱颖而出

在当今移动应用市场日益饱和的环境下&#xff0c;选择一个合适的App分发平台对于开发者来说至关重要。这不仅关系到应用能否快速触达目标用户&#xff0c;还直接影响到品牌的塑造与市场份额的争夺。本文将深入探讨几大关键因素&#xff0c;帮助开发者判断哪个App分发平台最适合…

Whisper、Voice Engine推出后,训练语音大模型的高质量数据去哪里找?

近期&#xff0c;OpenAI 在语音领域又带给我们惊喜&#xff0c;通过文本输入以及一段 15 秒的音频示例&#xff0c;可以生成既自然又与原声极为接近的语音。值得注意的是&#xff0c;即使是小模型&#xff0c;只需一个 15 秒的样本&#xff0c;也能创造出富有情感且逼真的声音。…

【driver4】锁,错误码,休眠唤醒,中断,虚拟内存,tasklet

文章目录 1.互斥锁和自旋锁选择&#xff1a;自旋锁&#xff08;开销少&#xff09;的自旋时间和被锁住的代码执行时间成正比关系2.linux错误码&#xff1a;64位系统内核空间最后一页地址为0xfffffffffffff000~0xffffffffffffffff&#xff0c;这段地址是被保留的&#xff0c;如果…

全球260多个国家的年通货膨胀率数据集(1960-2021年)

01、数据简介 全球年通货膨胀率是指全球范围内&#xff0c;在一年时间内&#xff0c;物价普遍上涨的比率。这种上涨可能是由于货币过度供应、需求过热、成本上升等原因导致的。通货膨胀率是衡量一个国家或地区经济状况和物价水平的重要指标&#xff0c;通常以消费者价格指数&a…

深度学习之DCGAN

目录 须知 转置卷积 DCGAN 什么是DCGAN 生成器代码 判别器代码 补充知识 LeakyReLU&#xff08;x&#xff09; torch.nn.Dropout torch.nn.Dropout2d DCGAN完整代码 运行结果 图形显示 须知 在讲解DCGAN之前我们首先要了解转置卷积和GAN 关于GAN在这片博客中已经很…

数据结构——链表专题2

文章目录 一、返回倒数第k 个节点二、链表的回文结构三、相交链表 一、返回倒数第k 个节点 原题链接&#xff1a;返回倒数第k 个节点 利用快慢指针的方法&#xff1a;先让fast走k步&#xff0c;然后fast和slow一起走&#xff0c;直到fast为空&#xff0c;最后slow指向的结点就…

BGP路由控制实验

1、按照需求配置IP地址&#xff0c;R1和R4配置环回口模拟业务网段&#xff0c;R2、R3、R4配置Loopback0口地址作为OSPF的Router-id和IBGP邻居地址。 2、AS 200 内部配置OSPF&#xff0c;仅用于实现BGP的TCP可达&#xff0c;不允许宣告业务网段。 3、配置BGP&#xff0c;R1和R…

数据结构学习/复习8--树与二叉树的概念与基本性质练习

一、树 1.概念 2.树的表示 二、二叉树 1.二叉树的概念 2.与性质相关的题

OpenHarmony实战开发-如何使用Web组件加载页面

页面加载是Web组件的基本功能。根据页面加载数据来源可以分为三种常用场景&#xff0c;包括加载网络页面、加载本地页面、加载HTML格式的富文本数据。 页面加载过程中&#xff0c;若涉及网络资源获取&#xff0c;需要配置ohos.permission.INTERNET网络访问权限。 加载网络页面…

如何在一个高并发的应用中进行调试和测试!

在一个高并发的应用中进行调试和测试是一项挑战性的工作&#xff0c;因为它涉及到了系统性能、资源竞争、同步机制以及潜在的并发编程错误等多个方面。下面我会详细解释如何在高并发环境中进行调试和测试&#xff0c;并提供相应的策略和技术。 1. 单元测试 在多线程环境下&…

从线索到成交:HubSpot全渠道销售流程的精准打磨

在当今数字化时代&#xff0c;企业面临着越来越复杂的市场环境和激烈的竞争压力。在这样的背景下&#xff0c;如何利用科技手段提升营销和销售效率&#xff0c;拓展客户获客渠道&#xff0c;成为了企业发展的关键之道。作为HubSpot合作伙伴&#xff0c;我们深谙全渠道营销与销售…

multipass launch失败:launch failed: Remote ““ is unknown or unreachable.

具体问题情况如下&#xff1a; C:\WINDOWS\system32>multipass launch --name my-vm 20.04launch failed: Remote "" is unknown or unreachable.​C:\WINDOWS\system32>multipass lsNo instances found.​C:\WINDOWS\system32>multipass startlaunch fail…

谁能取代迈巴赫,征服互联网安全大佬周鸿祎?

‍作者 |老缅 编辑 |德新 4月18日&#xff0c;「周鸿祎卖车」登上了微博热搜。这位360创始人、董事长发微博称&#xff1a;自己做了一个艰难的决定&#xff0c;将把陪伴9年的迈巴赫600给卖掉。 随后&#xff0c;他解释道&#xff1a;「这是因为我需要体验新一代车的感觉。古人…

虚拟化界的强强联手:VirtIO与GPU虚拟化的完美结合

近距离了解 VirtIO 和 GPU 虚拟化 这是一篇 Linaro 开发团队项目组的科普文章。我们在处理器虚拟化项目中&#xff0c;经常会遇到 VirtIO 相关的问题&#xff1b;比如运行 Andriod 系统的时候需要运行 VirtIO 组件。‍‍‍随着 Cassini 项目和 SOAFEE&#xff08;嵌入式边缘可扩…

HFSS学习-day1-T形波导的内场分析和优化设计

入门实例--T形波导的内场分析和优化设计 HFSS--此实例详细步骤1.创建项目2.设置求解类型3.设置与建模相关的一些信息设置默认的建模长度单位 4.创建T形模型的三个臂基本参数端口激励进行复制 5.创建被挖去的部分设置正确的边界条件和端口激励方式添加求解设置添加扫频项检查一下…

大模型_基于医疗领域用lora微调ChatDoctor模型

文章目录 ChatDoctor目标方法结果结论收集和准备医患对话数据集创建外部知识数据库具有知识大脑的自主聊天医生的开发模型培训结果数据和模型&#xff1a; 微调推理 ChatDoctor 目标 这项研究的主要目的是通过创建一个在医学建议中具有更高准确性的专业语言模型&#xff0c;来…

【毕业设计】基于SSM的运动用品商城的设计与实现

1.项目介绍 在这个日益数字化和信息化的时代&#xff0c;随着人们购物习惯的转变&#xff0c;传统的实体商店已经无法满足人们日益增长的在线购物需求。因此&#xff0c;基于SSM&#xff08;Spring Spring MVC MyBatis&#xff09;框架的运动用品商城项目应运而生&#xff0…

最原理的一集——Mathtype公式编号设置(Mathtype7.8+Word)

版本 Mathtype7.8Office2019 Word 读完本文你将会 随心所欲&#xff0c;想怎么给公式编号就怎么给公式编号&#xff0c;想从(X.1)开始&#xff0c;就从(X.1)开始大概了解Mathtype公式设置原理给作者点赞 如果你想自己跟着文章做的话 请不要在自己的论文里边直接操作&#…

【6D位姿估计】数据集汇总 BOP

前言 BOP是6D位姿估计基准&#xff0c;汇总整理了多个数据集&#xff0c;还举行挑战赛&#xff0c;相关报告被CVPR2024接受和认可。 它提供3D物体模型和RGB-D图像&#xff0c;其中标注信息包括6D位姿、2D边界框和2D蒙版等。 包含数据集&#xff1a;LM 、LM-O 、T-LESS 、IT…