合碳智能 × Milvus:探索化学合成新境界——逆合成路线设计

ac01122659a29561c7df3e73578881de.png

a594c5577cda114a8e9f07fd75837924.png

合碳智能(C12.ai)成立于2022年,致力于运用AI和具身智能技术,为药物研发实验室提供新一代智能化解决方案,推动实验室从自动化迈向智能化,突破传统实验模式与人员的依赖,解决效率和成本的瓶颈,实现药物研发行业的产业革命。

在药物研发和有机合成化学领域,逆合成分析是一种至关重要的工具。通过逆合成分析,化学家可以从目标分子出发,逐步拆解其结构,推导出合理的合成路线。然而,合成路线的设计往往需要借鉴历史上已知的相似反应,这些反应提供了宝贵的经验和指导,使得合成路线设计更具可行性和效率。

在我们开发的逆合成路线设计产品中,相似反应的检索是核心功能之一。为了在庞大的反应数据库中快速、准确地找到与每一步设计相关的相似反应,我们采用了 Milvus 向量数据库。Milvus 以其卓越的高维向量处理能力,成为了支撑这一关键功能的理想选择。

01.

需求与挑战

在逆合成路线设计中,相似反应检索面临的挑战更加复杂和严苛。以下是在开发过程中遇到的主要需求与挑战:

1、高效处理庞大的化学反应数据

在设计逆合成路线时,化学家需要从庞大的反应数据库中快速找到与当前步骤相似的反应。这些数据库往往包含数百万条甚至数亿条反应记录,这些记录涉及到各种复杂的化学结构和反应机制。因此,我们的系统需要在极短的时间内从如此庞大的数据集中筛选出最相关的反应。

2、高维向量相似度计算的复杂性

逆合成分析涉及大量高维度的化学结构和反应指纹,这些指纹通常以高维向量的形式存储和比较。传统的数据库难以高效处理这些高维向量间的相似性计算,而逆合成设计过程又要求在海量数据中快速定位到相关性最高的反应,这对系统的计算能力和算法提出了极高的要求。

3、系统的实时性与扩展性要求

逆合成路线设计通常需要支持实时的用户交互。化学家在设计过程中会不断调整和优化合成路径,每一次调整都需要系统迅速响应,提供相关的相似反应建议。因此,系统不仅需要在当前数据规模下保持高效,还需具备良好的扩展性,以应对未来可能的数据库扩展和查询请求的增长。

4、检索结果的质量与相关性

在逆合成过程中,检索出的相似反应不仅需要在结构上相似,还必须在化学性质和反应条件上具有较高的相关性。这意味着,检索系统不仅要考虑到简单的结构相似性,还需结合化学反应机理、反应条件以及其他领域特定的知识进行结果优化,以提供真正有价值的参考。

02.

解决方案

针对上述挑战,我们选择了 Milvus 作为核心的向量数据库来支撑相似反应检索功能。Milvus 在处理大规模、高维度向量数据的过程中表现卓越,特别是在逆合成路线设计中,这些特性显得尤为重要。我们的解决方案主要包括以下几个方面:

1、化学反应数据的向量化处理

逆合成路线设计依赖于对化学反应步骤的精确描述。这些描述通常通过化学指纹(如ECFP等)转换为高维向量。我们使用专业的化学信息学工具将每一个反应步骤的分子结构和反应条件转换为高维度的指纹向量。这些向量数据作为 Milvus 的输入,为后续的相似性检索打下基础。

在具体实施中,我们针对不同类型的化学反应设计了不同的向量化方案。通过对反应中各组分(如反应物、催化剂、溶剂等)的特征提取,我们生成了更符合化学家需求的多维向量表示,使得检索出的相似反应在结构上更加贴近实际应用场景。

2、高效的索引构建与优化

为了确保检索的速度和精度,我们在 Milvus 中为每一组反应数据构建了适合的索引结构。我们选择了 IVF (Inverted File Index) 索引结构,因为它在处理高维向量数据时,能够在确保精度的同时提供更快的检索速度。

IVF 索引通过将数据空间划分为多个簇,每个簇内的数据使用量化向量进行近似表示,从而大幅度减少搜索空间,提高检索效率。在我们的系统中,IVF 索引不仅缩短了检索时间,还显著提高了检索精度,确保了化学家在设计逆合成路线时能够快速获得高质量的相似反应建议。

3、分布式部署与性能扩展

为了应对数据规模的不断增长以及高并发的查询需求,我们将 Milvus 部署在分布式计算环境中。通过 Kubernetes 和 Docker 的结合使用,我们实现了系统的容器化部署,使得 Milvus 能够在多个节点上并行处理数据和查询请求。

这一分布式架构不仅提升了系统的可扩展性,还增强了系统的容错能力。在高负载或节点故障的情况下,系统能够自动扩展和恢复,从而保证了相似反应检索的高可用性和稳定性。与此同时,我们还引入了缓存机制和负载均衡策略,以进一步优化系统的性能和用户体验。

4、结果的筛选与优化

在检索到相似反应后,我们并不是直接将结果呈现给用户,而是进一步结合化学领域的专业规则进行筛选和排序。例如,我们会根据反应条件的相似性、反应产率以及反应的适用性等多个维度,对检索结果进行加权评分。最终,系统将最符合逆合成设计需求的相似反应优先展示给用户。

这一过程不仅提高了检索结果的相关性和实用性,还使得化学家在实际应用中能够更快地找到适用的反应步骤,进而优化整个合成路线设计。这种基于多维度条件筛选的结果优化策略,极大地增强了系统的智能化水平,使其能够更好地服务于逆合成路线设计的实际需求。

03.

实施效果

通过两个详细的流程图展示了逆合成路线设计中使用 Milvus 向量数据库进行相似反应检索的完整过程。

57224f31b5a0d53e9c2c083a28a91eb1.png

自从在我们的逆合成路线设计产品中引入 Milvus 进行相似反应检索后,我们在多个方面取得了显著的成效:

1、检索效率的大幅提升

通过使用 Milvus 的 IVF 索引和分布式架构,我们显著提高了相似反应检索的效率。在处理包含数百万条反应记录的大型数据库时,系统能够在秒级时间内返回相关的相似反应结果。相比传统方法,检索速度提升了10倍以上,大大缩短了逆合成设计的周期。

2、系统扩展性的增强

得益于 Milvus 的分布式设计,我们的系统能够轻松应对数据规模的增长和查询请求的增加。无论是数据节点的扩展还是计算资源的增加,系统都能够快速响应,保持高效稳定的性能。这为我们在未来扩展数据库规模以及应对更复杂的查询需求提供了坚实的基础。

3、检索结果的高质量与高相关性

通过结合 Milvus 的高效检索与化学领域特定的规则筛选,我们提供的相似反应不仅在结构上具有高度相似性,还在实际应用中具备较高的相关性。这种高质量的检索结果帮助化学家在设计逆合成路线时,更加自信和高效地做出决策,减少了实验的盲目性和失败率。

4、用户体验的显著改善

系统的高效性和结果的高质量使得用户的满意度显著提高。化学家们可以更快、更精准地找到所需的相似反应,优化他们的逆合成路线设计。这种体验的提升,不仅提高了他们的工作效率,还增强了对我们产品的信任和依赖,推动了系统在科研和工业领域的广泛应用。

04.

结语

通过利用 Milvus 的高效向量处理能力,我们成功应对了大规模数据处理和高维向量计算的挑战,为逆合成设计提供了强有力的技术支持。随着技术的不断进步和系统的持续优化,我们相信未来的逆合成路线设计将更加智能化、高效化,为化学研究和药物开发带来更大的创新和突破。

推荐阅读

99535f64e003b3998e2afb14b0e3a00f.png

ed2512325ffed940c25653a57edb0707.png

1ab5e3b7d38e4a3164090f2dcf8e1a8b.png

a1c6b391b107a3353fcbcee08b3dadbf.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/53606.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决浏览器自动将http网址转https

删除浏览器自动使用https的方式 在浏览器地址栏输入:chrome://net-internals/#hsts PS:如果是edge浏览器可输入:edge://net-internals/#hsts 在Delete domain security policies搜索框下,输入要删除的域名,然后点击delete 解决方法&#…

回收玻璃减薄中的氢氟酸

回收玻璃减薄中的氢氟酸是一个重要的环保和资源再利用环节。在玻璃减薄过程中,氢氟酸作为主要的化学蚀刻剂,与玻璃基板表面的二氧化硅等成分发生反应,实现玻璃的减薄。然而,随着反应的进行,氢氟酸的浓度会逐渐降低&…

MyQql性能诊断与实践

获取更多免费资料,见下图

证书学习(四)X.509数字证书整理

目录 一、X.509证书 介绍1.1 什么是 X.509证书?1.2 什么是 X.509标准?1.3 什么是 PKI?二、X.509证书 工作原理2.1 PKI 的基础——加密算法2.2 PKI 证书编码三、X.509证书 结构3.1 证书字段3.2 证书扩展背景: 我们在日常的开发过程中,经常会遇到各种各样的电子证书文件,其…

新电脑Win11系统想要降级为Win10怎么操作?

前言 现在的电脑大部分都是Windows 11系统,组装机还好一些,如果想要使用Windows 10,只需要在安装系统的时候选择Windows 10镜像即可。 但是对于新笔记本、厂商的成品机、一体机来说,只要是全新的电脑,基本上都是Wind…

快速入门游戏领域,开发游戏需要哪些技术?

在这个充满创意和技术的时代,游戏行业成为众多创新人才追求梦想的热土。对于准备踏入这个充满挑战与机遇的领域的新人来说,了解游戏开发流程是至关重要的。 游戏市场蓬勃发展,游戏行业未来行情可观,在这个充满创意和技术的时代&a…

8. GIS数据分析师岗位职责、技术要求和常见面试题

本系列文章目录: 1. GIS开发工程师岗位职责、技术要求和常见面试题 2. GIS数据工程师岗位职责、技术要求和常见面试题 3. GIS后端工程师岗位职责、技术要求和常见面试题 4. GIS前端工程师岗位职责、技术要求和常见面试题 5. GIS工程师岗位职责、技术要求和常见面试…

vue3 前端实现pdf打印预览 printjs

在utils建print.ts文件 interface PrintFunction {extendOptions: Function;getStyle: Function;setDomHeight: Function;toPrint: Function; }const Print function (dom, options?: object): PrintFunction {options options || {};// ts-expect-errorif (!(this instanc…

电脑技巧:如何在Win11电脑上调整设置,让屏幕更加护眼?

目录 一、调整屏幕亮度 二、启用夜间模式 三、调整色彩设置 四、使用第三方护眼软件 五、保持良好的用眼习惯 总结 随着长时间使用电脑的人越来越多,护眼问题也变得越来越重要。Win11作为更新的操作系统,提供了更多的设置选项来帮助我们保护眼睛。本文将详细介绍如何在…

清华计算几何--凸Polygon的相交问题

凸Polygon和相交定义 本节只讨论凸Polygon的问题,不涉及凹Polygon. 相交包含了边相交和完全包含。 凸Polygon相交的两个问题 Detection(检测) 判断两个凸Polygon是否相交,至于相交部分是什么不关心. Construction(构造) 求出两个凸Polygon具体相交…

AI基础 L9 Local Search II 局部搜索

Local Beam search 对于当前的所有k个状态,生成它们的所有可能后继状态。 检查生成的后继状态中是否有任何状态是解决方案。 如果所有后继状态都不是解决方案,则从所有后继状态中选择k个最佳状态。 当达到预设的迭代次数或满足某个终止条件时&#x…

Linux:归档及压缩

tar命令 • tar 集成备份工具 – -c:创建归档 – -x:释放归档 – -f:指定归档文件名称,必须在所有选项的最后 – -z、-j、-J:调用 .gz、.bz2、.xz 格式工具进行处理 – -t:显示归档中的文件清单 – -C:指定…

MES的“尽头”是什么?

01 MES的发展历程 要了解MES首先需要知道其发展历程。制造执行系统(MES)是随着制造业的发展逐步演变和成熟起来的。以下是MES发展的几个主要阶段: 第一阶段:数据收集与报告(1980年代 - 1990年代) 制造业…

[苍穹外卖]-05Redis快速入门

Redis入门 Redis是一个基于内存的key-value结构数据库 基于内存存储, 读写性能高适合存储热点数据(热点商品,咨询,新闻)企业应用广泛中文官网: Redis中文网英文网: https://rsdis.io 下载安装: Redis安装包分为Windows版本和Linux版本, Redis的windows版属于绿色软件, 解压后…

OCR技术视角:智能文档管理中的票据自动化识别与处理

在数字化转型的浪潮中,企业对于高效、自动化的文档管理需求日益增长。票据作为企业运营中不可或缺的部分,其识别与管理的智能化成为了提升工作效率的关键。本文将深入探讨智能文档系统中票据识别功能的原理、技术优势以及在不同行业中的应用实践&#xf…

观察者模式observer

允许一个对象将其状态的改变通知其他对象 当Editor调用openFile()和saveFile()时,它会通过EventManager的notify方法,通知所有订阅了这些事件的监听器。

828华为云征文|华为云Flexus X实例部署k3s与kuboard图形化管理工具

828华为云征文|华为云Flexus X实例部署k3s与kuboard图形化管理工具 华为云最近正在举办828 B2B企业节,Flexus X实例的促销力度非常大,特别适合那些对算力性能有高要求的小伙伴。如果你有自建MySQL、Redis、Nginx等服务的需求,一定…

算法分享——《双指针》

文章目录 ✅[《移动零》](https://leetcode.cn/problems/move-zeroes/)🌹题目描述:🚗代码实现:😴代码解析: ✅[《复写零》](https://leetcode.cn/problems/duplicate-zeros/)🌹题目描述&#xf…

[数据集][目标检测]石油泄漏检测数据集VOC+YOLO格式6633张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):6633 标注数量(xml文件个数):6633 标注数量(txt文件个数):6633 标注…

吐血整理 ChatGPT 3.5/4.0 新手使用手册~ 【2024.09.04 更新】

以前我也是通过官网使用,但是经常被封号,就非常不方便,后来有朋友推荐国内工具,用了一阵之后,发现:稳定方便,用着也挺好的。 最新的 GPT-4o、4o mini,可搭配使用~ 1、 最新模型科普&…