NLP“正则匹配分词“什么意思

今天在看NLP代码的时候,有一段代码没有看懂:

    def _regex_match(self, smiles):tokenized = []for smi in smiles:tokens = self.prog.findall(smi)tokenized.append(tokens)return tokenized
tokens = self._regex_match(sents1)

 通过正则匹配对第一个句子(sents1)进行分词,得到tokens。 


正则匹配分词是将输入的序列按照特定的规则进行分割和标记的过程(其实就是将句子拆分成多个token的过程)。正则表达式是一种用于匹配字符串的表达式,通过定义一系列模式来描述要匹配的字符串的规则。在这段代码中,"_regex_match"方法使用了一个正则表达式引擎(self.prog)来对输入的SMILES序列进行正则匹配的操作。

具体而言,该方法将遍历输入的SMILES序列,并对每个SMILES字符串进行正则匹配操作。匹配的结果是根据预定义的正则表达式模式,提取出符合规则的子字符串作为分词结果。这些分词结果将被存储在一个列表 tokenized = [] 中,并作为方法的返回值。

通过正则匹配分词,可以将输入的SMILES序列拆分成一组符号和操作符,以便进一步处理和分析分子的结构和属性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/6117.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从0到1完成UI自动化测试框架搭建之Pytest

上篇文章中,我们学会了如何使用UI Automator2atx编写简单的Android自动化脚本。 但是有个问题,大家可以思考下,光用自动化脚本让它自己动起来,是不是缺了点什么? 我们写测试用例的时候,是不是经常写&…

C语言第七课----------函数的定义及使用--------C语言重要一笔

作者前言 个人主页::小小页面 gitee页面:秦大大 一个爱分享的小博主 欢迎小可爱们前来借鉴 __________________________________________________________ 目录 1.函数是什么 2. 库函数 3. 自定义函数 4. 函数参数 5. 函数调用 6. 函数的嵌套调用和链式访问 7. 函数的声…

两天学会用Webpack打包前端代码-day01

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 什么是 Webpack? 使用 Webpack 体验webpack打包过程 修改 Webpack 打包入口和出口 入口 出…

一些抄袭CSDN的爬虫网站(长期收集更新)

目录 一、CodeAntenna1. 简介2. 网址 二、待更新。。。 本文由CSDN点云侠原创,爬虫网站请努力加油爬。 一、CodeAntenna 1. 简介 互联网耻辱柱排行榜Top 1。本人博客里任何一点免费可读的部分都被该网站爬得体无完肤。 2. 网址 https://codeantenna.com/a/B4cMB…

MQTT 与 Kafka|物联网消息与流数据集成实践

MQTT 如何与 Kafka 一起使用? MQTT (Message Queuing Telemetry Transport) 是一种轻量级的消息传输协议,专为受限网络环境下的设备通信而设计。Apache Kafka 是一个分布式流处理平台,旨在处理大规模的实时数据流。 Kafka 和 MQTT 是实现物…

数学建模-时间序列分析 实例

实例1销量数据预测和实例2人口数据预测实例3上证指数预测和实例4gdp增长率预测 数据-定义时间 不加置信区间清晰点 例二 实例3

json-server Node.js 服务,前端模拟后端提供json接口服务

json-server Node.js 服务,前端模拟后端提供json接口服务 背景: 前后端分离的项目,如果前端写页面的话,必须的后端提供接口文件,作为前端等待时间太久,不便于开发进行,如果前端写的过程中自己搭建一个简要的…

使用 Qt designer

使用 Qt designer 1、配置Qt designer外部工具2、Qt designer(Qt 设计师)使用2.1 创建保存文件ui2.2 pyuic5.exe 工具 转化成为py文件2.3 直接导入UI文件 2、qrc资源管理器 1、配置Qt designer外部工具 实质就是 Qt\bin 工具中 designer.exe 请查看 PyQ…

sublime快速替换

1、快速查找 ControlShiftF,可以快速查找或替换某些值 2、批量在行首或者行尾添加字符串的方法 ①选中要操作的行,全选就按CtrlA;②使用快捷键CtrlShiftL 3、快速删除换行符 选中需要操作的行(不选择则表示全选)Ctrl H 调出…

wpf prism使用

目录 1.Nuget中安装prism框架: 2.改造程序启动入口 3.View和ViewModel自动关联 4.绑定 5.Command 6.Event Aggregator(事件聚合器)、消息通知 7.弹窗、对话服务 DialogService 8.Region区域 9.Navigation导航 10.module 模块 1.Nug…

清洁机器人规划控制方案

清洁机器人规划控制方案 作者联系方式Forrest709335543qq.com 文章目录 清洁机器人规划控制方案方案简介方案设计模块链路坐标变换算法框架 功能设计定点自主导航固定路线清洁区域覆盖清洁贴边沿墙清洁自主返航回充 仿真测试仿真测试准备定点自主导航测试固定路线清洁测试区域…

【C++技能树】Vector类解析与模拟实现

Halo,这里是Ppeua。平时主要更新C语言,C,数据结构算法…感兴趣就关注我bua! Vector 0.Vector简介1.Vector常用接口1.1constructor构造函数1.2 iteratorsort与findfindsort 1.3 Capacity相关接口1.4 Modify相关接口 2. Vector模拟实…

linux:secureCRT通过pem证书远程访问服务器

参考: secureCRT通过pem证书远程访问服务器_Fengshana的博客-CSDN博客 总结: 配置公钥即可

STM32 串口发送数据、串口中断 7.19

STM32 串口发送: 全双工 异步 串行通信方式IIC: CLK(时钟线) DAT(数据线)同步协议:通过时钟线保证数据线是有效的 异步协议:通过寄存器接受到数据之后产生中断,从而传输…

前端vue uni-app仿美团下拉框下拉筛选组件

在前端Web开发中,下拉筛选功能是一种非常常见的交互方式,它可以帮助用户快速选择所需的选项。本文将介绍如何利用Vue.js和uni-app框架来实现一个高效的下拉筛选功能。通过使用这两个强大的前端框架,我们可以轻松地创建具有响应式用户操作的下…

Sublime Text 4 激活教程(Windows+Mac)

下载安装 官网 https://www.sublimetext.com 点击跳转 2023.7.21 版本为4143 Windows激活方式 一、激活License方式 入口在菜单栏中"Help” -> “Enter License” 注意格式,可能会过期失效,失效就用方式二 Mifeng User Single User License E…

Linux底层

一. arm基础知识 基础:c语言 具有一定硬件基础 特点---》前后联系 arm目标: 看懂简单的汇编代码 会看电路图、芯片手册 学会如何用软件控制硬件思想 解决问题的办法 谈谈对嵌入式的理解? 以计算应用为中心,软硬件可裁剪的…

JVM Optimization Learning(二)

一、Run-time data areas PC ▪ Each Java Virtual Machine thread has its own pc (program counter) register. ▪ At any point, each Java Virtual Machine thread is executing the code of a single method, namely the current method for that thread. ▪ If that m…

数据库 - RDBMS

1、什么是数据库? 数据库是一种用于存储和管理数据的系统或软件。它是结构化数据的集合,以便于访问、管理和更新。数据库可用于在计算机系统中组织、存储、检索和处理大量数据。 数据库通常由一组相关的数据表组成,每个表都有特定的列和行&…