11 Python的正则表达式

概述

        在上一节,我们介绍了Python的文件操作,包括:打开文件、读取文件、写入文件、关闭文件、文件指针移动、获取目录列表等内容。在这一节中,我们将介绍Python的正则表达式。正则表达式是一种强大的工具,用于在文本中进行匹配、搜索、替换等操作,它提供了一种高效且灵活的方式来处理字符串。使用正则表达式可以大大提高字符串处理的效率,帮助我们在大量的文本数据中快速找到符合特定模式的字符串。

正则表达式的定义

        正则表达式,又称正规表示法、正则式、regex,是一种文本模式,特别适合用来搜索、验证和替换符合特定模式的文本。它是由普通字符以及特殊字符组成的文字模式,该模式描述了一种字符串匹配的模式,可以用来搜索、替换、截取符合特定模式的字符串。

        Python提供了一个内置的re模块,用于处理正则表达式。通过导入re模块,我们可以使用其中的函数来执行正则表达式操作。

正则表达式的语法

        Python正则表达式的语法包括一些特殊的字符和元字符,这些字符可以用来表示特定的模式。下表列出了一些常用的Python正则表达式语法。

语法

含义

.

匹配除了换行符的任意字符

^

匹配字符串的开头

$

匹配字符串的结尾

*

匹配前面的子表达式零次或多次

+

匹配前面的子表达式一次或多次

?

匹配前面的子表达式零次或一次

()

匹配括号内的表达式,也表示一个组

a|b

匹配a或b

{n}

匹配前面的子表达式精确n次

{n,}

匹配前面的子表达式至少n次

{n,m}

匹配前面的子表达式至少n次,但不超过m次

[...]

表示可以匹配的字符集合,比如:[A-Za-z]匹配任何一个字母或数字

[^...]

表示不匹配此字符集,比如:[^A-Za-z]匹配除了字母和数字之外的任何字符

\d

匹配任何十进制数字,相当于[0-9]

\D

匹配任何非数字字符,相当于[^0-9]

\s

匹配任何空白字符,包括空格、制表符、换页符等,等价于[\f\n\r\t\v]

\S

匹配任何非空白字符,等价于[^ \f\n\r\t\v]

\w

匹配任何字母、数字、下划线字符,等价于[a-zA-Z0-9_]

\W

匹配任何非字母、数字、下划线字符,等价于[^a-zA-Z0-9_]

        另外,还有一些特殊的字符类和转义序列在正则表达式中也比较常见,可参看下表。

语法

含义

\t

制表符(Tab)

\n

换行符

\r

回车符

\f

换页符

\b

退格符

\\

反斜杠本身

\'

单引号本身

\"

双引号本身

\0

空字符

\xnn

ASCII码字符,其中nn是一个两位十六进制数

\unnnn

Unicode字符,其中nnnn是一个四位的十六进制数

re.search函数

        re.search函数在给定的字符串中搜索匹配正则表达式的内容,并返回一个匹配对象。如果匹配到多组,就返回第一组;如果没有找到匹配的内容,则返回None。

        re.search函数的定义如下:

          re.search(pattern, string, flags=0)

        各个参数的含义如下:

        pattern:需要匹配的正则表达式。

        string:待搜索的字符串。

        flags:控制正则表达式行为的标志,可选。可以使用多个标志,通过按位或(|)操作符组合。比如:可以使用re.IGNORECASE来忽略大小写,使用re.MULTILINE来分别对每一行进行匹配。

        re.search函数返回的是一个匹配对象,如果没有找到匹配的内容,则返回None。当匹配成功时,匹配对象具有以下的属性。

        group(index): 返回指定索引的分组,如果索引不存在,则返回整个匹配的文本。

        groups(): 返回一个包含所有分组(索引号大于0的组)的元组。

        start(index): 返回指定索引的分组在字符串中的开始位置。

        end(index): 返回指定索引的分组在字符串中的结束位置。

        span(index): 返回指定索引的分组在字符串中的开始和结束位置的元组。

        如果匹配失败,以下方法会引发异常:

        group(index): 试图获取一个不存在的组的匹配结果,将会引发异常。

        start(index)、end(index)、span(index): 试图获取一个不存在的组的边界位置,将会引发异常。

        我们可以通过下面的示例代码来理解re.search函数。

import retext = "Hello CSDN!"
result = re.search('(CSDN)', text)
if result:# 输出:Found: CSDN (6, 10)print("Found:", result.group(1), result.span(1))
else:print("Not found")text = 'be greater than ever'
result = re.search('(.*) greater (.*?) .*', text)
if result:# 输出:Found all: be greater than everprint ("Found all:", result.group())# 输出:Found group 1: beprint ("Found group 1:", result.group(1))# 输出:Found group 2: thanprint ("Found group 2:", result.group(2))
else:print("Not found")

re.match函数

        re.match函数用于在字符串的开始处进行正则表达式匹配,并返回一个匹配对象。如果没有找到匹配的内容,则返回None。re.match函数与re.search函数的区别在于:re.match函数只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败并返回None;而re.search函数会匹配整个字符串,直到找到一个匹配的。

import retext = 'Hello CSDN'
result = re.match('Hello', text)
# 从字符串的开始处进行匹配,能找到,输出:Found: Hello
if result:print("Found:", result.group())
else:print("Not found")text = 'CSDN Hello'
result = re.match('Hello', text)
# 从字符串的开始处进行匹配,找不到,输出:Not found
if result:print("Found:", result.group())
else:print("Not found")text = 'hope_wisdom@csdn.net'
result = re.match(r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$', text)
# 校验是否为有效的电子邮件地址,输出:Found
if result:print("Found")
else:print("Not found")

re.findall函数

        re.findall()函数用于在一个字符串中查找所有匹配的部分,并返回一个包含所有匹配部分的列表。

        re.findall()函数的定义如下:

          re.findall(pattern, string)

        其中,pattern是正则表达式,用于匹配要查找的内容;string是要在其中查找匹配项的字符串。返回的列表中包含了所有匹配的部分,如果没有找到匹配项,则返回一个空列表。

import retext = "Hello, CSDN! Be greater than ever."
matches = re.findall(r'\b\w+\b', text)
# 输出:['Hello', 'CSDN', 'Be', 'greater', 'than', 'ever']
print(matches)

re.sub函数

        re.sub()函数用于在字符串中使用正则表达式进行替换操作,函数会返回一个新字符串,其中匹配的字符串被替换为指定的替换对象。

        re.sub()函数的定义如下:

          re.sub(pattern, repl, string, count=0, flags=0)

        各个参数的含义如下:

        pattern:需要匹配的正则表达式。

        repl:用于替换匹配到的字符串的替换对象。

        string:要在其中进行替换操作的原始字符串。

        count:指定替换的最大次数,可选。默认为0,表示替换所有匹配的字符串。

        flags:控制正则表达式行为的标志,可选。可以使用多个标志,通过按位或(|)操作符组合。

        在下面的示例代码中,我们使用re.sub()函数将字符串中的所有单词替换为"CSDN",正则表达式\b\w+\b匹配单词的边界和单词本身。

import retext = "Hello, world! Be greater than ever."
result = re.sub(r'\b\w+\b', 'CSDN', text)
# 输出:CSDN, CSDN! CSDN CSDN CSDN CSDN.
print(result)

re.compile函数

        re.compile()函数用于将给定的正则表达式编译为一个可重用的正则表达式对象,函数会返回一个正则表达式对象,可以用于重复匹配或搜索操作。

        re.compile()函数的定义如下:

          re.compile(pattern, flags=0)

        各个参数的含义如下:

        pattern:要编译的正则表达式字符串。

        flags:控制正则表达式行为的标志,可选。可以使用多个标志,通过按位或(|)操作符组合。

        在下面的示例代码中,我们使用re.compile()函数将正则表达式\d\w\d编译为一个可重用的正则表达式对象,并使用该对象进行搜索操作。

import repattern = re.compile(r'\d+\w+\d+')
result = pattern.search('Hello 666OK999 CSDN')
# 输出:666OK999
print(result.group())

re.finditer函数

        re.finditer()函数用于在字符串中查找正则表达式的匹配项,并返回一个迭代器,包含匹配结果。每个匹配结果都是一个Match对象,可以通过该对象的group()方法获取匹配的字符串。

        re.finditer()函数的定义如下:

          re.finditer(pattern, string, flags=0)

        各个参数的含义如下:

        pattern:要匹配的正则表达式模式。

        string:要在其中查找匹配项的字符串。

        flags:控制正则表达式行为的标志,可选。可以使用多个标志,通过按位或(|)操作符组合。

        在下面的示例代码中,我们使用re.finditer()函数获得了一个匹配对象的迭代器,并遍历该迭代器输出了匹配字符串。

import retext = 'Hello 666 CSDN 999'
pattern = re.compile(r'\d+')
matches = pattern.finditer(text)
# 依次输出:666 999
for match in matches:print(match.group())

re.split函数

        re.split()函数用于将字符串按照正则表达式进行分割,并返回一个分割后子串的列表。

        re.split()函数的定义如下:

          re.split(pattern, string, maxsplit=0)

        各个参数的含义如下:

        pattern:要用于分割字符串的正则表达式模式。

        string:要分割的字符串。

        maxsplit:指定最大分割次数,可选。如果指定了该参数,则最多会按照正则表达式分割maxsplit次。默认值为0,表示没有限制。

        在下面的示例代码中,我们使用re.split()函数分割了字符串,并返回分割后子串的列表。

import retext = 'ocean-sky-continent'
result = re.split('-', text)
# 输出:['ocean', 'sky', 'continent']
print(result) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/74105.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jvs-智能bi(自助式数据分析)9.1更新内容

​jvs-智能bi更新功能 1.报表增加权限功能(服务、模板、数据集、数据源可进行后台权限分配) 每个报表可以独立设置权限,通过自定义分配,给不同的人员分配不同的权限。 2.报表新增执行模式 可选择首次报表加载数据为最新数据和历…

怎样把英语视频字幕翻译成中文

我们知道,随着中外文化交流日益频繁,视频翻译作为一种重要的跨文化交流方式,也越来越受到重视。那么,怎样把英语视频翻译成中文,北京视频翻译哪里比较专业? 据了解,视频翻译是直接将一种语言的音…

报考浙江工业大学MBA项目如何选择合适的辅导班?

浙江工业大学MBA项目每年有数百人报考,在浙江省内除了浙大以外算是人数比较多的一个项目。2023级的招生中第一志愿也通过复试刷掉了百来人,在省内其实作为第一志愿报考的风险在逐渐增大,考生们如果坚持报考,则在针对联考初试的备考…

NJ求职盘点

电子显示 集成电路 地平线 后摩智能 芯启源 自动驾驶 地平线 栖霞区兴智科技园 泊车、SLAM/3D算法工程师 https://wecruit.hotjob.cn/SU64819a4f2f9d2433ba8b043a/pb/social.html?currentPage1 后摩智能 栖霞区兴智科技园 视觉感知算法资深工程师 可以做自动驾驶前瞻性…

建站系列(七)--- 常用前后端框架

目录 相关系列文章前言一、何为框架?二、为什么使用框架三、常用框架(一)Bootstrap(二)Layui(三)JQuery(四)Vue.js(四)ThinkPHP(五&am…

deepin 如何卸载软件

文章目录 卸载软件(正文) 通常来讲在官方的应用商场卸载即可。 但是呢? 很不幸的是,没能够彻底删除软件。还是能够在启动器界面上看到应用。 这时候,你右键卸载,会提示“卸载失败”。如下图: …

SQL Server2022安装教程

SQL Server 是一个关系数据库管理系统。它最初是由Microsoft、Sybase 和Ashton-Tate三家公司共同开发的,于1988 年推出了第一个OS/2版本。在Windows NT 推出后,Microsoft与Sybase 在SQL Server 的开发上就分道扬镳了,Microsoft 将SQL Server移…

React16入门到入土

搭建环境 默认你已经安装好 node.js 安装 react 脚手架 学习的过程中,我们采用React官方出的脚手架工具 create-react-app npm install -g create-react-app如果提示没有权限,win 用户可以管理员打开终端,mac 用户 可以在前面加上 sudo …

滑动窗口的最大值(双端队列,单调队列)

力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 class Solution {public int[] maxSlidingWindow(int[] nums, int k) {LinkedList<Integer> deque new LinkedList<>();//双端队列&#xff0c;存储单调队列的下标int ans[] new int[nu…

公开游戏、基于有向图的游戏

目录 〇&#xff0c;背景 一&#xff0c;公开游戏、策梅洛定理 1&#xff0c;公开游戏 2&#xff0c;策梅洛定理 二&#xff0c;有向图游戏 1&#xff0c;狭义有向图游戏 2&#xff0c;广义有向图游戏 3&#xff0c;狭义有向图游戏的SG数 4&#xff0c;Bash Game 力扣…

LVGL Animations(动画)的简单使用

一、前言 哈喽&#xff0c;大家好。在进行界面设计的时候&#xff0c;动画的使用是必不可少的&#xff0c;今天这篇文章就跟大家分享一下 LVGL Animations&#xff08;动画&#xff09;的简单使用。笔者将在模拟器上运行演示&#xff0c;LVGL 版本号为 8.3.0。 二、Animation…

【实践篇】Redis最强Java客户端(一)之Redisson入门介绍

Redisson入门介绍 文章目录 Redisson入门介绍1.1 Redisson简介1.1.1 起源和历史1.1.2 优势和特点1.1.3 与其他Java Redis客户端的比较 1.2 使用和配置1.2.1 依赖和SDK1.2.2 配置文件解析1.2.3 连接池配置 1.3 优雅的让Hash的某个Field过期2. 参考资料3. 源码地址4. Redis从入门…

2023高教社杯数学建模E题思路分析 - 黄河水沙监测数据分析

# 1 赛题 E 题 黄河水沙监测数据分析 黄河是中华民族的母亲河。研究黄河水沙通量的变化规律对沿黄流域的环境治理、气候变 化和人民生活的影响&#xff0c; 以及对优化黄河流域水资源分配、协调人地关系、调水调沙、防洪减灾 等方面都具有重要的理论指导意义。 附件 1 给出了位…

JAVASE---抽象类和接口

抽象类 抽象类的概念 在面向对象的概念中&#xff0c;所有的对象都是通过类来描绘的&#xff0c;但是反过来&#xff0c;并不是所有的类都是用来描绘对象的&#xff0c;如果一个类中没有包含足够的信息来描绘一个具体的对象&#xff0c;这样的类就是抽象类。 抽象类语法 在…

反编译 SyntaxError: Unexpected token ‘}‘ 异常处理

反编译小程序出现异常&#xff1a; SyntaxError: Unexpected token ‘}’ 网上很多都说使用最新版本的反编译 wxappUnpacker-master 包可以进行解析&#xff0c;但是大神已经停止了更新wxappUnpacker-master 包&#xff1b; 查找了网上大部分的wxappUnpacker-master 包&#…

BBR 带宽估计的延后累加

一个关于时延统计分布的小测试&#xff0c;用 netem delay jitter distribution pareto 模拟&#xff0c;得到下面的结果&#xff1a; netem 的 jitter 并不是真 jitter&#xff0c;只是通过延时阻滞部分报文模拟 jitter&#xff0c;对保序流而言&#xff0c;就表现为乱序&am…

深度学习概念(术语):Fine-tuning、Knowledge Distillation, etc

文章目录 1.Fine-tuning (微调)2.Transfer Learning (迁移学习)3.Knowledge Distillation (知识蒸馏)4.Meta Learning (元学习) 这里的相关概念都是基于已有预训练模型&#xff0c;就是模型本身已经训练好&#xff0c;有一定泛化能力。需要“再加工”满足别的任务需求。 进入后…

strlen函数使用与模拟实现【进阶版】

strlen函数使用与模拟实现 1.strlen函数介绍 资源来源于cplusplus网站 翻译过来的大致意思就是&#xff1a; 获取字符串长度 2.strlen的使用 int main() { //strlen - 求字符串长度的 //字符串的结束标志是\0 //strlen统计的是\0之前出现的字符的个数 //基本功能 char arr[]…

华为数通方向HCIP-DataCom H12-821题库(单选题:321-340)

第321题 BGP的Open报文是用于建立对等体连接的,以下哪一项不属于Open报文中携带的参数信息? A、发送者的Router ID B、AS号 C、BGP版本号 D、TCP端口号 答案:D 解析:以下是BGP的Open报文: 第322题 在建立BGP对等体的过程中,OpenSent状态表明BGP等待的Open报文 并对收…

关于SpringBoot项目中读取不到自建email.yml配置文件内容的问题

如果你的Spring Boot项目中可以读取application.yml中的内容&#xff0c;但无法读取email.yml中的内容&#xff0c;可能是由于Spring Boot默认只读取application.yml或application.properties文件作为主配置文件&#xff0c;而不会自动加载其他YAML文件。 要使Spring Boot能够…