Python----Python高级(正则表达式:语法规则,re库)

一、正则表达式

1.1、概念

        正则表达式,又称规则表达式,(Regular Expression,在代码中常简写为regex、 regexp或RE),是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特 殊字符(称为"元字符")。

        正则表达式使用单个字符串来描述、匹配一系列符合某个 句法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。通俗 的说,正则表达式就是一种语法规则,用来匹配文本中的文本。

正则表达式非常强大,不仅在UNIX系统中应用广泛,近二十年来,在Windows系统 中也得到极大的发展,现如今主流的操作系统包括Linux、Unix、Windows和主流的 开发语言包括C/C++、Java、JavaScript、C#、Python、Go、PHP等。

1.2、特点 

缺点:

        正则表达式的语法可读性差

优点:
        正则表达式通用行很强,能够适用于很多编程语言

二、语法规则 

2.1、匹配什么字符

代码功能
.匹配任意1个字符(除了\n)
[ ]匹配[ ]中列举的字符
\d匹配数字,即0-9
\D匹配非数字,即不是数字
\s匹配空白,即 空格,tab键
\S匹配非空白
\w匹配非特殊字符,即a-z、A-Z、0-9、_、汉字
\W匹配特殊字符,即非字母、非数字、非汉字

2.2、匹配多少次

代码功能
*匹配前一个字符出现0次或者无限次,即可有可无
+匹配前一个字符出现1次或者无限次,即至少有1次
?匹配前一个字符出现1次或者0次,即要么有1次,要么没有
{m}匹配前一个字符出现m次
{m,n}匹配前一个字符出现从m到n次
{n,}匹配前一个字符出现n次以上

2.3、在哪里匹配

代码功能
^匹配字符串开头
$匹配字符串结尾
\b表示匹配单词边界。(比如\bword,可以匹配word、words,但不会匹配 sword)

2.4、匹配指定格式的字符

1. 使用()匹配指定格式的字符

(ab):表示在文本中只匹配ab这两个字符,且必须相邻

(a|b):表示在文本中匹配a或者b这两个字符,不一定相邻。

2. 使用[]匹配指定类别的字符串

[abcd]:表示匹配a或匹配b或匹配c或匹配d

[a-d]:表示匹配a或匹配b或匹配c或匹配d

[a-zA-Z0-9]:表示匹配所有的大小写英文和数字

[^0-9]:表示匹配除了数字之外的所有字符

2.5、单行模式与多行模式

1. 单行模式:

        在单行模式下,.可以匹配任何的字符,包括换行符,并且整个文本会 被认为是一个完整的文本,使用^和$只能匹配到文本的开头和结尾。

2. 多行模式:

        在多行模式下,.就不可以匹配换行符了,使用^和$可以匹配到每一行 的开始和结束。

2.6、贪婪匹配与懒惰匹配

1. 贪婪模式:指在正则表达式中的量词会尽可能多地匹配字符。

2. 懒惰模式:指在正则表达式中的量词会尽可能少地匹配字符。

2.7、?的几种用法

1. ?作为限定符,表示其修饰对象只能出现0次或1次。

2. ?放在量词前,表示将匹配模式改为懒惰匹配模式。

3. (?=pattern):表示匹配位置后面必须跟着pattern模式的字符,匹配结果并不 包括这个模式的字符串。

4. (?!pattern):表示匹配位置后面不能跟着pattern模式的字符,匹配结果并不 包括这个模式的字符串。

5. (?<=pattern):表示匹配位置前面必须跟着pattern模式的字符,匹配结果并 不包括这个模式的字符串。

6.(?<!pattern):表示匹配位置前面不能跟着pattern模式的字符,匹配结果并不 包括这个模式的字符串

7.(?:pattern):表示将 pattern 包含在一个分组中,但不把这个分组的匹配结果 保存到分组编号中。

三、Python中的re库 

3.1、re.match

该函数尝试从字符串的起始位置匹配,如果起始位置没有匹配成功的话,就返回 None,否则会返回一个匹配对象

re.match(pattern,string,flags=0) 

        pattern:正则表达式的格式。

        string:被匹配的文本。

        flags:标志位,用于控制正则表达式的匹配方式

应用场景

        验证输入格式:检查用户输入是否符合特定的格式,例如电子邮件、电话号码、 日期等 

        提取信息:从字符串的开始位置提取符合正则表达式模式的字串,如提取文件名 等。

        数据解析:在处理日志文件或配置文件时,可以用来解析每行的开始部分,获取 关键信息。 

import rem = re.match('foo', 'food') # 返回匹配对象
print(m) # <re.Match object; span=(0, 3), match='foo'>m = re.match('foo', 'fbar') # 不匹配,返回None
print(m) # None

3.2、re.search

从文本中获取第一个符合正则表达式模式的字符的位置,并返回一个匹配对 象,如果没有匹配到,就返回None。

re.search(pattern,string,flags=0) 

        pattern:正则表达式的格式。

        string:被匹配的文本。

        flags:标志位,用于控制正则表达式的匹配方式

应用场景

        检查字符串是否包含子串:检查一个字符串是否包含某个特定的文本。

        提取数据:从字符串中的任意位置提取信息,例如从一个文本段落中提取所有提 到的日期。

        搜索文件:在某文件中查找特定的消息或事件。 

import rem = re.search('foo', 'hellofood')  
print(m) # <re.Match object; span=(6, 9), match='foo'>m = re.search('foo', 'hello')  
print(m) # None

3.3、re.findall

数从文本中寻找所有与模式匹配的子串,并将所有的匹配结果存储到一个列表中 进行返回,如果没有匹配成功会返回一个空列表。

re.findall(pattern,string,flags=0) 

        pattern:正则表达式的格式。

        string:被匹配的文本。

        flags:标志位,用于控制正则表达式的匹配方式

应用场景

        提取多个子串:当你需要在字符串中找到所有匹配特定模式的字串时。

        文本分析:在文本中,提取文本中特定的词汇、短语或模式。

import relst = re.findall('ab', 'abcdabcdabcd') 
print(lst) # ['ab', 'ab', 'ab']

3.4、re.sub

将文本中与模式匹配的部分替换为其他的内容

re.sub(pattern,repl,string,count,flags=0) 

        pattern:正则表达式的格式。

        repl:这是替换文本或一个函数。如果是文本,就是将匹配到的内容替换为该文本; 如果是函数,会在函数中进行文本处理的操作。

        string:被匹配的文本。

        count: 这是可选参数,表示替换的最大次数。默认值为 0,表示替换所有 匹配项。

        flags:标志位,用于控制正则表达式的匹配方式,如:是否区分大小写、 设置多行匹配模式等,具体有哪些标志可参考下面的附录1表格。

应用场景

        文本格式化:将文本中的特定模式的文本替换为另一种格式。

        数据清洗:在处理数据时,移除或替换无效或不需要的字符,比如在一系列文本 中删除非数字字符以清理电话号码。

        敏感信息脱敏:在显示或存储数据前,将敏感信息(比如身份证号、手机号)的 部分内容替换为星号。 

import retext = 'yeah, but no, but yeah, but no'
print(re.sub('but', 'AND', text))
# yeah, AND no, AND yeah, AND no

3.5、re.split

将某文本根据匹配模式进行分割,并将分割后的结果放入列表中返 回

re.split(pattern,string,maxsplit,flags=0) 

        pattern:正则表达式的格式。

        string:被匹配的文本。

        maxsplit:表示最大分割次数。默认值为 0,表示分割所 有匹配项。

        flags:标志位,用于控制正则表达式的匹配方式

import re
text = "apple, banana, orange, watermelon"
fruits = re.split(r',\s*', text)
print(fruits) #['apple', 'banana', 'orange', 'watermelon']

3.6、re.compile

预先编译正则表达式要匹配的模式,并会返回一个正则表达式的对象,该对 象与re.match返回的对象不同,该对象可以调用上面的函数。

re.compile(pattern, flags=0) 

        pattern:要匹配的正则表达式。

        flags:标志位,用于控制正则表达式的匹配方式

常见的应用场景:

        多次匹配:当你需要在一个较长的文本中多次应用同一个正则表达式时,使用 re.compile可以避免每次匹配时都重新编译表达式。

import re# 编译一个正则表达式模式,用于匹配手机号
email_pattern = re.compile(r'[1]{1}[3589]{1}[0-9]{9}')
text = '''1o23j0 rde013309876543cvbnoikdjgv10248895490-/*-+68-*8+'''
emails = email_pattern.search(text)print(emails)
# <re.Match object; span=(15, 26), match='13309876543'>

 四、思维导图

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/67887.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux网络 | 传输层TCP | 认识tcp报头字段与分离

前言&#xff1a; 本节内容继续传输层的讲解&#xff0c; 本节讲解的是tcp协议。 tcp协议是我们日常中最常用的协议。就比如我们浏览网页&#xff0c;我们知道网页时http或者https协议。 其实http或者https底层就是用的tcp协议。tcp协议&#xff0c;全名又称为传输控制协议&…

Mysql触发器(学习自用)

一、介绍 二、触发器语法 注意&#xff1a;拿取新的数据时用new&#xff0c;旧数据用old。

ubuntu20使用apt安装mysql8

目录 ubuntu20使用apt安装mysql8报错列表参考链接首先删除旧mysql 一、下载配置mysql8库索引下载apt包解压包配置更新apt库索引 二、下载安装mysql8三、启动mysql服务配置开机自启动&#xff0c;忽略 本地登录远程登录查看mysql的所有用户使用客户端远程登陆如果报错完成 参考链…

昇腾AI产品

一.AI计算的基础知识 1.并行计算 指同时使用多种计算资源解决技术问题的过程&#xff0c;是提高计算机系统计算速度和数据处理能力的一种有效手段。它的基本思想是用多个处理器来共同求解同一个问题&#xff0c;即将被求解的问题分解成若干个部分&#xff0c;各部分均由一个独…

Linux内核编程(二十一)USB驱动开发-键盘驱动

一、驱动类型 USB 驱动开发主要分为两种&#xff1a;主机侧的驱动程序和设备侧的驱动程序。一般我们编写的都是主机侧的USB驱动程序。 主机侧驱动程序用于控制插入到主机中的 USB 设备&#xff0c;而设备侧驱动程序则负责控制 USB 设备如何与主机通信。由于设备侧驱动程序通常与…

学习Hibernate的调优方案

Hibernate是一个非常流行的Java ORM&#xff08;对象关系映射&#xff09;框架&#xff0c;它可以帮助开发者更轻松地处理数据库操作。然而&#xff0c;如果不进行适当的性能调优&#xff0c;Hibernate可能会导致应用程序运行缓慢。本文将详细探讨Hibernate的调优方案&#xff…

总结 uniapp 上不适配iphone的:new Date 时间、border线条、渐变

1、border样式缺了一边 这是错误样式&#xff1a; 需要添加: border: 1rpx solid #57c7bb; transform: rotateZ(0deg);//加入此代码解决iphone 不适配问题2、时间出现NaN 原因是因为ios中使用new Date 的时候出了问题 解决方案: 1.调整时间格式:将时间格式从"yyyy-MM-d…

内网渗透测试工具及渗透测试安全审计方法总结

1. 内网安全检查/渗透介绍 1.1 攻击思路 有2种思路&#xff1a; 攻击外网服务器&#xff0c;获取外网服务器的权限&#xff0c;接着利用入侵成功的外网服务器作为跳板&#xff0c;攻击内网其他服务器&#xff0c;最后获得敏感数据&#xff0c;并将数据传递到攻击者&#xff0…

Dockerfile另一种使用普通用户启动的方式

基础镜像的Dockerfile # 使用 Debian 11.9 的最小化版本作为基础镜像 FROM debian:11.11# 维护者信息 LABEL maintainer"caibingsen" # 复制自定义的 sources.list 文件&#xff08;如果有的话&#xff09; COPY sources.list /etc/apt/sources.list # 创建…

力扣707题——设计链表

#题目 从零开始设计链表&#xff0c;我们拆分成两次任务&#xff0c;今天先看1 ,2 ,4 #代码

leetcode刷题记录(七十二)——146. LRU 缓存

&#xff08;一&#xff09;问题描述 146. LRU 缓存 - 力扣&#xff08;LeetCode&#xff09;146. LRU 缓存 - 请你设计并实现一个满足 LRU (最近最少使用) 缓存 [https://baike.baidu.com/item/LRU] 约束的数据结构。实现 LRUCache 类&#xff1a; * LRUCache(int capacity)…

微信小程序:实现单选,多选,通过变量控制单选/多选

一、实现单选功能 微信小程序提供了 radio 组件来实现单选功能。radio 组件需要配合 radio-group 使用。 1. WXML 代码 <radio-group bindchange"onRadioChange"><label wx:for"{{items}}" wx:key"id"><radio value"{{it…

vue2使用flv.js在浏览器打开flv格式视频

组件地址&#xff1a;GitHub - bilibili/flv.js: HTML5 FLV Player flv.js 仅支持 H.264 和 AAC/MP3 编码的 FLV 文件。如果视频文件使用了其他编码格式就打不开。 flv.vue <template><div><el-dialog :visible.sync"innerVisibleFlv" :close-on-pre…

Spring 中的事件驱动模型

事件驱动的基本了解 事件模式也就是观察者模式&#xff0c;当一个对象改变的时候&#xff0c;所有依赖的对象都会收到一个通知。 Subject&#xff1a;抽象主题 Observer&#xff1a;具体主题 Concrete Subject&#xff1a;抽象观察者&#xff0c;在得到更新通知之后去更新自…

STM32补充——IAP

0 前置知识&#xff1a; FLASH相关内容&#xff1a;前往STM32补充——FLASH STM32三种烧录方式&#xff08;看看就行&#xff09;&#xff1a; 1.ISP&#xff1a;In System Programming&#xff08;在系统编程&#xff09; 执行芯片厂商的 Bootloader 程序进入 ISP 模式&…

k8s的CICD实施项目

环境需求&#xff1a; 目前领导需要做一个需求&#xff0c;临时把我从运维岗位&#xff0c;把我调度到到专家组让我主导cicd的项目实施 目前环境资源 k8s环境&#xff0c;28台服务器&#xff0c;上面是k8s集群&#xff0c;要实施一个测试环境的cicd以及一个生产环境的cicd gitl…

【线性代数】基础版本的高斯消元法

[精确算法] 高斯消元法求线性方程组 线性方程组 考虑线性方程组&#xff0c; 已知 A ∈ R n , n , b ∈ R n A\in \mathbb{R}^{n,n},b\in \mathbb{R}^n A∈Rn,n,b∈Rn&#xff0c; 求未知 x ∈ R n x\in \mathbb{R}^n x∈Rn A 1 , 1 x 1 A 1 , 2 x 2 ⋯ A 1 , n x n b 1…

AIGC视频生成模型:Runway的Gen系列模型

大家好&#xff0c;这里是好评笔记&#xff0c;公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细介绍Runway开发的视频生成模型Gen系列&#xff0c;包括Gen-1、Gen-2和Gen3 Alpha等&#xff0c;这些模型每次发布都震惊AI圈&#xff0c;荣获多个视频生成的…

【JVM-9】Java性能调优利器:jmap工具使用指南与应用案例

在Java应用程序的性能调优和故障排查中&#xff0c;jmap&#xff08;Java Memory Map&#xff09;是一个不可或缺的工具。它可以帮助开发者分析Java堆内存的使用情况&#xff0c;生成堆转储文件&#xff08;Heap Dump&#xff09;&#xff0c;并查看内存中的对象分布。无论是内…

【基于无线电的数据通信链】Link 11 仿真测试

〇、废话 Link 11 仿真测试 涉及多个方面&#xff0c;包括信号仿真、协议模拟、数据链路层的仿真以及网络性能评估等。Link 11 是一种基于 HF&#xff08;高频&#xff09; 或 UHF&#xff08;超高频&#xff09; 波段的无线通信协议&#xff0c;主要用于军事通信系统中。为了…