正则表达式:文本处理中的瑞士军刀

正则表达式是用于提取字符串规律的规则,通过特定语法表达,以匹配符合该规律的字符串。它具有通用性,不仅适用于Python,也可用于其他编程语言。

下面我用Python的re模块来进行实战演示:(记得import re

re模块的主要功能有匹配、搜索、分割、匹配和替换......

re模块的方法分为两大类:

  1. 直接使用re模块的方法
  2. 使用正则表达式对象

菜鸟营地

findall

findall(pattern,string[,flags])
# pattern:指定的匹配模式 string:输入的字符串 
# flags:可选参数(用于表示匹配过程中的一些选项)
# 该函数返回值是一个列表

常用pattern 

' . ':通配符,代表任意字符(\n除外),一个点一个字符,例如:

ret = re.findall('m...e', 'cat and mouse') 
print(ret)#['mouse']

' * ':重复,运行*之前的一个字符重复多次,例如:

ret1 = re.findall('o*i', 'oooooi and bye')
print(ret1)#['oooooi']

' ? ':也是重复匹配,允许?之前的字符只能重复0次或者1次,例如:

ret2 = re.findall('ca?t', 'ct cat caat caaat')
print(ret2)#['ct', 'cat']

+ ':也是重复匹配,但是至少重复1次,不能是0次,例如:

ret2 = re.findall('ca+t', 'ct cat caat caaat')
print(ret2)#['cat', 'caat', 'caaat']

{} ':也是重复匹配,但是匹配次数可以自行设置,次数可以是一个数或者范围,例如:

{m}匹配前一个字符出现m次
{m,}匹配前一个字符至少出现m次
{m,n}匹配前一个字符出现m-n次
ret3 = re.findall('ca{2}t', 'ct cat caat caaat caaaat')
print(ret3)#['caat']
ret3 = re.findall('ca{2,}t', 'ct cat caat caaat caaaat')
print(ret3)#['caat', 'caaat', 'caaaat']
ret3 = re.findall('ca{2,3}t', 'ct cat caat caaat caaaat')
print(ret3)#['caat', 'caaat']

' ^ ':必须从字符串的起始位置开始匹配,例如:

ret5 = re.findall('^m...e', 'cat and mouse')
print(ret5)#[]
ret6 = re.findall('^m...e', 'mouse and cat')
print(ret6)#['mouse']

' $ ':值从最后开始匹配,例如:

ret7 = re.findall('m...e$', 'cat and mouse')
print(ret7)#['mouse']

' | ':两个模式进行或的匹配,例如:

ret8 = re.findall('cat|mouse', 'cat and mouse')
print(ret8)#['cat', 'mouse']

' \ ':转义字符,例如:

ret9 = re.findall('/^m...e', '^mouse and cat')
print(ret9)#[]
字符功能
\d匹配数字,即0-9
\D匹配非数字
\s匹配空白,即空格,tab键
\S匹配非空白
\w匹配单词、字符
\W匹配非单词字符
[ ]匹配[ ]中列举的字符的其中一个
ret = re.findall('12[qaz]','13qwe12qwe')
print(ret)#['12q']

[^789]:不匹配789中的一个,^是非的意思 

ret = re.findall('12[^qaz]','13qwe12pqwe')
print(ret)#['12p']

 

\b匹配一个单词的边界(字母数字和非字母数字的边界)
\B匹配非单词的边界
ret = re.findall('oi\\b','oi.55llhihibye')
print(ret)#['oi']

即oi的右边不能有字母或数字! 

ret = re.findall('oi\\B','oi55llhihibye')
print(ret)#['oi']

即oi的右边必须有字母或数字! 

常用flags 

  •  re.IGNORECASE:缩写re.I                表示忽略大小写
ret = re.findall('m...e', 'cat and MOUSE')
print(ret)#[]
ret = re.findall('m...e', 'cat and mouse',re.IGNORECASE)
print(ret)#['mouse']
  •   re.VERBOSE:缩写re.X                     表示忽略模式中的空格,并可以使用#注释代码,提高    可读性
phoneRegex = re.compile(r'''( (\d{3}|\(\d{3}\))? # area code
(\s|-|\.)? # separator
\d{3} # first 3 digits
(\s|-|\.) # separator
\d{4} # last 4 digits
(\s*(ext|x|ext.)\s*\d{2,5})? # extension
)''',re.VERBOSE)

可以按意义,分部分写。一部分写一行,后面加上注释。执行时,注释会被忽略。同时,多余的空白也会被忽略。如果用以前的方式写,则不小心写的空白,可能会改变正则表达式的意义 

  •   re.DOTALL:缩写re.S                     表示使元字符也匹配换行符
a = """hhhhoirerej     
jjjioioeer"""
print(re.findall(r'oi.*oi',a))#[]
print(re.findall(r'oi.*oi',a,re.S))#['oirerej     \njjjioi']

match

re.match(pattern, string)# pattern  匹配的正则表达式 string  要匹配的字符串

re.match()必须从字符串开头匹配!match方法尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。 

a = re.match('bbbtest','bbbtestasdtest')
print(a)                             #返回一个匹配对象  <re.Match object; span=(0, 7), match='bbbtest'>
print(a.group())                     #返回test,获取不到则报错 bbbtest
print(a.span())           #返回匹配结果的位置,左闭右开区间 (0, 7)
print(re.match('test','atestasdtest'))  #返回None None

search 

匹配整个字符串,并返回第一个成功的匹配

sub

替换指定的字符串 

re.sub(pattern,repl,string)
#pattern:要替换的数据 repl:替换成什么 string:源数据
print(re.sub('cnm','hhhh','cnmcnms'))#hhhhhhhhs

split 

对字符串进行分割,并返回一个列表

s = "https:bbbsssd.com"
print(re.split("\.",s))           #以.号进行分割['https:bbbsssd', 'com']
print(re.split(":|\.",s))     #以:或者.进行分割['https', 'bbbsssd', 'com']
print(re.split(r",|:|-|%|\.",s))    #找不到的分隔符就忽略['https', 'bbbsssd', 'com']

贪婪 

python里的数量词默认是贪婪的,总是尝试尽可能的匹配更多的字符。python中使用?号关闭贪婪模式 

print(re.match(r"qq\d+","qq666666"))   #会尽可能多的去匹配\d<re.Match object; span=(0, 8), match='qq666666'>
print(re.match(r"qq\d+?","qq66666777"))  #尽可能少的去匹配\d<re.Match object; span=(0, 3), match='qq6'>

华山论剑

提取图片地址

import re
a='<img src="https://act-webstatic.mihoyo.com/hk4e/e20200928calculate/item_icon_u8f88e/32ea78b3df5ba600611c015475e648a4.png?x-oss-process=image%2Fresize%2Cw_104%2Fquality%2CQ_90%2Fformat%2Cwebp" class="recommend-popup__item-img">'
re = re.search("src=\"https.*\"",a)
print(re.group())#src="https://act-webstatic.mihoyo.com/hk4e/e20200928calculate/item_icon_u8f88e/32ea78b3df5ba600611c015475e648a4.png?x-oss-process=image%2Fresize%2Cw_104%2Fquality%2CQ_90%2Fformat%2Cwebp" class="recommend-popup__item-img"
#因为python是贪婪的
a='<img src="https://act-webstatic.mihoyo.com/hk4e/e20200928calculate/item_icon_u8f88e/32ea78b3df5ba600611c015475e648a4.png?x-oss-process=image%2Fresize%2Cw_104%2Fquality%2CQ_90%2Fformat%2Cwebp" class="recommend-popup__item-img">'
re = re.search(r'src="https\S+"', a)
if re:print(re.group())#src="https://act-webstatic.mihoyo.com/hk4e/e20200928calculate/item_icon_u8f88e/32ea78b3df5ba600611c015475e648a4.png?x-oss-process=image%2Fresize%2Cw_104%2Fquality%2CQ_90%2Fformat%2Cwebp"

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/115577.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐一款支持异步批量下载图片的chrome插件——图片助手(ImageAssistant) 批量图片下载器

https://chrome.google.com/webstore/detail/imageassistant-batch-imag/dbjbempljhcmhlfpfacalomonjpalpko/related?hlzh-CNhttps://chrome.google.com/webstore/detail/imageassistant-batch-imag/dbjbempljhcmhlfpfacalomonjpalpko/related?hlzh-CN 安装后直接点击 会根据…

分治法,动态规划法,贪心法,回溯法主要概括

目录 分治法&#xff0c;动态规划法&#xff0c;贪心法&#xff0c;回溯法主要概括 1.前言2.分治法2.1基本思想&#xff1a;2.2适用条件&#xff1a;2.3时间复杂度&#xff1a;2.4主要解决&#xff1a;2.5关键字&#xff1a;2.6其他&#xff1a; 3.动态规划法3.1基本思想&…

强化学习问题(7)--- Python和Pytorch,Tensorflow的版本对应

1.问题 之前下载的python3.8&#xff0c;在对应Pytorch和Tensorflow时没太在意版本&#xff0c;在运行一些代码时&#xff0c;提示Pytorch和Tensorflow版本过高&#xff0c;直接降下来&#xff0c;有时候又和Python3.8不兼容&#xff0c;所以又在虚拟环境搞一个Pyhon3.7&#x…

JAVA毕业设计101—基于Java+Springboot的电影购票微信小程序带后台管理(源码+数据库)

基于JavaSpringboot的电影购票微信小程序带后台管理(源码数据库)101 一、系统介绍 本系统是小程序前台&#xff0c;带后台管理 本系统分为管理员、用户两种角色 管理员功能&#xff1a; 登录、统计分析、密码修改、用户管理、广告管理、影院管理、分类管理、电影管理、场次…

babel6使用ES2020最新js语法

babel6使用ES2020最新js语法 Babel 6 原本是不支持 ES2020 语法&#xff0c;因为它是在 Babel 7 中引入的。如果您想使用 ES2020 语法&#xff0c;您需要将 Babel 6 升级到 Babel 7 或更高版本(推荐),当然也可以在bebel6中安装支持某个语法的plugin,比如你想使用 ES2020 中的可…

UI自动化测试,让测试高效起来

RunnerGo提供从API管理到API性能再到可视化的API自动化、UI自动化测试功能模块&#xff0c;覆盖了整个产品测试周期。 RunnerGo UI自动化基于Selenium浏览器自动化方案构建&#xff0c;内嵌高度可复用的测试脚本&#xff0c;测试团队无需复杂的代码编写即可开展低代码的自动化…

软件测试常用的8种功能测试类型有哪些?

软件测试常用的8种功能测试类型有哪些&#xff1f; 单元测试 单元测试确保在一个段中编写的每一段代码都能产生最佳结果。开发人员在单元测试期间只看接口和确定部件。它提供了代码进展的文档&#xff0c;因为每个代码单元在继续下一个之前都经过了彻底的测试。 集成测试 至少对…

【算法设计】递归与分治算法设计——二分搜索、假币识别问题(C++实现)

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; 更多算法分析与设计知识专栏&#xff1a;算法分析&#x1f525; 给大家跳…

docker学习-常用命令

//ubuntu中简单创建新用户的方法 sudo adduser robot //docker和docker-compose的安装 sudo apt install docker docker-compose //加入docker用户组&#xff1a; sudo groupadd docker #添加docker用户组 sudo gpasswd -a ${USER} docker #将用户加入到docker用户组中…

Echart图表收起/展开后无法重新渲染实现自适应(亲测有效)-开发bug总结5

问题描述&#xff1a; 后台管理系统&#xff0c;左侧的菜单栏是可以展开/收起的&#xff0c;默认是展开&#xff0c;此时页面上的图表加载正常&#xff0c;如果收起后再展开&#xff0c;页面底部就会出现滚动轴&#xff0c;图表没有重新绘制。 网上也查了很多方法。基本都是通…

数字化驱动基础网络建设升级:实现高效信息传输的关键

随着科技的飞速发展&#xff0c;数字化驱动基础网络建设升级已成为当今社会的重要议题。信息传输的高效性和安全性对于现代社会的发展至关重要。本文将深入探讨数字化驱动基础网络建设升级的重要性、现状、升级措施以及未来发展趋势&#xff0c;旨在为相关领域提供有益的参考。…

“中国版Zara”拉夏贝尔:从辉煌到破产清算

文/ 大力财经 拉夏贝尔的破产清算&#xff0c;让人不禁惋惜。这个曾经被誉为“中国版Zara”的女装品牌&#xff0c;在全国拥有超过2000家门店&#xff0c;一度是年轻人的追捧对象。 然而&#xff0c;由于市场竞争激烈、品牌定位模糊、库存积压严重等问题&#xff0c;拉夏贝尔…

从0开始学云计算之服务器:服务的定义,特点,应用场景,分类

服务器定义 服务器是计算机的一种。它比普通计算机运行速度更快、负载更高且价格更高。 服务器的英文名称为“Server”&#xff0c;是指在网络上提供各种服务的高性能计算机。作为网络的节点&#xff0c;存储、处理网络上80%的数据、信息&#xff0c;因此也被称为x络的灵魂。 …

2023IG新功能大整理,更多玩法助力营销推广

作为当今全球最为受欢迎的社交媒体之一&#xff0c;Instagram在2023年迎来了一系列重要的功能更新。学习了解Instagram的最新功能&#xff0c;以及如何高效利用这些新的功能和工具&#xff0c;对于跨境品牌在该平台上实现营销推广至关重要。今天给大家详细介绍 Instagram在2023…

formData对象打印不出来

用el-upload上传图片 以流的形式传给后台 所以用formData对象带数据 let formData new FormData() formData.append(name&#xff0c;monkey7) console.log(formData) 明明已经把数据append进去了 console.log在控制台却打印不出 后来发现他得用formData.get("xxx"…

自然语言处理---Transformer机制详解之GPT2模型介绍

1 GPT2的架构 从模型架构上看, GPT2并没有特别新颖的架构, 它和只带有解码器模块的Transformer很像. 所谓语言模型, 作用就是根据已有句子的一部分, 来预测下一个单词会是什么. 现实应用中大家最熟悉的一个语言模型应用, 就是智能手机上的输入法, 它可以根据当前输入的内容智…

C++基础算法----正整数高精度加减乘除

4、正整数高精度 ​ 出现高精度的情况一般只有C会出现&#xff0c;python会无限制&#xff0c;java有大整数&#xff0c;所以基本上不用考虑&#xff0c;一般会出现四种情况 一个较大数A 一个较大数B一个较大数A - 一个较大数B一个较大数A * 一个数一个较大数A / 一个数 这里…

模式识别——贝叶斯决策理论

模式识别——贝叶斯决策理论BDR 须知基本原则0-1损失下的BDRMAP&#xff08;极大后验&#xff09;log trick 须知 所有内容在分类问题下讨论。 基本原则 定义 X X X为观测 Y Y Y为状态 g ( x ) g(x) g(x)用 x x x对 y y y进行预测预测损失为 L [ g ( x ) , i ] L[g(x),i] L[…

关于数据可视化那些事

干巴巴的数据没人看&#xff0c;数据可视化才能直观展现数据要点&#xff0c;提升数据分析、数字化运营决策效率。那关于可视化的实现方式、技巧、工具等&#xff0c;你了解几分&#xff1f;接下来&#xff0c;我们就来聊聊数据可视化那些事。 1、什么是数据可视化&#xff1f…

网络工程师知识点7

111、IS-IS路由器的三种类型&#xff1f; Level-1路由器&#xff08;只能创建level-1的LSDB&#xff09; Level-2路由器&#xff08;只能创建level-2的LSDB&#xff09; Level-1-2路由器&#xff08;路由器默认的类型&#xff0c;能同时创建level-1和level-2的LSDB&#xff09;…