python 爬虫篇(1)----＞re正则的详细讲解(附带演示代码)

re正则的详细讲解

文章目录

re正则的详细讲解
- 前言
- 4.re正则表达式
- (1)e正则的匹配模式
- (2) re.search 的使用
- (3)re.findall()的使用
- (4)re.sub()的使用
- 结语

前言

大家好,今天我将开始更新python爬虫篇,陆续更新几种解析数据的方法,例如 re正则表达式beautifulsoup xpath lxml 等等,以及selenium自动化的使用,scrapy 爬虫框架的使用等等. 还会写一些涉及到 js 逆向 ,验证码等等的实战项目, 大家近请期待吧!

那我们就看开始今天的学习吧!

4.re正则表达式

re正则表达式是python的内置模块,是对字符串操作的一种逻辑公式，就是用事先定义好的一些特殊字符及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种逻辑过滤。

模式	描述
\w	匹配字母数字及下划线
\W	匹配非字母数字下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9]
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结束
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[…]	用来表示一组字符,单独列出：[amk] 匹配 ‘a’，‘m’或’k’
[^…]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
*	匹配0个或多个的表达式。
+	匹配1个或多个的表达式。
?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
{n}	精确匹配n个前面表达式。
{n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\|b	匹配a或b
( )	匹配括号内的表达式，也表示一个组

以上是re正则表达式的匹配模式中使用的匹配符表

(1)e正则的匹配模式

1,最常规的使用

import re #导包content = 'Hello 123 456789 World_This is a Regex Demo'  # 准备好的待匹配字符串res = re.match('^Hello\s\d{3}\s\d{6}\s\w{10}.*Demo$',content)
a = re.match(&#