[Python]网络爬虫(七):Python中的正则表达式教程(转)

接下来准备用糗百做一个爬虫的小例子。

但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。

正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。

 

以下内容转自CNBLOG:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

整理时没有注意,实在抱歉。

 

一、 正则表达式基础

1.1.概念介绍

正则表达式是用于处理字符串的强大工具,它并不是Python的一部分。

其他编程语言中也有正则表达式的概念,区别只在于不同的编程语言实现支持的语法数量不同。

它拥有自己独特的语法以及一个独立的处理引擎,在提供了正则表达式的语言里,正则表达式的语法都是一样的。

下图展示了使用正则表达式进行匹配的流程:

正则表达式的大致匹配过程是:

1.依次拿出表达式和文本中的字符比较,

2.如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。

3.如果表达式中有量词或边界,这个过程会稍微有一些不同。

下图列出了Python支持的正则表达式元字符和语法:   


 

 

1.2. 数量词的贪婪模式与非贪婪模式

 

正则表达式通常用于在文本中查找匹配的字符串。

贪婪模式,总是尝试匹配尽可能多的字符;

非贪婪模式则相反,总是尝试匹配尽可能少的字符。

Python里数量词默认是贪婪的。

例如:正则表达式"ab*"如果用于查找"abbbc",将找到"abbb"。

而如果使用非贪婪的数量词"ab*?",将找到"a"。

 

1.3. 反斜杠的问题

与大多数编程语言相同,正则表达式里使用"\"作为转义字符,这就可能造成反斜杠困扰。

假如你需要匹配文本中的字符"\",那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\":

第一个和第三个用于在编程语言里将第二个和第四个转义成反斜杠,

转换成两个反斜杠\\后再在正则表达式里转义成一个反斜杠用来匹配反斜杠\。

这样显然是非常麻烦的。

Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r"\\"表示。

同样,匹配一个数字的"\\d"可以写成r"\d"。

有了原生字符串,妈妈再也不用担心我的反斜杠问题~

 

 

二、 介绍re模块

2.1.  Compile

Python通过re模块提供对正则表达式的支持。

使用re的一般步骤是:

Step1:先将正则表达式的字符串形式编译为Pattern实例。

Step2:然后使用Pattern实例处理文本并获得匹配结果(一个Match实例)。

Step3:最后使用Match实例获得信息,进行其他的操作。

我们新建一个re01.py来试验一下re的应用:

# -*- coding: utf-8 -*-
#一个简单的re实例,匹配字符串中的hello字符串#导入re模块
import re# 将正则表达式编译成Pattern对象,注意hello前面的r的意思是“原生字符串”
pattern = re.compile(r'hello')# 使用Pattern匹配文本,获得匹配结果,无法匹配时将返回None
match1 = pattern.match('hello world!')
match2 = pattern.match('helloo world!')
match3 = pattern.match('helllo world!')#如果match1匹配成功
if match1:# 使用Match获得分组信息print match1.group()
else:print 'match1匹配失败!'#如果match2匹配成功
if match2:# 使用Match获得分组信息print match2.group()
else:print 'match2匹配失败!'#如果match3匹配成功
if match3:# 使用Match获得分组信息print match3.group()
else:print 'match3匹配失败!'

可以看到控制台输出了匹配的三个结果:

 

下面来具体看看代码中的关键方法。

★ re.compile(strPattern[, flag]):

这个方法是Pattern类的工厂方法,用于将字符串形式的正则表达式编译为Pattern对象。

第二个参数flag是匹配模式,取值可以使用按位或运算符'|'表示同时生效,比如re.I | re.M。

另外,你也可以在regex字符串中指定模式,

比如re.compile('pattern', re.I | re.M)与re.compile('(?im)pattern')是等价的。

可选值有:

  •     re.I(全拼:IGNORECASE): 忽略大小写(括号内是完整写法,下同)
  •    re.M(全拼:MULTILINE): 多行模式,改变'^'和'$'的行为(参见上图)
  •     re.S(全拼:DOTALL): 点任意匹配模式,改变'.'的行为
  •     re.L(全拼:LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
  •     re.U(全拼:UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
  •     re.X(全拼:VERBOSE): 详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。

 

以下两个正则表达式是等价的:

# -*- coding: utf-8 -*-
#两个等价的re匹配,匹配一个小数
import rea = re.compile(r"""\d +  # the integral part\.    # the decimal point\d *  # some fractional digits""", re.X)b = re.compile(r"\d+\.\d*")match11 = a.match('3.1415')
match12 = a.match('33')
match21 = b.match('3.1415')
match22 = b.match('33') if match11:# 使用Match获得分组信息print match11.group()
else:print u'match11不是小数'if match12:# 使用Match获得分组信息print match12.group()
else:print u'match12不是小数'if match21:# 使用Match获得分组信息print match21.group()
else:print u'match21不是小数'if match22:# 使用Match获得分组信息print match22.group()
else:print u'match22不是小数'

re提供了众多模块方法用于完成正则表达式的功能。

 

这些方法可以使用Pattern实例的相应方法替代,唯一的好处是少写一行re.compile()代码,

但同时也无法复用编译后的Pattern对象。

这些方法将在Pattern类的实例方法部分一起介绍。

如一开始的hello实例可以简写为:

# -*- coding: utf-8 -*-
#一个简单的re实例,匹配字符串中的hello字符串
import rem = re.match(r'hello', 'hello world!')
print m.group()

re模块还提供了一个方法escape(string),用于将string中的正则表达式元字符如*/+/?等之前加上转义符再返回

 

2.2. Match

Match对象是一次匹配的结果,包含了很多关于此次匹配的信息,可以使用Match提供的可读属性或方法来获取这些信息。

属性:

  1. string: 匹配时使用的文本。
  2. re: 匹配时使用的Pattern对象。
  3. pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
  4. endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
  5. lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None。
  6. lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None。

方法:

  1. group([group1, …]):
    获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名;编号0代表整个匹配的子串;不填写参数时,返回group(0);没有截获字符串的组返回None;截获了多次的组返回最后一次截获的子串。
  2. groups([default]): 
    以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代,默认为None。
  3. groupdict([default]):
    返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内。default含义同上。
  4. start([group]): 
    返回指定的组截获的子串在string中的起始索引(子串第一个字符的索引)。group默认值为0。
  5. end([group]):
    返回指定的组截获的子串在string中的结束索引(子串最后一个字符的索引+1)。group默认值为0。
  6. span([group]):
    返回(start(group), end(group))。
  7. expand(template): 
    将匹配到的分组代入template中然后返回。template中可以使用\id或\g<id>、\g<name>引用分组,但不能使用编号0。\id与\g<id>是等价的;但\10将被认为是第10个分组,如果你想表达\1之后是字符'0',只能使用\g<1>0。

下面来用一个py实例输出所有的内容加深理解:

 1 # -*- coding: utf-8 -*-
 2 #一个简单的match实例
 3 
 4 import re
 5 # 匹配如下内容:单词+空格+单词+任意字符
 6 m = re.match(r'(\w+) (\w+)(?P<sign>.*)', 'hello world!')
 7 
 8 print "m.string:", m.string
 9 print "m.re:", m.re
10 print "m.pos:", m.pos
11 print "m.endpos:", m.endpos
12 print "m.lastindex:", m.lastindex
13 print "m.lastgroup:", m.lastgroup
14 
15 print "m.group():", m.group()
16 print "m.group(1,2):", m.group(1, 2)
17 print "m.groups():", m.groups()
18 print "m.groupdict():", m.groupdict()
19 print "m.start(2):", m.start(2)
20 print "m.end(2):", m.end(2)
21 print "m.span(2):", m.span(2)
22 print r"m.expand(r'\g<2> \g<1>\g<3>'):", m.expand(r'\2 \1\3')
23  
24 ### output ###
25 # m.string: hello world!
26 # m.re: <_sre.SRE_Pattern object at 0x016E1A38>
27 # m.pos: 0
28 # m.endpos: 12
29 # m.lastindex: 3
30 # m.lastgroup: sign
31 # m.group(1,2): ('hello', 'world')
32 # m.groups(): ('hello', 'world', '!')
33 # m.groupdict(): {'sign': '!'}
34 # m.start(2): 6
35 # m.end(2): 11
36 # m.span(2): (6, 11)
37 # m.expand(r'\2 \1\3'): world hello!

2.3. Pattern

Pattern对象是一个编译好的正则表达式,通过Pattern提供的一系列方法可以对文本进行匹配查找。

Pattern不能直接实例化,必须使用re.compile()进行构造,也就是re.compile()返回的对象。

Pattern提供了几个可读属性用于获取表达式的相关信息:

  1. pattern: 编译时用的表达式字符串。
  2. flags: 编译时用的匹配模式。数字形式。
  3. groups: 表达式中分组的数量。
  4. groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典,没有别名的组不包含在内。

可以用下面这个例子查看pattern的属性:

 1 # -*- coding: utf-8 -*-
 2 #一个简单的pattern实例
 3 
 4 import re
 5 p = re.compile(r'(\w+) (\w+)(?P<sign>.*)', re.DOTALL)
 6  
 7 print "p.pattern:", p.pattern
 8 print "p.flags:", p.flags
 9 print "p.groups:", p.groups
10 print "p.groupindex:", p.groupindex
11  
12 ### output ###
13 # p.pattern: (\w+) (\w+)(?P<sign>.*)
14 # p.flags: 16
15 # p.groups: 3
16 # p.groupindex: {'sign': 3}

下面重点介绍一下pattern的实例方法及其使用。

 

1.match

match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]):

这个方法将从string的pos下标处起尝试匹配pattern;

如果pattern结束时仍可匹配,则返回一个Match对象;

如果匹配过程中pattern无法匹配,或者匹配未结束就已到达endpos,则返回None。

pos和endpos的默认值分别为0和len(string);

re.match()无法指定这两个参数,参数flags用于编译pattern时指定匹配模式。

注意:这个方法并不是完全匹配。

当pattern结束时若string还有剩余字符,仍然视为成功。

想要完全匹配,可以在表达式末尾加上边界匹配符'$'。

下面来看一个Match的简单案例:

 1 # encoding: UTF-8
 2 import re
 3  
 4 # 将正则表达式编译成Pattern对象
 5 pattern = re.compile(r'hello')
 6  
 7 # 使用Pattern匹配文本,获得匹配结果,无法匹配时将返回None
 8 match = pattern.match('hello world!')
 9  
10 if match:
11     # 使用Match获得分组信息
12     print match.group()
13  
14 ### 输出 ###
15 # hello

2.search
search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]): 
这个方法用于查找字符串中可以匹配成功的子串。

从string的pos下标处起尝试匹配pattern,

如果pattern结束时仍可匹配,则返回一个Match对象;

若无法匹配,则将pos加1后重新尝试匹配;

直到pos=endpos时仍无法匹配则返回None。

pos和endpos的默认值分别为0和len(string));

re.search()无法指定这两个参数,参数flags用于编译pattern时指定匹配模式。

那么它和match有什么区别呢?

match()函数只检测re是不是在string的开始位置匹配,

search()会扫描整个string查找匹配,

 

match()只有在0位置匹配成功的话才有返回,如果不是开始位置匹配成功的话,match()就返回none
例如:
print(re.match(‘super’, ‘superstition’).span())

会返回(0, 5)

print(re.match(‘super’, ‘insuperable’))

则返回None

search()会扫描整个字符串并返回第一个成功的匹配
例如:

print(re.search(‘super’, ‘superstition’).span())

返回(0, 5)
print(re.search(‘super’, ‘insuperable’).span())

返回(2, 7)

看一个search的实例:

 1 # -*- coding: utf-8 -*-
 2 #一个简单的search实例
 3 
 4 import re
 5  
 6 # 将正则表达式编译成Pattern对象
 7 pattern = re.compile(r'world')
 8  
 9 # 使用search()查找匹配的子串,不存在能匹配的子串时将返回None
10 # 这个例子中使用match()无法成功匹配
11 match = pattern.search('hello world!')
12  
13 if match:
14     # 使用Match获得分组信息
15     print match.group()
16  
17 ### 输出 ###
18 # world

3.split

split(string[, maxsplit]) | re.split(pattern, string[, maxsplit]):
按照能够匹配的子串将string分割后返回列表。

maxsplit用于指定最大分割次数,不指定将全部分割。

import rep = re.compile(r'\d+')
print p.split('one1two2three3four4')### output ###
# ['one', 'two', 'three', 'four', '']

4.findall

findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]):
搜索string,以列表形式返回全部能匹配的子串。

import rep = re.compile(r'\d+')
print p.findall('one1two2three3four4')### output ###
# ['1', '2', '3', '4']

5.finditer

finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags]):
搜索string,返回一个顺序访问每一个匹配结果(Match对象)的迭代器。

import rep = re.compile(r'\d+')
for m in p.finditer('one1two2three3four4'):print m.group(),### output ###
# 1 2 3 4

6.sub

sub(repl, string[, count]) | re.sub(pattern, repl, string[, count]):
使用repl替换string中每一个匹配的子串后返回替换后的字符串。 
当repl是一个字符串时,可以使用\id或\g<id>、\g<name>引用分组,但不能使用编号0。 
当repl是一个方法时,这个方法应当只接受一个参数(Match对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。 
count用于指定最多替换次数,不指定时全部替换。

import rep = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'print p.sub(r'\2 \1', s)def func(m):return m.group(1).title() + ' ' + m.group(2).title()print p.sub(func, s)### output ###
# say i, world hello!
# I Say, Hello World!

7.subn

 

subn(repl, string[, count]) |re.sub(pattern, repl, string[, count]):
返回 (sub(repl, string[, count]), 替换次数)。

import rep = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'print p.subn(r'\2 \1', s)def func(m):return m.group(1).title() + ' ' + m.group(2).title()print p.subn(func, s)### output ###
# ('say i, world hello!', 2)
# ('I Say, Hello World!', 2)

至此,Python的正则表达式基本介绍就算是完成了^_^

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/546550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

八种常见的 SQL 错误用法

来源&#xff1a;https://dwz.cn/cgAPOWPx1、LIMIT 语句分页查询是最常用的场景之一&#xff0c;但也通常也是最容易出问题的地方。比如对于下面简单的语句&#xff0c;一般 DBA 想到的办法是在 type, name, create_time 字段上加组合索引。这样条件排序都能有效的利用到索引&a…

最快速度找到内存泄漏

2019独角兽企业重金招聘Python工程师标准>>> 确认是否存在内存泄漏 我们知道&#xff0c;MFC程序如果检测到存在内存泄漏&#xff0c;退出程序的时候会在调试窗口提醒内存泄漏。例如&#xff1a; class CMyApp : public CWinApp { public:BOOL InitApplication(){in…

如何手撸一个队列?队列详解和面试题汇总(含答案)

队列&#xff08;Queue&#xff09;&#xff1a;与栈相对的一种数据结构&#xff0c; 集合&#xff08;Collection&#xff09;的一个子类。队列允许在一端进行插入操作&#xff0c;而在另一端进行删除操作的线性表&#xff0c;栈的特点是后进先出&#xff0c;而队列的特点是先…

Python根据IP地址获取MAC地址

Python3根据IP地址获取MAC地址&#xff08;不能获取本机IP&#xff0c;可以获取与本机同局域网设备IP的MAC&#xff09; main.py #!/usr/bin/env python3 # -*- coding: utf-8 -*- import os import platform import reclass IP2MAC:"""Python3根据IP地址获取…

eclipse启动tomcat 404

eclipse启动tomcat 404 引用自&#xff1a;http://blog.sina.com.cn/s/blog_8020e41101014lvu.html 感谢博主 状态描述&#xff1a; 在eclipse中启动Tomcat后&#xff0c;在浏览器中访问localhost:8080&#xff0c;显示404错误。 在%tomcat_home%/bin中启动startup.sh却可以正常…

漂亮又好用的Redis可视化客户端汇总

因为 Redis 官方只提供了命令行版的 Redis 客户端 redis-cli&#xff0c;以至于我们在使用的时候会比较麻烦&#xff0c;通常要输入一堆命令&#xff0c;而且命令行版的客户端看起来也不够直观&#xff0c;基于以上两个原因我们需要找一个可视化的 Redis 客户端&#xff0c;下面…

python基本的信号与槽函数的使用 信号发射 槽函数接收

# 熟悉信号与槽的使用 # -*- coding: utf-8 -*- from PyQt5.QtWidgets import * from PyQt5.QtCore import * import sys# 创建信号类 class QTypeSigner(QObject):# 定义一个信号sendmsg pyqtSignal(object)def __init__(self):super(QTypeSigner, self).__init__()def run(s…

Linux 高性能服务器编程——多线程编程

问题聚焦&#xff1a;在简单地介绍线程的基本知识之后&#xff0c;主要讨论三个方面的内容&#xff1a; 1 创建线程和结束线程&#xff1b; 2 读取和设置线程属性&#xff1b; 3 线程同步方式&#xff1a;POSIX信号量&#xff0c;互斥锁和条件变量。Linux线程概述线程…

图解Redis事务机制

作为关系型数据库中一项非常重要的基础功能——事务&#xff0c;在 Redis 中是如何处理并使用的&#xff1f;1.前言事务指的是提供一种将多个命令打包&#xff0c;一次性按顺序地执行的机制&#xff0c;并且保证服务器只有在执行完事务中的所有命令后&#xff0c;才会继续处理此…

Redis事务深入解析和使用

作为关系型数据库中一项非常重要的基础功能——事务&#xff0c;在 Redis 中是如何处理并使用的&#xff1f; 1.前言 事务指的是提供一种将多个命令打包&#xff0c;一次性按顺序地执行的机制&#xff0c;并且保证服务器只有在执行完事务中的所有命令后&#xff0c;才会继续处…

局域网在线设备扫描工具V2.0软件说明

软件简介&#xff1a; 一个场所的在线设备&#xff08;例如&#xff1a;监控摄像头或计算机&#xff09;一般都处在同一个局域网内&#xff0c;当在调试和维护在线设备时&#xff0c;如果不知道在线设备的IP地址&#xff0c;可以使用本工具扫描局域网内在线设备的IP地址和MAC地…

漫画:什么是归并排序?

————— 第二天 —————————————————举个例子&#xff0c;有A、B、C、D、E、F、G、H一共8个武术家参考参加比武大会。第一轮&#xff0c;两两一组&#xff0c;有4名选手胜出&#xff08;四分之一决赛&#xff09;第二轮&#xff0c;两两一组&#xff0c;有…

世界上没有技术驱动型公司

点击上方“Java中文社群”&#xff0c;选择“设为星标”终身学习者&#xff0c;以编程为乐&#xff01;来源&#xff1a;zhihu.com/question/312019918/answer/608965942作者介绍&#xff1a;智煜徽&#xff0c;洛林大学计算机专业研究生&#xff0c;现就职于华为&#xff0c;从…

单片机Proteus7.8仿真和Proteus8.6仿真 LED点阵 温度采集 电子琴 温度报警 电子秤 音乐播放器 PWM 电压表 温度计 交通灯

单片机Proteus7.8仿真&#xff1a; 单片机Proteus8.6仿真&#xff1a; 下载地址&#xff1a; 关注公众号&#xff0c;获取资料 部分仿真图&#xff1a; 下载地址&#xff1a; 关注公众号&#xff0c;获取资料

InnoDB的内存结构和特性

常言说得好&#xff0c;每个成功男人背后都有一个为他默默付出的女人&#xff0c;而对于MySQL来说&#xff0c;这个“人”就是InnoDB存储引擎。MySQL区别于其他数据库的最为重要的特点就是其插件式的表存储引擎。而在众多存储引擎中&#xff0c;InnoDB是最为常用的存储引擎。从…

Maven必知的7个问题,你会吗?

点击上方“Java中文社群”&#xff0c;选择“设为星标”终身学习者&#xff0c;以编程为乐&#xff01;原文&#xff1a;https://www.jianshu.com/p/20b39ab6a88c在如今的互联网项目开发当中&#xff0c;特别是Java领域&#xff0c;可以说Maven随处可见。Maven的仓库管理、依赖…

Linux 小知识翻译 - 「Linux的吉祥物企鹅叫什么名字?」

这次说说Linux的吉祥物 *企鹅* 都知道Linux的吉祥物是企鹅&#xff0c;但是这个企鹅叫什么名字呢&#xff1f; 它的名字就是「Tux」&#xff0c;注意可不是「Tax」(税收)。 具体参考 wiki&#xff1a;中文解释 英文的解释更为详细一些&#xff1a;英文解释 Linux内核发展到 v2…

WordPress修改WordPress地址和站点地址之后无法打开网站和无法后台登录

WordPress地址一定不要修改。 WordPress修改WordPress地址和站点地址之后无法打开网站和无法后台登录的解决方法&#xff1a; 1、使用ssh登录服务器 xshell、SecureCRT等工具均可。 2、登录MySQL数据库 使用如下指令后&#xff0c;输入密码&#xff0c;打开mysql数据库&am…

从JVM入手,聊聊Java的学习和复习!

我们在学习的时候&#xff0c;经常会遇到这样一个问题&#xff1a;「学完就忘」这个问题大部分人都会遇到&#xff0c;那么我们今天就来聊聊&#xff0c;为啥会学了就忘呢&#xff1f;我根据自己的学习经验&#xff0c;大致总结以下三点原因&#xff1a;1、知识没有用起来2、没…

Activity和Service交互

2019独角兽企业重金招聘Python工程师标准>>> As discussed in the Services document, you can create a service that is both started and bound. That is, the service can be started by calling startService(), which allows the service to run indefinitely…