正则表达式例子
检查对子
在此示例中,我们将使用以下帮助函数来更优雅地显示匹配对象:
def displaymatch(match): if match is None: return None return '' % (match.group(), match.groups())
假设你在写一个扑克程序,一个玩家的一手牌为五个字符的串,每个字符表示一张牌,"a" 就是 A, "k" K, "q" Q, "j" J, "t" 为 10, "2" 到 "9" 表示2 到 9。
要看给定的字符串是否有效,我们可以按照以下步骤
>>>>>> valid = re.compile(r"^[a2-9tjqk]{5}$")>>> displaymatch(valid.match("akt5q")) # Valid."">>> displaymatch(valid.match("akt5e")) # Invalid.>>> displaymatch(valid.match("akt")) # Invalid.>>> displaymatch(valid.match("727ak")) # Valid.""
最后一手牌,"727ak" ,包含了一个对子,或者两张同样数值的牌。要用正则表达式匹配它,应该使用向后引用如下
>>>>>> pair = re.compile(r".*(.).*\1")>>> displaymatch(pair.match("717ak")) # Pair of 7s."">>> displaymatch(pair.match("718ak")) # No pairs.>>> displaymatch(pair.match("354aa")) # Pair of aces.""
要找出这对组成的卡,可以按以下方式使用match对象的group()方法:
>>>pair.match("717ak").group(1)'7'# Error because re.match() returns None, which doesn't have a group() method:>>>pair.match("718ak").group(1)Traceback (most recent call last):File "", line 1, in re.match(r".*(.).*\1", "718ak").group(1)AttributeError: 'NoneType' object has no attribute 'group'>>>pair.match("354aa").group(1)'a'
模拟 scanf()
Python 目前没有一个类似c函数 scanf() 的替代品。正则表达式通常比 scanf() 格式字符串要更强大一些,但也带来更多复杂性。下面的表格提供了 scanf() 格式符和正则表达式大致相同的映射。
scanf() 格式符正则表达式%c.
%5c.{5}
%d[-+]?\d+
%e, %E, %f, %g[-+]?(\d+(\.\d*)?|\.\d+)([eE][-+]?\d+)?
%i[-+]?(0[xX][\dA-Fa-f]+|0[0-7]*|\d+)
%o[-+]?[0-7]+
%s\S+
%u\d+
%x, %X[-+]?(0[xX])?[\dA-Fa-f]+
从文件名和数字提取字符串
/usr/sbin/sendmail - 0 errors, 4 warnings
你可以使用 scanf() 格式化
%s - %d errors, %d warnings
等价的正则表达式是:
(\S+) - (\d+) errors, (\d+) warnings
search() vs. match()
Python 提供了两种不同的操作:基于 re.match() 检查字符串开头,或者 re.search() 检查字符串的任意位置(默认Perl中的行为)。
例如
>>>>>> re.match("c", "abcdef") # No match>>> re.search("c", "abcdef") # Match
在 search() 中,可以用 '^' 作为开始来限制匹配到字符串的首位
>>>>>> re.match("c", "abcdef") # No match>>> re.search("^c", "abcdef") # No match>>> re.search("^a", "abcdef") # Match
注意 MULTILINE 多行模式中函数 match() 只匹配字符串的开始,但使用 search() 和以 '^' 开始的正则表达式会匹配每行的开始
>>>>>> re.match('X', 'A\nB\nX', re.MULTILINE) # No match>>> re.search('^X', 'A\nB\nX', re.MULTILINE) # Match
建立一个电话本
split() 将字符串用参数传递的样式分隔开。这个方法对于转换文本数据到易读而且容易修改的数据结构,是很有用的,如下面的例子证明。
首先,这是输入。通常它可能来自文件,这里我们使用三引号字符串语法:
>>>>>> text = """Ross McFluff: 834.345.1254 155 Elm Street...... Ronald Heathmore: 892.345.3428 436 Finley Avenue... Frank Burger: 925.541.7625 662 South Dogwood Way......... Heather Albrecht: 548.326.4584 919 Park Place"""
条目用一个或者多个换行符分开。现在我们将字符串转换为一个列表,每个非空行都有一个条目:
>>> entries = re.split("\n+", text)>>> entries['Ross McFluff: 834.345.1254 155 Elm Street','Ronald Heathmore: 892.345.3428 436 Finley Avenue','Frank Burger: 925.541.7625 662 South Dogwood Way','Heather Albrecht: 548.326.4584 919 Park Place']
最终,将每个条目分割为一个由名字、姓氏、电话号码和地址组成的列表。我们为 split() 使用了 maxsplit 形参,因为地址中包含有被我们作为分割模式的空格符:
>>> [re.split(":? ", entry, 3) for entry in entries][['Ross', 'McFluff', '834.345.1254', '155 Elm Street'],['Ronald', 'Heathmore', '892.345.3428', '436 Finley Avenue'],['Frank', 'Burger', '925.541.7625', '662 South Dogwood Way'],['Heather', 'Albrecht', '548.326.4584', '919 Park Place']]
:? 样式匹配姓后面的冒号,因此它不出现在结果列表中。如果 maxsplit 设置为 4 ,我们还可以从地址中获取到房间号:
>>> [re.split(":? ", entry, 4) for entry in entries][['Ross', 'McFluff', '834.345.1254', '155', 'Elm Street'],['Ronald', 'Heathmore', '892.345.3428', '436', 'Finley Avenue'],['Frank', 'Burger', '925.541.7625', '662', 'South Dogwood Way'],['Heather', 'Albrecht', '548.326.4584', '919', 'Park Place']]
文字整理
sub() 替换字符串中出现的样式的每一个实例。这个例子证明了使用 sub() 来整理文字,或者随机化每个字符的位置,除了首位和末尾字符
>>>>>> def repl(m):... inner_word = list(m.group(2))... random.shuffle(inner_word)... return m.group(1) + "".join(inner_word) + m.group(3)>>> text = "Professor Abdolmalek, please report your absences promptly.">>> re.sub(r"(\w)(\w+)(\w)", repl, text)'Poefsrosr Aealmlobdk, pslaee reorpt your abnseces plmrptoy.'>>> re.sub(r"(\w)(\w+)(\w)", repl, text)'Pofsroser Aodlambelk, plasee reoprt yuor asnebces potlmrpy.'
找到所有副词
findall() 匹配样式 所有 的出现,不仅是像 search() 中的第一个匹配。比如,如果一个作者希望找到文字中的所有副词,他可能会按照以下方法用 findall()
>>>>>> text = "He was carefully disguised but captured quickly by police.">>> re.findall(r"\w+ly", text)['carefully', 'quickly']
找到所有副词和位置
如果需要匹配样式的更多信息, finditer() 可以起到作用,它提供了 匹配对象 作为返回值,而不是字符串。继续上面的例子,如果一个作者希望找到所有副词和它的位置,可以按照下面方法使用 finditer()
>>>>>> text = "He was carefully disguised but captured quickly by police.">>> for m in re.finditer(r"\w+ly", text):... print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))07-16: carefully40-47: quickly
原始字符记法
原始字符串记法 (r"text") 保持正则表达式正常。否则,每个正则式里的反斜杠('\') 都必须前缀一个反斜杠来转义。比如,下面两行代码功能就是完全一致的
>>>>>> re.match(r"\W(.)\1\W", " ff ")>>> re.match("\\W(.)\\1\\W", " ff ")
当需要匹配一个字符反斜杠,它必须在正则表达式中转义。在原始字符串记法,就是 r"\\"。否则就必须用 "\\\\",来表示同样的意思
>>>>>> re.match(r"\\", r"\\")>>> re.match("\\\\", r"\\")
写一个词法分析器
一个 词法器或词法分析器 分析字符串,并分类成目录组。这是写一个编译器或解释器的第一步。
文字目录是由正则表达式指定的。这个技术是通过将这些样式合并为一个主正则式,并且循环匹配来实现的
import collectionsimport reToken = collections.namedtuple('Token', ['type', 'value', 'line', 'column'])def tokenize(code):keywords = {'IF', 'THEN', 'ENDIF', 'FOR', 'NEXT', 'GOSUB', 'RETURN'}token_specification = [('NUMBER', r'\d+(\.\d*)?'), # Integer or decimal number('ASSIGN', r':='), # Assignment operator('END', r';'), # Statement terminator('ID', r'[A-Za-z]+'), # Identifiers('OP', r'[+\-*/]'), # Arithmetic operators('NEWLINE', r'\n'), # Line endings('SKIP', r'[ \t]+'), # Skip over spaces and tabs('MISMATCH', r'.'), # Any other character]tok_regex = '|'.join('(?P%s)' % pair for pair in token_specification)line_num = 1line_start = 0for mo in re.finditer(tok_regex, code):kind = mo.lastgroupvalue = mo.group()column = mo.start() - line_startif kind == 'NUMBER':value = float(value) if '.' in value else int(value)elif kind == 'ID' and value in keywords:kind = valueelif kind == 'NEWLINE':line_start = mo.end()line_num += 1continueelif kind == 'SKIP':continueelif kind == 'MISMATCH':raise RuntimeError(f'{value!r} unexpected on line {line_num}')yield Token(kind, value, line_num, column)statements = '''IF quantity THENtotal := total + price * quantity;tax := price * 0.05;ENDIF;'''for token in tokenize(statements):print(token)
这个词法器产生以下输出
Token(type='IF', value='IF', line=2, column=4)Token(type='ID', value='quantity', line=2, column=7)Token(type='THEN', value='THEN', line=2, column=16)Token(type='ID', value='total', line=3, column=8)Token(type='ASSIGN', value=':=', line=3, column=14)Token(type='ID', value='total', line=3, column=17)Token(type='OP', value='+', line=3, column=23)Token(type='ID', value='price', line=3, column=25)Token(type='OP', value='*', line=3, column=31)Token(type='ID', value='quantity', line=3, column=33)Token(type='END', value=';', line=3, column=41)Token(type='ID', value='tax', line=4, column=8)Token(type='ASSIGN', value=':=', line=4, column=12)Token(type='ID', value='price', line=4, column=15)Token(type='OP', value='*', line=4, column=21)Token(type='NUMBER', value=0.05, line=4, column=23)Token(type='END', value=';', line=4, column=27)Token(type='ENDIF', value='ENDIF', line=5, column=4)Token(type='END', value=';', line=5, column=9)
正则表达式例子
检查对子
在此示例中,我们将使用以下帮助函数来更优雅地显示匹配对象:
def displaymatch(match): if match is None: return None return '' % (match.group(), match.groups())
假设你在写一个扑克程序,一个玩家的一手牌为五个字符的串,每个字符表示一张牌,"a" 就是 A, "k" K, "q" Q, "j" J, "t" 为 10, "2" 到 "9" 表示2 到 9。
要看给定的字符串是否有效,我们可以按照以下步骤
>>>>>> valid = re.compile(r"^[a2-9tjqk]{5}$")>>> displaymatch(valid.match("akt5q")) # Valid."">>> displaymatch(valid.match("akt5e")) # Invalid.>>> displaymatch(valid.match("akt")) # Invalid.>>> displaymatch(valid.match("727ak")) # Valid.""
最后一手牌,"727ak" ,包含了一个对子,或者两张同样数值的牌。要用正则表达式匹配它,应该使用向后引用如下
>>>>>> pair = re.compile(r".*(.).*\1")>>> displaymatch(pair.match("717ak")) # Pair of 7s."">>> displaymatch(pair.match("718ak")) # No pairs.>>> displaymatch(pair.match("354aa")) # Pair of aces.""
要找出这对组成的卡,可以按以下方式使用match对象的group()方法:
>>>pair.match("717ak").group(1)'7'# Error because re.match() returns None, which doesn't have a group() method:>>>pair.match("718ak").group(1)Traceback (most recent call last):File "", line 1, in re.match(r".*(.).*\1", "718ak").group(1)AttributeError: 'NoneType' object has no attribute 'group'>>>pair.match("354aa").group(1)'a'
模拟 scanf()
Python 目前没有一个类似c函数 scanf() 的替代品。正则表达式通常比 scanf() 格式字符串要更强大一些,但也带来更多复杂性。下面的表格提供了 scanf() 格式符和正则表达式大致相同的映射。
scanf() 格式符正则表达式%c.
%5c.{5}
%d[-+]?\d+
%e, %E, %f, %g[-+]?(\d+(\.\d*)?|\.\d+)([eE][-+]?\d+)?
%i[-+]?(0[xX][\dA-Fa-f]+|0[0-7]*|\d+)
%o[-+]?[0-7]+
%s\S+
%u\d+
%x, %X[-+]?(0[xX])?[\dA-Fa-f]+
从文件名和数字提取字符串
/usr/sbin/sendmail - 0 errors, 4 warnings
你可以使用 scanf() 格式化
%s - %d errors, %d warnings
等价的正则表达式是:
(\S+) - (\d+) errors, (\d+) warnings
search() vs. match()
Python 提供了两种不同的操作:基于 re.match() 检查字符串开头,或者 re.search() 检查字符串的任意位置(默认Perl中的行为)。
例如
>>>>>> re.match("c", "abcdef") # No match>>> re.search("c", "abcdef") # Match
在 search() 中,可以用 '^' 作为开始来限制匹配到字符串的首位
>>>>>> re.match("c", "abcdef") # No match>>> re.search("^c", "abcdef") # No match>>> re.search("^a", "abcdef") # Match
注意 MULTILINE 多行模式中函数 match() 只匹配字符串的开始,但使用 search() 和以 '^' 开始的正则表达式会匹配每行的开始
>>>>>> re.match('X', 'A\nB\nX', re.MULTILINE) # No match>>> re.search('^X', 'A\nB\nX', re.MULTILINE) # Match
建立一个电话本
split() 将字符串用参数传递的样式分隔开。这个方法对于转换文本数据到易读而且容易修改的数据结构,是很有用的,如下面的例子证明。
首先,这是输入。通常它可能来自文件,这里我们使用三引号字符串语法:
>>>>>> text = """Ross McFluff: 834.345.1254 155 Elm Street...... Ronald Heathmore: 892.345.3428 436 Finley Avenue... Frank Burger: 925.541.7625 662 South Dogwood Way......... Heather Albrecht: 548.326.4584 919 Park Place"""
条目用一个或者多个换行符分开。现在我们将字符串转换为一个列表,每个非空行都有一个条目:
>>> entries = re.split("\n+", text)>>> entries['Ross McFluff: 834.345.1254 155 Elm Street','Ronald Heathmore: 892.345.3428 436 Finley Avenue','Frank Burger: 925.541.7625 662 South Dogwood Way','Heather Albrecht: 548.326.4584 919 Park Place']
最终,将每个条目分割为一个由名字、姓氏、电话号码和地址组成的列表。我们为 split() 使用了 maxsplit 形参,因为地址中包含有被我们作为分割模式的空格符:
>>> [re.split(":? ", entry, 3) for entry in entries][['Ross', 'McFluff', '834.345.1254', '155 Elm Street'],['Ronald', 'Heathmore', '892.345.3428', '436 Finley Avenue'],['Frank', 'Burger', '925.541.7625', '662 South Dogwood Way'],['Heather', 'Albrecht', '548.326.4584', '919 Park Place']]
:? 样式匹配姓后面的冒号,因此它不出现在结果列表中。如果 maxsplit 设置为 4 ,我们还可以从地址中获取到房间号:
>>> [re.split(":? ", entry, 4) for entry in entries][['Ross', 'McFluff', '834.345.1254', '155', 'Elm Street'],['Ronald', 'Heathmore', '892.345.3428', '436', 'Finley Avenue'],['Frank', 'Burger', '925.541.7625', '662', 'South Dogwood Way'],['Heather', 'Albrecht', '548.326.4584', '919', 'Park Place']]
文字整理
sub() 替换字符串中出现的样式的每一个实例。这个例子证明了使用 sub() 来整理文字,或者随机化每个字符的位置,除了首位和末尾字符
>>>>>> def repl(m):... inner_word = list(m.group(2))... random.shuffle(inner_word)... return m.group(1) + "".join(inner_word) + m.group(3)>>> text = "Professor Abdolmalek, please report your absences promptly.">>> re.sub(r"(\w)(\w+)(\w)", repl, text)'Poefsrosr Aealmlobdk, pslaee reorpt your abnseces plmrptoy.'>>> re.sub(r"(\w)(\w+)(\w)", repl, text)'Pofsroser Aodlambelk, plasee reoprt yuor asnebces potlmrpy.'
找到所有副词
findall() 匹配样式 所有 的出现,不仅是像 search() 中的第一个匹配。比如,如果一个作者希望找到文字中的所有副词,他可能会按照以下方法用 findall()
>>>>>> text = "He was carefully disguised but captured quickly by police.">>> re.findall(r"\w+ly", text)['carefully', 'quickly']
找到所有副词和位置
如果需要匹配样式的更多信息, finditer() 可以起到作用,它提供了 匹配对象 作为返回值,而不是字符串。继续上面的例子,如果一个作者希望找到所有副词和它的位置,可以按照下面方法使用 finditer()
>>>>>> text = "He was carefully disguised but captured quickly by police.">>> for m in re.finditer(r"\w+ly", text):... print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))07-16: carefully40-47: quickly
原始字符记法
原始字符串记法 (r"text") 保持正则表达式正常。否则,每个正则式里的反斜杠('\') 都必须前缀一个反斜杠来转义。比如,下面两行代码功能就是完全一致的
>>>>>> re.match(r"\W(.)\1\W", " ff ")>>> re.match("\\W(.)\\1\\W", " ff ")
当需要匹配一个字符反斜杠,它必须在正则表达式中转义。在原始字符串记法,就是 r"\\"。否则就必须用 "\\\\",来表示同样的意思
>>>>>> re.match(r"\\", r"\\")>>> re.match("\\\\", r"\\")
写一个词法分析器
一个 词法器或词法分析器 分析字符串,并分类成目录组。这是写一个编译器或解释器的第一步。
文字目录是由正则表达式指定的。这个技术是通过将这些样式合并为一个主正则式,并且循环匹配来实现的
import collectionsimport reToken = collections.namedtuple('Token', ['type', 'value', 'line', 'column'])def tokenize(code):keywords = {'IF', 'THEN', 'ENDIF', 'FOR', 'NEXT', 'GOSUB', 'RETURN'}token_specification = [('NUMBER', r'\d+(\.\d*)?'), # Integer or decimal number('ASSIGN', r':='), # Assignment operator('END', r';'), # Statement terminator('ID', r'[A-Za-z]+'), # Identifiers('OP', r'[+\-*/]'), # Arithmetic operators('NEWLINE', r'\n'), # Line endings('SKIP', r'[ \t]+'), # Skip over spaces and tabs('MISMATCH', r'.'), # Any other character]tok_regex = '|'.join('(?P%s)' % pair for pair in token_specification)line_num = 1line_start = 0for mo in re.finditer(tok_regex, code):kind = mo.lastgroupvalue = mo.group()column = mo.start() - line_startif kind == 'NUMBER':value = float(value) if '.' in value else int(value)elif kind == 'ID' and value in keywords:kind = valueelif kind == 'NEWLINE':line_start = mo.end()line_num += 1continueelif kind == 'SKIP':continueelif kind == 'MISMATCH':raise RuntimeError(f'{value!r} unexpected on line {line_num}')yield Token(kind, value, line_num, column)statements = '''IF quantity THENtotal := total + price * quantity;tax := price * 0.05;ENDIF;'''for token in tokenize(statements):print(token)
这个词法器产生以下输出
Token(type='IF', value='IF', line=2, column=4)Token(type='ID', value='quantity', line=2, column=7)Token(type='THEN', value='THEN', line=2, column=16)Token(type='ID', value='total', line=3, column=8)Token(type='ASSIGN', value=':=', line=3, column=14)Token(type='ID', value='total', line=3, column=17)Token(type='OP', value='+', line=3, column=23)Token(type='ID', value='price', line=3, column=25)Token(type='OP', value='*', line=3, column=31)Token(type='ID', value='quantity', line=3, column=33)Token(type='END', value=';', line=3, column=41)Token(type='ID', value='tax', line=4, column=8)Token(type='ASSIGN', value=':=', line=4, column=12)Token(type='ID', value='price', line=4, column=15)Token(type='OP', value='*', line=4, column=21)Token(type='NUMBER', value=0.05, line=4, column=23)Token(type='END', value=';', line=4, column=27)Token(type='ENDIF', value='ENDIF', line=5, column=4)Token(type='END', value=';', line=5, column=9)