python正则表达式处理txt_Python文本处理服务（re正则表达式例子）

正则表达式例子

检查对子

在此示例中，我们将使用以下帮助函数来更优雅地显示匹配对象：

def displaymatch(match): if match is None: return None return '' % (match.group(), match.groups())

假设你在写一个扑克程序，一个玩家的一手牌为五个字符的串，每个字符表示一张牌，"a" 就是 A, "k" K， "q" Q, "j" J, "t" 为 10, "2" 到 "9" 表示2 到 9。

要看给定的字符串是否有效，我们可以按照以下步骤

>>>>>> valid = re.compile(r"^[a2-9tjqk]{5}$")>>> displaymatch(valid.match("akt5q")) # Valid."">>> displaymatch(valid.match("akt5e")) # Invalid.>>> displaymatch(valid.match("akt")) # Invalid.>>> displaymatch(valid.match("727ak")) # Valid.""

最后一手牌，"727ak" ，包含了一个对子，或者两张同样数值的牌。要用正则表达式匹配它，应该使用向后引用如下

>>>>>> pair = re.compile(r".*(.).*\1")>>> displaymatch(pair.match("717ak")) # Pair of 7s."">>> displaymatch(pair.match("718ak")) # No pairs.>>> displaymatch(pair.match("354aa")) # Pair of aces.""

要找出这对组成的卡，可以按以下方式使用match对象的group()方法：

>>>pair.match("717ak").group(1)'7'# Error because re.match() returns None, which doesn't have a group() method:>>>pair.match("718ak").group(1)Traceback (most recent call last):File "", line 1, in re.match(r".*(.).*\1", "718ak").group(1)AttributeError: 'NoneType' object has no attribute 'group'>>>pair.match("354aa").group(1)'a'

模拟 scanf()

Python 目前没有一个类似c函数 scanf() 的替代品。正则表达式通常比 scanf() 格式字符串要更强大一些，但也带来更多复杂性。下面的表格提供了 scanf() 格式符和正则表达式大致相同的映射。

scanf() 格式符正则表达式%c.

%5c.{5}

%d[-+]?\d+

%e, %E, %f, %g[-+]?(\d+(\.\d*)?|\.\d+)([eE][-+]?\d+)?

%i[-+]?(0[xX][\dA-Fa-f]+|0[0-7]*|\d+)

%o[-+]?[0-7]+

%s\S+

%u\d+

%x, %X[-+]?(0[xX])?[\dA-Fa-f]+

从文件名和数字提取字符串

/usr/sbin/sendmail - 0 errors, 4 warnings

你可以使用 scanf() 格式化

%s - %d errors, %d warnings

等价的正则表达式是：

(\S+) - (\d+) errors, (\d+) warnings

search() vs. match()

Python 提供了两种不同的操作：基于 re.match() 检查字符串开头，或者 re.search() 检查字符串的任意位置(默认Perl中的行为)。

例如

>>>>>> re.match("c", "abcdef") # No match>>> re.search("c", "abcdef") # Match

在 search() 中，可以用 '^' 作为开始来限制匹配到字符串的首位

>>>>>> re.match("c", "abcdef") # No match>>> re.search("^c", "abcdef") # No match>>> re.search("^a", "abcdef") # Match

注意 MULTILINE 多行模式中函数 match() 只匹配字符串的开始，但使用 search() 和以 '^' 开始的正则表达式会匹配每行的开始

>>>>>> re.match('X', 'A\nB\nX', re.MULTILINE) # No match>>> re.search('^X', 'A\nB\nX', re.MULTILINE) # Match

建立一个电话本

split() 将字符串用参数传递的样式分隔开。这个方法对于转换文本数据到易读而且容易修改的数据结构，是很有用的，如下面的例子证明。

首先，这是输入。通常它可能来自文件，这里我们使用三引号字符串语法：

>>>>>> text = """Ross McFluff: 834.345.1254 155 Elm Street...... Ronald Heathmore: 892.345.3428 436 Finley Avenue... Frank Burger: 925.541.7625 662 South Dogwood Way......... Heather Albrecht: 548.326.4584 919 Park Place"""

条目用一个或者多个换行符分开。现在我们将字符串转换为一个列表，每个非空行都有一个条目:

>>> entries = re.split("\n+", text)>>> entries['Ross McFluff: 834.345.1254 155 Elm Street','Ronald Heathmore: 892.345.3428 436 Finley Avenue','Frank Burger: 925.541.7625 662 South Dogwood Way','Heather Albrecht: 548.326.4584 919 Park Place']

最终，将每个条目分割为一个由名字、姓氏、电话号码和地址组成的列表。我们为 split() 使用了 maxsplit 形参，因为地址中包含有被我们作为分割模式的空格符:

>>> [re.split(":? ", entry, 3) for entry in entries][['Ross', 'McFluff', '834.345.1254', '155 Elm Street'],['Ronald', 'Heathmore', '892.345.3428', '436 Finley Avenue'],['Frank', 'Burger', '925.541.7625', '662 South Dogwood Way'],['Heather', 'Albrecht', '548.326.4584', '919 Park Place']]

:? 样式匹配姓后面的冒号，因此它不出现在结果列表中。如果 maxsplit 设置为 4 ，我们还可以从地址中获取到房间号:

>>> [re.split(":? ", entry, 4) for entry in entries][['Ross', 'McFluff', '834.345.1254', '155', 'Elm Street'],['Ronald', 'Heathmore', '892.345.3428', '436', 'Finley Avenue'],['Frank', 'Burger', '925.541.7625', '662', 'South Dogwood Way'],['Heather', 'Albrecht', '548.326.4584', '919', 'Park Place']]

文字整理

sub() 替换字符串中出现的样式的每一个实例。这个例子证明了使用 sub() 来整理文字，或者随机化每个字符的位置，除了首位和末尾字符

>>>>>> def repl(m):... inner_word = list(m.group(2))... random.shuffle(inner_word)... return m.group(1) + "".join(inner_word) + m.group(3)>>> text = "Professor Abdolmalek, please report your absences promptly.">>> re.sub(r"(\w)(\w+)(\w)", repl, text)'Poefsrosr Aealmlobdk, pslaee reorpt your abnseces plmrptoy.'>>> re.sub(r"(\w)(\w+)(\w)", repl, text)'Pofsroser Aodlambelk, plasee reoprt yuor asnebces potlmrpy.'

找到所有副词

findall() 匹配样式所有的出现，不仅是像 search() 中的第一个匹配。比如，如果一个作者希望找到文字中的所有副词，他可能会按照以下方法用 findall()

>>>>>> text = "He was carefully disguised but captured quickly by police.">>> re.findall(r"\w+ly", text)['carefully', 'quickly']

找到所有副词和位置

如果需要匹配样式的更多信息， finditer() 可以起到作用，它提供了匹配对象作为返回值，而不是字符串。继续上面的例子，如果一个作者希望找到所有副词和它的位置，可以按照下面方法使用 finditer()

>>>>>> text = "He was carefully disguised but captured quickly by police.">>> for m in re.finditer(r"\w+ly", text):... print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))07-16: carefully40-47: quickly

原始字符记法

原始字符串记法 (r"text") 保持正则表达式正常。否则，每个正则式里的反斜杠('\') 都必须前缀一个反斜杠来转义。比如，下面两行代码功能就是完全一致的

>>>>>> re.match(r"\W(.)\1\W", " ff ")>>> re.match("\\W(.)\\1\\W", " ff ")

当需要匹配一个字符反斜杠，它必须在正则表达式中转义。在原始字符串记法，就是 r"\\"。否则就必须用 "\\\\"，来表示同样的意思

>>>>>> re.match(r"\\", r"\\")>>> re.match("\\\\", r"\\")

写一个词法分析器

一个词法器或词法分析器分析字符串，并分类成目录组。这是写一个编译器或解释器的第一步。

文字目录是由正则表达式指定的。这个技术是通过将这些样式合并为一个主正则式，并且循环匹配来实现的

import collectionsimport reToken = collections.namedtuple('Token', ['type', 'value', 'line', 'column'])def tokenize(code):keywords = {'IF', 'THEN', 'ENDIF', 'FOR', 'NEXT', 'GOSUB', 'RETURN'}token_specification = [('NUMBER', r'\d+(\.\d*)?'), # Integer or decimal number('ASSIGN', r':='), # Assignment operator('END', r';'), # Statement terminator('ID', r'[A-Za-z]+'), # Identifiers('OP', r'[+\-*/]'), # Arithmetic operators('NEWLINE', r'\n'), # Line endings('SKIP', r'[ \t]+'), # Skip over spaces and tabs('MISMATCH', r'.'), # Any other character]tok_regex = '|'.join('(?P%s)' % pair for pair in token_specification)line_num = 1line_start = 0for mo in re.finditer(tok_regex, code):kind = mo.lastgroupvalue = mo.group()column = mo.start() - line_startif kind == 'NUMBER':value = float(value) if '.' in value else int(value)elif kind == 'ID' and value in keywords:kind = valueelif kind == 'NEWLINE':line_start = mo.end()line_num += 1continueelif kind == 'SKIP':continueelif kind == 'MISMATCH':raise RuntimeError(f'{value!r} unexpected on line {line_num}')yield Token(kind, value, line_num, column)statements = '''IF quantity THENtotal := total + price * quantity;tax := price * 0.05;ENDIF;'''for token in tokenize(statements):print(token)

这个词法器产生以下输出

Token(type='IF', value='IF', line=2, column=4)Token(type='ID', value='quantity', line=2, column=7)Token(type='THEN', value='THEN', line=2, column=16)Token(type='ID', value='total', line=3, column=8)Token(type='ASSIGN', value=':=', line=3, column=14)Token(type='ID', value='total', line=3, column=17)Token(type='OP', value='+', line=3, column=23)Token(type='ID', value='price', line=3, column=25)Token(type='OP', value='*', line=3, column=31)Token(type='ID', value='quantity', line=3, column=33)Token(type='END', value=';', line=3, column=41)Token(type='ID', value='tax', line=4, column=8)Token(type='ASSIGN', value=':=', line=4, column=12)Token(type='ID', value='price', line=4, column=15)Token(type='OP', value='*', line=4, column=21)Token(type='NUMBER', value=0.05, line=4, column=23)Token(type='END', value=';', line=4, column=27)Token(type='ENDIF', value='ENDIF', line=5, column=4)Token(type='END', value=';', line=5, column=9)