精通Python中的正则表达式

源码分享
https://docs.qq.com/sheet/DUHNQdlRUVUp5Vll2?tab=BB08J2

正则表达式是一种强大的文本处理工具,广泛应用于字符串搜索、替换、验证等多种场景。Python通过内置的​​re​​模块提供了对正则表达式的支持。在爬虫开发中,能够熟练地使用正则表达式对数据进行提取和处理至关重要。本博客文章将深入探究Python中的正则表达式,并通过具体的代码案例来展示其用法。

什么是正则表达式?

正则表达式(Regular Expression),是一种文本模式,包括普通字符(例如,字母a到z)和特殊字符(称为"元字符")。它通过一个搜索模式定义了搜索或操作字符串的方式。

Python中的正则表达式

在Python中使用正则表达式之前,需要引入​​re​​模块:

import re

搜索文本

​re.search​​函数可以在字符串中搜索匹配正则表达式的第一个位置。

pattern = r"Python"
text = "Learning Python with Python tips"
match = re.search(pattern, text)if match:print("Match found at index:", match.start())

提取匹配

​re.findall​​函数可以找到字符串中所有匹配正则表达式的部分,并返回一个列表。

emails = "contact us: support@example.com, sales@example.com"
matches = re.findall(r'[\w\.-]+@[\w\.-]+', emails)for email in matches:print(email)

替换文本

​re.sub​​函数可以替换文本中的匹配项。

text = "Use of Python 2 has been deprecated, use Python 3 instead."
new_text = re.sub(r"Python 2", "Python 3", text)print(new_text)

分割文本

​re.split​​函数可以用正则表达式来分割字符串。

text = "The rain in Spain"
words = re.split(r'\W+', text)for word in words:print(word)

正则表达式模式

在正则表达式中,可以使用多种模式,例如:

  • ​\d​​ 匹配任意数字
  • ​\w​​ 匹配任意字母数字字符
  • ​\s​​ 匹配任意空白字符
  • ​.​​ 匹配任意单个字符,除了换行符
  • ​*​​ 匹配0个或多个表达式
  • ​+​​ 匹配1个或多个表达式
  • ​?​​ 匹配0个或1个表达式
  • ​{n}​​ 匹配n次
  • ​{n,}​​ 至少匹配n次
  • ​{,m}​​ 最多匹配m次
  • ​{n,m}​​ 至少匹配n次,最多匹配m次

分组提取

分组是正则表达式中一个强大的特性,它允许你提取信息的一部分。

text = "John: +1-555-1234"
match = re.search(r'(\w+): \+(\d+)-(\d+)-(\d+)', text)if match:name, country_code, area_code, number = match.groups()print(f"Name: {name}, Country Code: {country_code}, Area Code: {area_code}, Number: {number}")

非贪婪匹配

默认情况下,​​*​​和​​+​​操作符是“贪婪”的,会尽可能多的匹配文字。非贪婪版本的这些操作符是​​*?​​和​​+?​​,它们尽可能少地匹配文字。

html = "<title>Python or Ruby</title>"
match = re.search(r'<.*?>', html)if match:print(match.group())

结语

正则表达式是一个非常强大的工具,在处理字符串数据时几乎是不可或缺的。在Python中,​​re​​模块提供了一套完整的正则表达式功能,可以帮助开发者执行复杂的文本分析和数据提取任务。通过本文的介绍和案例,希望你能够开始利用正则表达式来增强你的Python爬虫项目。记得,正则表达式虽然强大,但也可能复杂难懂,使用时应确保充分测试以避免错误。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/679908.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

powershell 离线安装Posh-SSH

PowerShell 离线安装 Posh-SSH 模块&#xff0c;可以按照以下步骤进行&#xff1a; 从可靠的来源获取 Posh-SSH 模块的 NuGet 安装包&#xff08;.nupkg 文件&#xff09;。确保该安装包是最新版本&#xff0c;并且与你的 PowerShell 版本兼容。将 NuGet 安装包复制到你的计算…

kafka教程

Kafka 中&#xff0c;Producer采用push模型&#xff0c;而Consumer采用pull模型。 Topic Topic&#xff08;主题&#xff09;是消息的逻辑分类或通道。它是Kafka中用于组织和存储消息的基本单元。一个Topic可以被看作是一个消息发布的地方&#xff0c;生产者将消息发布到一个…

机器学习9-随机森林

随机森林&#xff08;Random Forest&#xff09;是一种集成学习方法&#xff0c;用于改善单一决策树的性能&#xff0c;通过在数据集上构建多个决策树并组合它们的预测结果。它属于一种被称为“集成学习”或“集成学习器”的机器学习范畴。 以下是随机森林的主要特点和原理&…

IT行业含金量高的证书-软考

软考全称计算机技术与软件专业技术资格&#xff08;水平&#xff09;考试&#xff0c;软考既是职业资格考试&#xff0c;又是职称资格考试。2021年12月2号发布新版的国家职业资格目录&#xff0c;软考是在计算机技术领域中的唯一的国家职业资格。 一、好处 软考是一个神奇又特…

【数据结构】14 队列(带头结点的链式存储和顺序存储实现)

定义 队列是一个有序线性表&#xff0c;但是队列的插入、删除操作是分别在线性表的两个不同端点进行的。 设一个队列 Q ( a 1 , a 2 , . . . , a n ) Q (a_1, a_2,...,a_n) Q(a1​,a2​,...,an​)&#xff0c;那么 a 1 a_1 a1​被称为队头元素&#xff0c; a n a_n an​为队…

金融科技力

金融科技 区块链二级目录三级目录 区块链 区块链安全&#xff1a;保密性、完整性、可用性 最重要的点&#xff1a;保密性零知识证明&#xff1a; 1、完整性&#xff08;真的假不了&#xff09; 2、可靠性&#xff08;假的真不了&#xff09; 3、零知识性&#xff08;知道真的&…

手把手教你开发Python桌面应用-PyQt6图书管理系统-图书信息修改实现

锋哥原创的PyQt6图书管理系统视频教程&#xff1a; PyQt6图书管理系统视频教程 Python桌面开发 Python入门级项目实战 (无废话版) 火爆连载更新中~_哔哩哔哩_bilibiliPyQt6图书管理系统视频教程 Python桌面开发 Python入门级项目实战 (无废话版) 火爆连载更新中~共计24条视频&…

从互联网的公开信息中,找到属于你的赚钱思路

一、教程描述 人们在互联网上的每一次搜索、每一次关注、每一次点击、每一次点赞、每一次评论、每一次付费&#xff0c;都生成了大量的数据和信息&#xff0c;暴露着人们的真实想法、欲望、恐惧和需求。这些数据和信息&#xff0c;就是我们身边的一座“金矿”&#xff0c;而大…

项目中的一些疑难杂记

疑难杂记 1. 关于正则表达式对象的匹配状态问题发现查找原因解决方法done 喜大普奔 1. 关于正则表达式对象的匹配状态 问题发现 因页面中多个函数使用到同一个正则表达式&#xff0c;想着定义个变量 export 出去然后在对应的函数中引用&#xff0c;一切正常中… 直到有一天&a…

1【算法】——最大子数组问题(maximum subarray)

一.问题描述 假如我们有一个数组&#xff0c;数组中的元素有正数和负数&#xff0c;如何在数组中找到一段连续的子数组&#xff0c;使得子数组各个元素之和最大。 二.问题分析 分治法求解&#xff1a; 初始状态&#xff1a; low0&#xff1b;highA.length-1&#xff1b;mid&am…

CGAL::2D Arrangements-2

2.3.2 遍历Arrangement Halfedge Arrangement的一条Halfedge是和一个 X_monotone_curve_2对象绑定&#xff0c;这个curve可以通过e->curve()获取。 e->source()得到源点&#xff0c;e->target()得到目标点&#xff0c;e->twin()得到半边的对边&#xff0c; 第个半…

最新的 Ivanti SSRF 零日漏洞正在被大规模利用

Bleeping Computer 网站消息&#xff0c;安全研究员发现 Ivanti Connect Secure 和 Ivanti Policy Secure 服务器端请求伪造 (SSRF) 漏洞&#xff08;CVE-2024-21893 &#xff09;正在被多个威胁攻击者大规模利用。 2024 年 1 月 31 日&#xff0c;Ivanti 首次就网关 SAML 组件…

Java设计模式——策略

前言 策略模式是平时Java开发中常用的一种&#xff0c;虽然已有很多讲解设计模式的文章&#xff0c;但是这里还是写篇文章来从自己理解的角度讲解一下。 使用场景 我们不妨进行场景假设&#xff0c;要对我们的软件进行授权管理&#xff1a;在启动我们的软件之前先要校验是否…

万维网的文档

目录 1 万维网的文档 动态万维网文档 CGI CGI 网关程序 活动万维网文档 用 Java 语言创建活动文档 1 万维网的文档 分为&#xff1a; 静态万维网文档。内容不会改变。简单。(html、xml、css) 动态万维网文档。文档的内容由应用程序动态创建。 活动万维网文档。由浏览器端…

SpringBoot3整合Knife4j

前置&#xff1a; 官网&#xff1a;快速开始 | Knife4j gitee&#xff1a;swagger-bootstrap-ui-demo: knife4j 以及swagger-bootstrap-ui 集成框架示例项目 - Gitee.com 1.依赖引入&#xff1a; ps&#xff1a;json处理需要引入相关包 <dependency><groupId>c…

作业 2.12

封装strlen #include <stdio.h> #include <string.h> int main(int argc, const char *argv[]) { char arr[30]; gets(arr); char *paarr; int i0; int sum0; for(i0;arr[i]!\0;i) { sum; } printf("%d",s…

基于语义解析的知识图谱问答系统

目录 前言1 背景介绍2 语义解析的核心技术2.1 自然语言处理&#xff08;NLP&#xff09;2.2 语义表示学习2.3 实体关系抽取 3 语义解析的基本步骤3.1 短语检测3.2 资源映射3.3 语义组合3.4 逻辑表达式生成 4 处理与知识图谱无关的问句4.1 Bridging技术4.2 确定谓词4.3 Paraphra…

【新书推荐】7.4节 寄存器间接和相对寻址方式

本节内容&#xff1a;当指令操作数为内存操作数&#xff0c;且内存操作数的地址使用指针寄存器表示时&#xff0c;称为寄存器间接寻址方式。 ■寄存器间接寻址方式&#xff1a;在地址表达式中&#xff0c;只能使用BX、SI、DI、BP四个指针寄存器用来寻址。 7.4.1 寄存器间接寻…

猫头虎分享已解决Bug || API限制超额(API Rate Limiting):RateLimitExceeded, APILimitReached

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面试准备的宝典&#xff01;《IDEA开发秘籍》 — 提升你的IDEA技能&#xff01;《100天精通鸿蒙》 …

mysql入门到精通006-基础篇-多表查询

1、多表关系介绍 1.1 概念 项目开发中&#xff0c;在进行数据库表结构设计时&#xff0c;会根据业务需求和业务模块之间的关系&#xff0c;分析并设计表结构&#xff0c;由于业务之间相互关联&#xff0c;所以各个表结构之间也存在各种联系&#xff0c;基本上分为3种&#xf…