Python爬虫之正则表达式与httpx的使用与案例

三、正则表达式

1、实例

模式描述
\w匹配字母、数字以及下划线
\W匹配不是字母、数字以及下划线
\s匹配任意空白字符,等价于[\t\n\r\f]
\S匹配任意非空字符
\d匹配任意数字,等价于[0-9]
\D匹配任意非数字的字符
\A匹配字符串开头
\Z匹配字符串结尾。如果存在换号,只匹配到换行符前的结束字符串
\z匹配字符串结尾。如果存在换行,同时还会匹配换行符
\G匹配最后匹配完成的位置
\n匹配一个换行符
\t匹配一个制表符
^匹配一行字符串的开头
$匹配一行字符串的结尾
.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,可以匹配包括换行符的任意字符
[…]用来表示一组字符,单独列出,例如[amk]用来匹配a、m或k
[^…]匹配不在[]中的字符,例如匹配除了a、b、c之外的字符
*匹配0个或多个表达式
+匹配1个或多个表达式
?匹配0个或1个前面的正则表达式定义的片段,非贪婪方式
{n}精确匹配n个前面的表达式
{n,m}匹配n次到m次由前面正则表达式定义的片段,贪婪方式
a|b匹配a或b
()匹配括号内的表达式,也表示一个组

2、match

​ 常用的匹配方法–match,向它传入要匹配的字符串以及正则表达式,就可以检测这个正则表达式是否和字符串相匹配。match方法会从字符串的起始位置开始匹配正则表达式,如果匹配,返回匹配成功的结果,否则None

import recontent = 'Hello 123 4567 world_This is a Regex Demo'
print(len(content))		# 41
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(result)			# <re.Match object...
print(result.group())	# Hello 123 4567 world_This
print(result.span())	# (0, 25)
  • group方法可以输出匹配到的内容
  • span方法可以输出匹配的范围

2.1、匹配目标

​ 使用括号()将想要提取的字符串括起来。()实际上标记了一个子表达式的开始和结束位置,被标记的每个子表达式依此对应每个分组,调用group方法传入分组的索引即可获得提取结果

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld',content)
print(result)			# <re.Match object;...
print(result.group())	# Hello 1234567 World
print(result.group(1))	# 1234567
print(result.span())	# (0, 19)# 成功得到被括号括起来的1234567,group()会输出完整的匹配结果,而group(1)会输出第一个括号的匹配结果,同理,若还有括号,可group(2)、group(3)...

2.2、通用匹配

​ 上述空白字符需要写\s匹配、数字\d匹配,量大。因此,万能匹配:.* 其中.可以匹配任意字符(除换行符),*代表匹配前面字符无数次。改写上述代码:

content = 'Hello 123 4567 world_This is a Regex Demo'
result = re.match('^Hello.*Demo$',content)
print(result)			# <re.Match object...
print(result.group())	# Hello 123 4567 world_This is a Regex Demo
print(result.span())	# (0, 41)

2.3、贪婪与非贪婪

  • 贪婪匹配下、*.会匹配尽可能多的字符

  • 非贪婪匹配、.*?会匹配尽可能少的字符、但如果匹配的结果在字符串结尾,则可能匹配不到任何内容。

import re
content = 'Hello 1234567 World_This is a Regex Demo'
result1 = re.match('^He.*(\d+).*Demo$',content)
result2 = re.match('^He.*?(\d+).*Demo$',content)
print(result1.group(1))		# 7	
print(result2.group(1))		# 1234567# 贪婪匹配下、.*把123456都匹配了,只剩下7给\d+匹配。
# 非贪婪匹配下、.*?把1234567交给\d+匹配。

2.4、修饰符

当遇到换行符时,.*?就不能匹配了。此时,加上修饰符re.S即可修正。

import re
content = '''Hello 1234567 World_This
is a Regex Demo'''
result = re.match('^He.*?(\d+).*?Demo$',content,re.S)
print(result.group(1))		# 1234567
修饰符描述
re.I使匹配对大小写不敏感
re.L实现本地化识别(locale-aware)匹配
re.M多行匹配,影响^和$
re.S使匹配内容包括换行符在内的所有字符
re.U根据Unicode字符集解析字符,这个标志会影响\w、\W、\b和\B\
re.X该标志能够给予你更灵活的格式,以便将正则表达式书写的便于理解

2.5、转义匹配

当目标字符串中遇到用作正则匹配模式的特殊字符时,在 此字符前面加反斜杠\转义一下即可。

content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com',content)
print(result)  # <re.Match object; span=(0, 17), match='(百度)www.baidu.com'>

2.6、search

​ **search方法在匹配时会扫描整个字符串,然后返回第一个匹配成功的结果。**也就是说,正则表达式可以是字符串的一部分。在匹配时,search方法会依次以每个字符作为开头扫描字符串,直到找到第一个符合规则的字符串,然后返回匹配的内容。

content = 'Extra stings Hello 1234567 World_This s Regex Demo Extra    stings'
result = re.search('Hello.*?(\d+).*?Demo',content)
print(result)	# 1234567

2.7、findall

findall方法能获取与正则表达式相匹配的所有字符串。其返回的结果是列表类型,需要通过遍历来依次获取每组内容。

# 上述代码改写
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
for result in results:# print(result)print(result[0],result[1],result[2])#/2.mp3 任贤齐 沧海一声笑
#/3.mp3 齐泰 往事随风
#/4.mp3 beyond 光辉岁月
#/5.mp3 陈慧琳 记事本
#/6.mp3 邓丽君 但愿人长久

2.8、sub

​ 除了使用正则表达式提取信息,还可借助来修改文本。

content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+','',content)
print(content)# aKyroiRixLg
# sub()方法中的第一个参数传入\d+匹配所有数字,第二个参数中传入把数字替换成的字符串,第三个参数是原字符串。html = re.sub('<a.*?>|</a>','',html)
print(html)
results = re.findall('<li.*?>(.*?)</li>',html,re.S)
for result in results:print(result.strip())
# 一路上有你
#沧海一声笑
#往事随风
#光辉岁月
#记事本
#但愿人长久
# sub方法处理后,a节点就没有了,然后findall方法直接提取即可。

2.9、compile

  • compile可以将正则表达式编译成正则表达式对象,以便在后面的匹配中复用
  • 可以说compile方法是给正则表达式做了一层封装。
content1 = '2019-12-15 12:00'
content2 = '2019-12-17 12:55'
content3 = '2019-12-22 12:55'
pattern = re.compile('\d{2}:\d{2}')		# 去掉时间正则表达式
result1 = re.sub(pattern,'',content1)	# 复用
result2 = re.sub(pattern,'',content2)
result3 = re.sub(pattern,'',content3)
print(result1,result2,result3)# 2019-12-15  2019-12-17  2019-12-22 

四、httpx的使用*

​ 有些网站强制使用HTTP/2.0协议访问,这时urllib和reequests是无法爬取数据的,因为它们只支持HTTP/1.1。

​ hyper和httpx是支持HTTP/2.0的请求库,requests已有的功能它几乎都支持。

1、示例*

url = 'https://spa16.scrape.center/'
response = requests.get(url)
print(response.text)			# 报错,无法访问

2、安装

pip3 install "httpx[http2]"

3、基本使用

  • GET请求:
import httpxclient = httpx.Client(http2=True)
response = client.get('https://spa16.scrape.center')
print(response.text)

大多与requests相似

4.Client对象

​ Client对象的使用:

with httpx.Client() as client:response = client.get('https://www.httpbin.org/get')print(response)	

​ 声明client对象时可以指定一些参数:

url = 'https://www.httpbin.org/headers'
headers = {'User-Agent':'my-app/0.0.1'}
with httpx.Client(headers=headers) as client:r = client.get(url)print(r.json()['headers']['User-Agent'])

5、支持HTTP/2.0

client = httpx.Client(http2=True)
response = client.get('https://spa16.scrape.center')
print(response.text)

6、支持异步请求

httpx还支持异步客户端请求(即AsyncClient),支持Python的async的请求模式:

import httpx
import asyncioasync def fetch(url):async  with httpx.AsyncClient(http2=True) as client:response = await client.get(url)print(response.text)
if __name__ == '__main__':asyncio.get_event_loop().run_until_complete(fetch('https://www.httpbin.org/get'))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/768414.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++中的流

前言 在 C 中&#xff0c;流&#xff08;stream&#xff09;是一种数据传输的抽象概念&#xff0c;用于在程序中对输入和输出进行操作。流分为输入流和输出流&#xff0c;允许数据在程序和外部设备&#xff08;如键盘、屏幕、文件&#xff09;之间进行传输。输入流用于从外部获…

边缘计算【智能+安全检测】系列教程-- Jeton Agx Orin 基础环境搭建

1 .前期准备 Jetson Agx Orin 比Jetson Agx Orin Xavier的算力要高&#xff0c;性能要好通常用来做自动驾驶的AI推理&#xff0c;具体外观如下图 1.刷机软件sdkmanager&#xff1a;下载链接 NVIDIA账号需要注册&#xff0c;正常一步一步往下走就行。在ubuntu18以上的系统安…

Verilog刷题笔记45

题目&#xff1a;Given the finite state machine circuit as shown, assume that the D flip-flops are initially reset to zero before the machine begins. Build this circuit. 解题&#xff1a; module top_module (input clk,input x,output z ); wire [2:0]size;dtou…

第一篇:概述、 目录、适用范围及术语 --- IAB/MRC《增强现实(AR)广告(效果)测量指南1.0 》

第一篇&#xff1a;概述、目录、适用范围及术语 - IAB与MRC及《增强现实广告效果测量指南1.0》 --- 我为什么要翻译美国IAB科技公司系列标准 ​​​​​​​​​​​​​​ 翻译计划 第一篇概述—IAB与MRC及《增强现实广告效果测量指南》之目录、适用范围及术语第二篇广告效…

WSL+Ununtu+Docker踩坑指南

Ubuntu安装docker后启动不了&#xff0c;解决问题如下&#xff1a; 1.在wsl中安装Ubuntu&#xff0c;在Ubuntu中安装docker&#xff0c;此时用的Ubuntu的版本为Ubuntu-22.04发行版&#xff0c;安装docker教程如下。 https://docs.docker.com/engine/install/ubuntu/2. 完成安…

第十五届蓝桥杯模拟赛 第三期 (C++)

第二次做蓝桥模拟赛的博客记录&#xff0c;可能有很多不足的地方&#xff0c;如果大佬有更好的思路或者本文中出现错误&#xff0c;欢迎分享思路或者提出意见 题目A 请问 2023 有多少个约数&#xff1f;即有多少个正整数&#xff0c;使得 2023 是这个正整数的整数倍。 答案&…

Linux telnet命令教程:远程控制工具(附实例详解和注意事项)

Linux telnet命令介绍 telnet&#xff08;Teletype Network&#xff09;是一种网络协议&#xff0c;用于在远程主机和本地计算机之间建立文本式连接。它最初于1969年开发&#xff0c;是Internet的早期协议之一。telnet命令使用TCP/IP网络通过端口23建立连接&#xff0c;提供了…

MySQL B树 和B+数据的区别

MySQL B树 和B数据的区别 树分类&#xff1a;二叉树完全二叉树满二叉树堆红黑树 B树B树 首先我们搞清楚数据结构中的 树这个概念 树 分类&#xff1a; 二叉树 限定每个节点的子节点最多只有2个子节点&#xff0c;且有左右之分。完全二叉树 满二叉树 堆 红黑树 B树 B树 …

上位机图像处理和嵌入式模块部署(qmacvisual之ROI设定)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 ROI&#xff0c;全称是region of interest&#xff0c;也就是感兴趣区域。这里面一般分成两种情况&#xff0c;一种是所有的算法都依赖于这个ROI&a…

谷粒商城——缓存的读写一致性

1. 对于实时性要求很强的数据&#xff0c;如果修改完数据库&#xff0c;需要保证缓存中的数据也更新为相应的最新值。此时需要在更新数据库之前加上写锁&#xff0c;在更新/删除完缓存后才释放写锁。 伪代码如下&#xff1a; lock.writeLock().lock(); updateDB(); updateCac…

Jenkins中使用Generic Webhook Trigger插件实现持续集成

项目环境 宝塔Linux面板DockerJenkinsgitee 目的 实现每次push推送dev分支到gitee上&#xff0c;Jenkins自动构建项目&#xff1b;push其它分支时&#xff0c;不运行。 实现方法 1.在Jenkins上安装Generic Webhook Trigger插件 在“系统设置–插件管理–可选插件”界面搜…

第390场 LeetCode 周赛题解

A 每个字符最多出现两次的最长子字符串 滑动窗口&#xff1a;枚举窗口的左边界&#xff0c;尽可能右移窗口的右边界。 (当然也可以暴力枚举) class Solution { public:int maximumLengthSubstring(string s) {vector<int> cnt(26);int res 0;for (int l 0, r -1, n s…

构建以太网交换网络——(生成树实验)

实验介绍 关于本实验 以太网交换网络中为了进行链路备份&#xff0c;提高网络可靠性&#xff0c;通常会使用冗余链路。但是使用冗余链路会在交换网络上产生环路&#xff0c;引发广播风暴以及MAC地址表不稳定等故障现象&#xff0c;从而导致用户通信质量较差&#xff0c;甚至…

【LeetCode-45.跳跃游戏】

题目详情&#xff1a; 给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。 每个元素 nums[i] 表示从索引 i 向前跳转的最大长度。换句话说&#xff0c;如果你在 nums[i] 处&#xff0c;你可以跳转到任意 nums[i j] 处: 0 < j < nums[i] i j < n 返…

C语言 数组指针 指针数组

指针数组 什么是指针数组&#xff0c;他是一个数组&#xff0c;数组的元素是指针。但是指针也有多种数据类型&#xff0c;有数组指针、函数指针、整形指针、字符串指针。 现在我就使用函数指针来写代码&#xff0c;也就是函数指针数组的应用代码&#xff1a; #include <s…

Debezium日常分享系列之:设置MySQL数据库以支持数据实时采集

Debezium日常分享系列之&#xff1a;设置MySQL数据库以支持数据实时采集 一、创建用户二、启用二进制日志三、启用 GTID四、配置会话超时五、启用查询日志事件六、验证二进制日志行值选项七、Debezium技术总结 在安装和运行 Debezium 连接器之前&#xff0c;需要执行一些 MySQL…

Vscode按键占用问题解决

Vscode按键占用 在使用vscode的过程中&#xff0c;官方按键 Ctrl . 按键可以提示修复代码中的问题&#xff0c;但是发现按了没有反应。 解决问题 首先确认vscode中是否设置了这个按键&#xff0c;默认设置了的系统输入法中是否有按键冲突了&#xff0c;打开输入法设置检查 …

es同义词配置规则

同义词配置有两种: 1,a>b: 通俗的来讲,就是尽管用户输入的是a,但是es在查询的是会转成b去搜索,">"左边的词全部会被右边的词替换。 2,a,b:通俗的来讲,就是不管用户输入的是a还是b,es在查询的是用a,或者b搜索.比如 保温杯,杯子,用户输入的是"保温杯"…

学习java第二十二天

IOC 容器具有依赖注入功能的容器&#xff0c;它可以创建对象&#xff0c;IOC 容器负责实例化、定位、配置应用程序中的对象及建立这些对象间的依赖。通常new一个实例&#xff0c;控制权由程序员控制&#xff0c;而"控制反转"是指new实例工作不由程序员来做而是交给Sp…

DNS服务器的分布式架构和集中式架构的区别

DNS服务器是域名系统的核心组件之一&#xff0c;用于解析域名和IP地址之间的映射关系。DNS服务器的架构形式有分布式和集中式两种模式。下面德迅云安全给您介绍DNS服务器的分布式架构和集中式架构的区别。 DNS服务器的分布式架构和集中式架构有什么区别&#xff1f; 1.分布式架…