爬虫——Requests库的使用

在爬虫开发中,HTTP请求是与服务器进行交互的关键操作。通过发送HTTP请求,爬虫可以获取目标网页或接口的数据,而有效地处理请求和响应是爬虫能够高效且稳定运行的基础。Requests库作为Python中最常用的HTTP请求库,因其简洁、易用和强大的功能,广泛应用于爬虫开发中。本章将详细介绍如何使用Requests库进行HTTP请求的处理,以及如何应对各种实际问题,如设置请求头、处理Cookies、设置超时和重试机制等。

第一节:Requests库的使用

1.1 发送GET和POST请求

Requests库支持多种HTTP请求方式,其中最常用的是GET请求和POST请求。GET请求通常用于获取网页或接口数据,而POST请求则用于向服务器发送数据。掌握这两种请求的使用方式是进行网页抓取的基础。

1.1.1 发送GET请求

GET请求是HTTP协议中最常见的请求方式,用于请求指定的资源或数据。使用Requests发送GET请求非常简单,只需要调用requests.get()方法,并传入目标URL。

import requests# 发送GET请求
response = requests.get('https://www.example.com')# 获取响应内容
print(response.status_code)  # 状态码
print(response.text)          # 网页内容

注意

  • response.status_code 返回HTTP响应的状态码,200表示请求成功。
  • response.text 返回的是响应的内容,即网页的HTML源代码。
1.1.2 发送POST请求

POST请求用于向服务器提交数据,通常用于表单提交或API数据创建。使用requests.post()方法可以发送POST请求,常见的请求体格式有JSON、form-data等。

import requests# 准备要发送的数据
data = {'username': 'myuser','password': 'mypassword'
}# 发送POST请求
response = requests.post('https://www.example.com/login', data=data)# 获取响应内容
print(response.status_code)
print(response.text)

对于JSON格式的POST请求,可以设置请求头为application/json,并将数据以JSON格式发送:

import requests
import json# 准备要发送的JSON数据
data = {'username': 'myuser','password': 'mypassword'
}# 发送POST请求
response = requests.post('https://www.example.com/login', json=data)print(response.status_code)
print(response.json())  # 返回JSON格式的响应

关键点

  • 使用data=发送表单数据(application/x-www-form-urlencoded)。
  • 使用json=发送JSON数据(application/json)。
  • response.json()用于解析返回的JSON格式响应,返回Python字典。
1.2 处理Cookies和Headers

在爬虫中,常常需要模拟浏览器行为,这时处理Cookies和Headers是非常重要的。通过设置请求头(Headers)和Cookies,爬虫能够模仿真实用户访问网站的行为,避免被反爬虫机制阻止。

1.2.1 设置请求头(Headers)

请求头是HTTP请求中的一部分,包含了请求的元信息,如User-AgentContent-TypeAuthorization等。正确地设置请求头能够帮助爬虫绕过一些简单的反爬虫措施。

import requests# 设置自定义请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}# 发送GET请求,带上请求头
response = requests.get('https://www.example.com', headers=headers)print(response.status_code)
print(response.text)

常见的请求头:

  • User-Agent: 用于标识客户端浏览器类型。
  • Accept: 告诉服务器客户端能接受哪些格式的数据(如application/jsontext/html等)。
  • Authorization: 用于认证,通常携带API的访问Token。
  • Referer: 表示当前请求的来源页面。
1.2.2 处理Cookies

Cookies是服务器在浏览器端存储的小块数据,用于保持会话状态。通过Requests发送请求时,可以手动传递Cookies,或者在会话中自动管理Cookies。

传递Cookies

import requests# 设置Cookies
cookies = {'sessionid': '1234567890abcdef'
}# 发送GET请求,带上Cookies
response = requests.get('https://www.example.com', cookies=cookies)print(response.status_code)
print(response.text)

自动处理Cookies: 通过requests.Session()Requests库会自动管理Cookies,包括存储和传递Cookies。

import requests# 创建会话对象
session = requests.Session()# 发送请求时,自动保存并传递Cookies
response = session.get('https://www.example.com')print(response.status_code)
print(response.text)# 关闭会话
session.close()

会话(Session)

  • 会话对象requests.Session()用于在多个请求之间保持某些参数(如Cookies、Headers)的一致性。
  • 可以在同一个会话中发送多个请求,requests.Session()会自动管理Cookies,模拟持续的用户会话。
1.3 设置超时和重试机制

在爬虫中,网络请求的超时和重试机制是非常重要的,它能帮助我们确保爬虫在遇到网络波动时不会一直等待,或者避免频繁请求失败导致程序崩溃。

1.3.1 设置请求超时

设置超时可以防止爬虫因为请求阻塞过长时间而无法继续执行。当网络连接过慢或者目标网站响应时间过长时,设置超时是十分必要的。

import requests# 设置超时为5秒
response = requests.get('https://www.example.com', timeout=5)print(response.status_code)
print(response.text)

超时参数

  • timeout 参数接受一个整数或元组(连接时间,响应时间)。例如,timeout=(3, 5) 表示连接超时为3秒,响应超时为5秒。
1.3.2 设置重试机制

爬虫请求有时会因为临时的网络问题或服务器响应过慢而失败。为此,我们可以实现自动重试机制,在请求失败时自动重试。

可以使用requests.adapters.HTTPAdapterurllib3的重试功能来实现重试机制。

import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry# 创建一个Session对象
session = requests.Session()# 配置重试策略
retry = Retry(total=3,           # 最大重试次数backoff_factor=1,  # 重试的延迟时间间隔(每次重试等待时间为backoff_factor * (2 ^ (重试次数 - 1)))status_forcelist=[500, 502, 503, 504]  # 对哪些HTTP状态码进行重试
)# 配置重试策略到Session
adapter = HTTPAdapter(max_retries=retry)
session.mount('http://', adapter)
session.mount('https://', adapter)# 发送请求
response = session.get('https://www.example.com')print(response.status_code)
print(response.text)# 关闭会话
session.close()

重试策略参数

  • total:最大重试次数。
  • backoff_factor:控制重试间隔时间的因子。
  • status_forcelist:指定哪些HTTP状态码触发重试,通常500、502、503、504等服务器错误码会触发重试。
1.4 错误处理与异常捕获

在实际开发中,我们还需要处理各种请求可能遇到的异常情况。Requests库提供了丰富的错误处理机制,可以捕获网络异常、超时异常等。

import requests
from requests.exceptions import RequestException, Timeouttry:response = requests.get('https://www.example.com', timeout=5)response.raise_for_status()  # 如果返回状态码不是200,抛出异常
except Timeout:print("请求超时")
except RequestException as e:print(f"请求错误:{e}")
else:print("请求成功")print(response.text)

常见异常:

  • requests.exceptions.Timeout:请求超时。
  • requests.exceptions.RequestException:所有Request异常的基类。

小结

通过Requests库的使用,我们可以轻松地发送GET和POST请求,模拟浏览器请求,管理Cookies和Headers,并处理请求的超时和重试机制。掌握这些技能,可以帮助爬虫开发者更好地与目标网站进行交互,处理复杂的请求和响应,从而提高爬虫的效率和稳定性。在后续章节中,我们将继续深入讨论如何解析和提取网页中的数据,进一步提升爬虫的功能和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/60892.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入描述dts和dtsi的区别

QA:dts和dtsi的区别 在嵌入式 Linux 系统中,DTS(Device Tree Source)和 DTSI(Device Tree Source Include)是描述硬件设备树的文件格式。它们本质上是同一种语法的文件,但在使用上有一定区别。…

LinkedHashMap实现LRU

LRU 环境:JDK11 最近接触LRU(Least Recently Used),即最近最少使用,也称淘汰算法,在JDK中LinkedHashMap有相关实现 LRU的LinkedHashMap实现 LinkedHashMap继承HashMap。所以内存的存储结构和HashMap一样,但是LinkedH…

IDEA部署AI代写插件

前言 Hello大家好,当下是AI盛行的时代,好多好多东西在AI大模型的趋势下都变得非常的简单。 比如之前想画一幅风景画得先去采风,然后写实什么的,现在你只需描述出你想要的效果AI就能够根据你的描述在几分钟之内画出一幅你想要的风景…

27-压力测试

测试目标 & 测试数据 ● 测试目标 ○ 测试集群的读写性能 / 做集群容量规划 ○ 对 ES 配置参数进行修改,评估优化效果 ○ 修改 Mapping 和 Setting,对数据建模进行优化,并测试评估性能改进 ○ 测试 ES 新版本,结合实际场…

正则表达式常用字符

基础正则 ^:开头字符 $:结尾字符 ^$:空行 .:任意一个字符 *:前一个字符连续出现0次或以上 .*:所有 []:括号中的任意一个字符 [a-z] [a-zA-Z0-9] [a-zA-Z0-9] [^]:除括号内以外的字符 扩展正则 |:或 ssh|telnet|http ():表示整体 ^(ssh|telnet|http)^ssh|^telnet|^ht…

4. Spring Cloud Ribbon 实现“负载均衡”的详细配置说明

4. Spring Cloud Ribbon 实现“负载均衡”的详细配置说明 文章目录 4. Spring Cloud Ribbon 实现“负载均衡”的详细配置说明前言1. Ribbon 介绍1.1 LB(Load Balance 负载均衡) 2. Ribbon 原理2.2 Ribbon 机制 3. Spring Cloud Ribbon 实现负载均衡算法-应用实例4. 总结&#x…

Redis 线程模型详解:理解 Redis 高效性能的关键

Redis 是一个开源的高性能键值存储系统,因其卓越的速度和强大的功能被广泛应用于各种场景,如缓存、消息队列和实时数据存储等。Redis 的性能优越不仅归功于其高效的数据结构和内存存储,还源于其独特的线程模型。本文将详细介绍 Redis 的线程模…

vue3【实战】切换全屏【组件封装】FullScreen.vue

效果预览 原理解析 使用 vueUse 里的 useFullscreen() 实现 代码实现 技术方案 vue3 vite UnoCSS vueUse 组件封装 src/components/FullScreen.vue <template><component:is"tag"click"toggle":class"[!isFullscreen ? i-ep:full-sc…

docker:基于Dockerfile镜像制作完整案例

目录 摘要目录结构介绍起始目录package目录target目录sh目录init.sh脚本start.sh脚本stop.sh脚本restart.sh脚本 config目录 步骤1、编写dockerfilescript.sh脚本 2、构件镜像查看镜像 3、保存镜像到本地服务器4、复制镜像文件到指定目录&#xff0c;并执行init.sh脚本5、查看挂…

lua实现雪花算法

lua实现雪花算法 雪花算法介绍组成部分优点缺点 代码示例 雪花算法介绍 雪花算法&#xff08;Snowflake Algorithm&#xff09;是一种用于生成唯一ID的分布式生成算法&#xff0c;最初由Twitter开发。它的主要目的是在分布式系统中生成唯一的、时间有序的ID&#xff0c;这些ID通…

Spring Boot之Spring-devtools热部署

1、导包 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-devtools</artifactId><scope>runtime</scope> </dependency>2、添加配置 #开启热部署 spring.devtools.restart.enabledtrue #热…

STM32 | 超声波避障小车

超声波避障小车 一、项目背题 由于超声波测距是一种非接触检测技术&#xff0c;不受光线、被测对象颜色等的影响&#xff0c;较其它仪器更卫生&#xff0c;更耐潮湿、粉尘、高温、腐蚀气体等恶劣环境&#xff0c;具有少维护、不污染、高可靠、长寿命等特点。因此可广泛应用于…

第6章:TDengine 标签索引和删除数据

TDengine 标签索引和删除数据 目标 掌握标签索引的创建、删除掌握超表、子表创建以及数据删除删除数据 删除数据是 TDengine 提供的根据指定时间段删除指定表或超级表中数据记录的功能,方便用户清理由于设备故障等原因产生的异常数据。 注意:删除数据并不会立即释放该表所…

微澜:用 OceanBase 搭建基于知识图谱的实时资讯流的应用实践

本文作者&#xff1a; 北京深鉴智源科技有限公司架构师 郑荣凯 本文整理自北京深鉴智源科技有限公司架构师郑荣凯&#xff0c;在《深入浅出 OceanBase 第四期》的分享。 知识图谱是一项综合性的系统工程&#xff0c;需要在在各种应用场景中向用户展示经过分页的一度关系。 微…

多轮对话中让AI保持长期记忆的8种优化方式篇

多轮对话中让AI保持长期记忆的8种优化方式篇 一、前言 在基于大模型的 Agent 中&#xff0c;长期记忆的状态维护至关重要&#xff0c;在 OpenAI AI 应用研究主管 Lilian Weng 的博客《基于大模型的 Agent 构成》[1]中&#xff0c;将记忆视为关键的组件之一&#xff0c;下面我…

消息中间件分类

消息中间件&#xff08;Message Middleware&#xff09;是一种在分布式系统中实现跨平台、跨应用通信的软件架构。它基于消息传递机制&#xff0c;允许不同系统、不同编程语言的应用之间进行异步通信。 常见的消息中间件类型包括&#xff1a; 1. JMS&#xff08;Java Message S…

aws-athena查询语句总结

完全归于本人mysql语句小白&#xff0c;是一点也写不出来&#xff0c;故汇总到此 1. cloudtrail ## 查询事件排序 SELECT eventname,eventtime,count(eventname) as num FROM your_athena_tablename where eventtime between 2024-11-10 and 2024-11-11 group by eventname…

Swift的可选绑定(Optional binding)

在Swift中&#xff0c;有一种变量称为可选变量&#xff08;Optional&#xff09;&#xff0c;具体说明见Swift初步入门。这种变量的值可以存在也可以为空&#xff08;nil&#xff09;。在Swift中&#xff0c;可以通过将if语句和赋值语句结合&#xff0c;有条件地展开&#xff0…

关键JavaScript进行表单验证:提升用户体验与数据完整性

关键JavaScript进行表单验证&#xff1a;提升用户体验与数据完整性 在网页开发中&#xff0c;表单验证是确保用户输入有效数据的重要步骤。有效的表单验证不仅可以提高用户体验&#xff0c;还可以减少服务器端处理无效或错误数据的负担。本文将通过一个简单的示例&#xff0c;…

java集合—List常用的方法

Java集合中的List是一种有序的集合&#xff0c;可以通过索引访问元素。以下是List常用的方法&#xff1a; 添加元素&#xff1a; add(E element)&#xff1a;将指定的元素追加到列表的末尾。add(int index, E element)&#xff1a;将指定的元素插入到列表的指定位置。 获取元…