python爬虫学习第十六天--------URLError和HTTPError、cookie登录、Handler处理器

🎈🎈作者主页: 喔的嘛呀🎈🎈
🎈🎈所属专栏:python爬虫学习🎈🎈
✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 

目录

一、URLError和HTTPError

二、cookie登录

三、Handler处理器


兄弟姐妹们,大家好哇!今天我们来学习URLError和HTTPError、cookie登录、Handler处理器这三个方面的知识

一、URLError和HTTPError

在Python中进行网络爬虫时,经常会遇到 URLErrorHTTPError 异常。这两种异常通常与网络连接和HTTP请求有关,以下是它们的一些常见情况和处理方法:

  1. URLError:表示URL无效或无法打开的错误,可能的原因包括网络连接问题、URL拼写错误等。处理方法包括:
    • 检查URL是否正确,并确保网络连接正常。
    • 使用 try-except 块捕获 URLError 异常,并进行相应的处理。
from urllib.error import URLError
import urllib.requesturl = "<http://example.com>"try:response = urllib.request.urlopen(url)# 处理响应数据
except URLError as e:print("URLError:", e)# 处理异常情况

2、HTTPError:表示HTTP请求错误,例如404 Not Found等。处理方法包括:

  • 使用 try-except 块捕获 HTTPError 异常,并根据状态码进行处理。
  • 可以通过 e.code 获取状态码,e.reason 获取原因。
from urllib.error import HTTPError
import urllib.requesturl = "<http://example.com/404>"try:response = urllib.request.urlopen(url)# 处理响应数据
except HTTPError as e:print("HTTPError:", e.code, e.reason)# 处理异常情况

在处理这些异常时,可以根据具体情况进行适当的错误处理和重试机制,以确保网络爬虫的稳定性和可靠性。

二、cookie登录

Cookie登录,需要分为以下步骤:

  1. 发送登录请求并获取Cookie:首先,您需要发送一个POST请求到登录页面,包含用户名和密码等登录信息。成功登录后,服务器会返回一个包含登录凭据的Cookie。您可以使用**requests库来发送这个请求,并通过response.cookies**属性获取Cookie。
  2. 使用Cookie进行后续请求:在登录后,您可以使用获取到的Cookie来发送其他请求,以模拟登录状态。每次请求都需要包含这个Cookie,以便服务器能够识别您已经登录。

以下是一个示例,演示如何使用Python进行Cookie登录:

import requests# 登录页面URL和登录信息
login_url = '<https://example.com/login>'
login_data = {'username': 'your_username','password': 'your_password'
}# 发送登录请求并获取Cookie
response = requests.post(login_url, data=login_data)
cookies = response.cookies# 使用Cookie发送后续请求
protected_url = '<https://example.com/protected-page>'
response = requests.get(protected_url, cookies=cookies)# 检查响应状态码
if response.status_code == 200:# 打印响应内容print(response.text)
else:print('Failed to retrieve protected page. Status code:', response.status_code)

在这个示例中,首先发送了一个POST请求到**example.com/login,并包含了用户名和密码作为表单数据。然后,从登录响应中获取了Cookie,并将其保存在cookies变量中。最后,使用这个Cookie发送了一个GET请求到example.com/protected-page**,以获取受保护页面的内容。

案列:模拟登录Gitte并访问用户信息的示例:

import requests
from bs4 import BeautifulSoup# 登录页面 URL
login_url = '<https://gitte.cn/login>'
# 受保护页面 URL
protected_url = '<https://gitte.cn/settings>'# 用户名和密码
username = 'your_username'
password = 'your_password'# 创建会话对象
session = requests.Session()# 设置请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}# 发送登录请求,禁用SSL证书验证
login_data = {'username': username, 'password': password}
login_response = session.post(login_url, headers=headers, data=login_data, verify=False)# 检查登录是否成功
if login_response.status_code == 200:print("Login successful")# 获取重定向后的页面protected_response = session.get(protected_url, headers=headers, verify=False)# 检查是否成功访问受保护页面if protected_response.status_code == 200:print("Protected page content:")soup = BeautifulSoup(protected_response.text, 'html.parser')# 解析页面内容content = soup.find('div', class_='your_content_class')if content:print(content.text)else:print("Failed to find content on protected page")else:print("Failed to retrieve protected page. Status code:", protected_response.status_code)
else:print("Login failed")

这个案列是针对cookie这方面的,报错也没事,给后面的知识一块用才可以爬取到信息

Untitled

注意:受保护页面通常指需要登录或授权才能访问的页面。这些页面可能包含用户个人信息、敏感数据或需要特定权限才能查看的内容。通过登录或授权后,用户可以访问这些受保护页面。在网络应用程序中,受保护页面通常用于确保用户身份验证和数据安全性。

三、Handler处理器

Handler处理器在Python的urllib库中是一个非常重要的组件,它提供了一种灵活和高级的方式来处理HTTP请求。使用Handler处理器的主要原因包括:

  1. 处理各种情况的请求:Handler处理器可以处理各种情况下的HTTP请求,如处理HTTP重定向、处理代理、处理cookie等。这使得我们可以更灵活地处理不同情况下的请求。
  2. 定制请求头和请求参数:通过Handler处理器,我们可以定制请求头和请求参数,以满足不同的需求。这样可以更好地模拟浏览器行为,使得我们可以发送更加复杂和特定的请求。
  3. 处理cookie和认证信息:Handler处理器可以用于处理cookie和认证信息,使得我们可以在请求中包含cookie和认证信息,从而实现对需要认证的网站进行访问。
  4. 处理代理:Handler处理器可以用于设置代理服务器,从而实现通过代理服务器发送请求,这对于需要使用代理的情况非常有用。
  5. 处理HTTP和HTTPS请求:Handler处理器可以用于处理HTTP和HTTPS请求,使得我们可以发送安全的HTTPS请求,并对响应进行处理。

总的来说,Handler处理器提供了一种灵活和高级的方式来处理HTTP请求,使得我们可以更好地控制请求和响应的处理过程,从而实现更加复杂和特定的功能。

Handler处理器是Python标准库urllib中用于处理HTTP请求的组件之一,它提供了一种灵活的方式来处理请求和响应。Handler处理器可以用于处理HTTP请求的各种情况,比如处理重定向、处理代理、处理cookie等。

下面是Handler处理器的基本使用方法:

  1. 导入必要的模块:
import urllib.request
import urllib.error

https://lh3.googleusercontent.com/a/AGNmyxaP8ZNr9lxDW8mItZrsrrHxTdxmBq6TmE5JzuBD=s96-c

2.创建一个Handler处理器:

handler = urllib.request.HTTPHandler()

这里创建了一个用于处理HTTP请求的Handler处理器。如果需要处理HTTPS请求,可以使用**urllib.request.HTTPSHandler()**来创建一个处理HTTPS请求的Handler处理器。

3.创建一个Opener对象,并将Handler处理器添加进去:

opener = urllib.request.build_opener(handler)

这里创建了一个Opener对象,并将之前创建的Handler处理器添加进去。

4.使用Opener对象发送请求:

url = '<http://www.example.com>'
req = urllib.request.Request(url)
try:response = opener.open(req)print(response.read().decode('utf-8'))
except urllib.error.URLError as e:print(e)

这里使用Opener对象的**open()方法发送请求,并捕获可能的URLError异常。如果请求成功,可以通过response.read().decode('utf-8')**来获取响应内容。

5.完整示例代码:

import urllib.request
import urllib.error# 创建一个Handler处理器
handler = urllib.request.HTTPHandler()# 创建一个Opener对象,并将Handler处理器添加进去
opener = urllib.request.build_opener(handler)# 使用Opener对象发送请求
url = '<http://www.example.com>'
req = urllib.request.Request(url)
try:response = opener.open(req)print(response.read().decode('utf-8'))
except urllib.error.URLError as e:print(e)

通过以上步骤,我们可以使用Handler处理器来发送HTTP请求,并且可以根据需要添加不同的处理器来处理请求和响应,实现更灵活和高级的功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/799054.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多轴机械臂/正逆解/轨迹规划/机器人运动学/Matlab/DH法 学习记录01——数学基础

系列文章目录 本科毕设正在做多轴机械臂相关的内容&#xff0c;这里是一个学习机械臂运动学课程的相关记录。 如有任何问题&#xff0c;可发邮件至layraliufoxmail.com问询。 1. 数学基础 文章目录 系列文章目录一、空间位置、姿态描述二、旋转矩阵&#xff08;Rotation matri…

线程池的方式爬虫

<!--爬虫仅支持1.8版本的jdk--> <!-- 爬虫需要的依赖--> <dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.2</version> </dependency><!-- 爬虫需…

mysql修改密码提示: Your password does not satisfy the current policy requirements

1、问题概述&#xff1f; 环境说明&#xff1a; Red Hat Enterprise Linux7mysql5.7.10 执行如下语句报错&#xff1a; set password for rootlocalhost password(123456); ERROR 1819 (HY000): Your password does not satisfy the current policy requirements意思就是&a…

摄影杂记二

一、相机操作指南 ⑴按键说明&#xff1a; 除了常规的几个模式&#xff0c;里面就特殊场景可以看一下&#xff0c;有全景&#xff0c;支持摇摄。 lock&#xff1a;多功能锁。可以锁定控制按钮和控制环。在设置中找到多功能锁&#xff0c;可以设置锁定什么。 m-fn&#xff1a;多…

Go数据结构的底层原理(图文详解)

空结构体的底层原理 基本类型的字节数 fmt.Println(unsafe.Sizeof(0)) // 8 fmt.Println(unsafe.Sizeof(uint(0))) // 8 a : 0 b : &a fmt.Println(unsafe.Sizeof(b)) // 8int大小跟随系统字长指针的大小也是系统字长 空结构体 a : struct { }{} b : struct {…

国内ChatGPT大数据模型

在中国&#xff0c;随着人工智能技术的迅猛发展&#xff0c;多个科技公司和研究机构已经开发出了与OpenAI的ChatGPT类似的大型语言模型。这些模型通常基于深度学习技术&#xff0c;尤其是Transformer架构&#xff0c;它们在大量的文本数据上进行训练&#xff0c;以理解和生成自…

每天五分钟掌握深度学习框架pytorch:本专栏说明

专栏大纲 专栏计划更新章节在100章左右&#xff0c;之后还会不断更新&#xff0c;都会配备代码实现。以下是专栏大纲 部分代码实现 代码获取 为了方便用户浏览代码&#xff0c;本专栏将代码同步更新到github中&#xff0c;所有用户可以读完专栏内容和代码解析之后&#xff0c…

Struts2:Action类的写法,推荐使用继承ActionSupport类的方法

文章目录 方法一&#xff1a;Action类是一个POJO类&#xff08;简单的Java类&#xff09;ActionDemo2.javastruts_demo2.xmlstruts.xml运行结果其他strutsz_demo1.xml 方法二&#xff1a;实现一个Action的接口ActionDemo2_2.javastruts_demo2.xml运行结果 推荐&#xff01;&…

SiteSpace 使用方法笔记

目录 介绍下载及安装准备工作知网 CNKI 文献分析数据准备数据转换新建项目图形处理 介绍 CiteSpace 是一个用于可视化和分析科学文献的工具。它可以从科学文献库中提取关键词、作者、机构和引用关系等信息&#xff0c;并将其可视化为图形网络。 一些使用案例 下载及安装 下载…

Redis从入门到精通(九)Redis实战(六)基于Redis队列实现异步秒杀下单

文章目录 前言4.5 分布式锁-Redisson4.5.4 Redission锁重试4.5.5 WatchDog机制4.5.5 MutiLock原理 4.6 秒杀优化4.6.1 优化方案4.6.2 完成秒杀优化 4.7 Redis消息队列4.7.1 基于List实现消息队列4.7.2 基于PubSub的消息队列4.7.3 基于Stream的消息队列4.7.4 基于Stream的消息队…

Golang单元测试和压力测试

一.单元测试 1.1 go test工具 go语言中的测试依赖go test命令。编写测试代码和编写普通的Go代码过程类似&#xff0c;并不需要学习新的语法&#xff0c;规则和工具。 go test命令是一个按照一定约定和组织的测试代码的驱动程序。在包目录内&#xff0c;所有以_test.go为后缀名的…

零代码编程:用kimichat打造一个最简单的window程序

用kimichat可以非常方便的自动生成程序代码&#xff0c;有些小程序可能会频繁使用&#xff0c;如果每次都在vscode中执行就会很麻烦。常用的Python代码&#xff0c;可以直接做成一个window程序&#xff0c;点击就可以打开使用&#xff0c;方便很多。 首先&#xff0c;把kimich…

Tokenize Anything via Prompting

SAM的延续&#xff0c;把SAM输出的token序列用来进行分类&#xff0c;分割和一个自然语言的decoder处理&#xff0c;但其实现在多模态的图像的tokenizer也几乎都是用VIT来实现的。一开始认为这篇文章可能是关于tokenize的&#xff0c;tokenize还是很重要的&#xff0c;后来看完…

JVM虚拟机(一)介绍、JVM组成、堆、栈、方法区/元空间、直接内存

目录 一、JVM 介绍1.1 为什么要学 JVM&#xff1f;1.2 JVM 是什么&#xff1f; 二、JVM 组成2.1 程序计数器2.2 Java堆1&#xff09;JVM 内存结构2&#xff09;Java 1.7 和 1.8 中堆的区别 2.3 Java虚拟机栈1&#xff09;虚拟机栈 和 栈帧2&#xff09;常见面试题 2.4 方法区/元…

搜索二维矩阵2 合并两个有序链表

240. 搜索二维矩阵 II - 力扣&#xff08;LeetCode&#xff09; class Solution { public:bool searchMatrix(vector<vector<int>>& matrix, int target) {int i matrix.size() - 1, j 0;while(i > 0 && j < matrix[0].size()){if(matrix[i][j…

基于wsl的Ubuntu20.04上安装桌面环境

在子系统Ubuntu20.04上安装桌面环境 1. 更换软件源 由于Ubuntu默认的软件源在国外&#xff0c;有时候后可能会造成下载软件卡顿&#xff0c;这里我们更换为国内的阿里云源&#xff0c;其他国内源亦可。 双击打开Ubuntu20.04 LTS图标&#xff0c;在命令行中输入 # 备份原来的软…

Java(二)面向对象进阶

目录 面向对象 多态性 向下转型 Object equals() toString() clone() finalize() Static 单例模式 代码块 final 抽象类与抽象方法(或abstract关键字&#xff09; 接口 接口的多态性 接口的默认方法 内部类 成员内部类 局部内部类 枚举类 实现接口的枚举类 …

网络安全流量平台_优缺点分析

FlowShadow&#xff08;流影&#xff09;&#xff0c;Ntm&#xff08;派网&#xff09;&#xff0c;Elastiflow。 Arkimesuricata&#xff0c;QNSMsuricata&#xff0c;Malcolm套件。 Malcolm套件优点&#xff1a;支持文件还原反病毒引擎&#xff08;clamav/yara&#xff09;…

IntelliJ IDEA 2024.1 更新亮点汇总:全面提升开发体验

IntelliJ IDEA 2024.1 更新亮点汇总&#xff1a;全面提升开发体验 文章目录 IntelliJ IDEA 2024.1 更新亮点汇总&#xff1a;全面提升开发体验摘要引言 IntelliJ IDEA 2024.1 的新增功能主要亮点全行代码完成 最终的支持 Java 22 功能新航站楼 贝塔编辑器中的粘滞线 人工智能助…

【SpringBoot3】SpringBoot入门

需求&#xff1a;使用 SpringBoot 开发一个web应用&#xff0c;浏览器发起请求 /hello后&#xff0c;给浏览器返回字符串 “hello world "。 步骤 ①. 创建Maven工程 ②. 导入spring-boot-stater-web起步依赖 <dependency> <groupId>org.springframework…