Python的http模块requests

模块简介:

requests 库是一个 python中比较有名的 http请求的库,能处理 get,post,put,delete 等 restful请求,能设置 header,cookie,session 等操作,也是作为爬虫的基础库,它目前还不能异步请求,如果要支持异步,官网文档上也说,用 httpx 等代替。官方文档网址:https://requests.readthedocs.io/en/latest/

requests模块的作用
  • 发送 http 请求,获取响应数据
安装
pip install requests

响应对象

  • text str
  • content bytes

使用requests.get()发送请求

发送带请求头的请求
  requests.get(url,headers={User-Agent:xxxx})
发送带参数的请求
  • url中直接带参数
  • 用字典的方式传参数
requests.get(url,params={param1: xxxx, param2:xxx2})
在 headers参数中携带 Cookie

网站经常利用请求头中的 Cookie 字段来做用户访问状态的保持,那么我们可以在 headers 参数中添加 Cookie,模拟普通用户的请求。我们以 github 登录为例:

  • github登录抓包分析
    • 无痕窗口打开chrom浏览器,右键–>检查,点击 Network
    • 访问 github登录的 url 地址 https://github.com/用户名
    • 输入账号密码点击登录后,访问一个需要登录后才能获取正确内容的 url,比如点击右上角的 Your profile 访问 https://github.com/USER_ANME
    • 确定 url之后,再确定发送请求所需要的请求头信息中的User-Agent 和 Cookie
  • cookies 参数的使用
    • cookies参数的形式:字典
      • cookies = {“cookie的名字”:“cookie的值”}
      • 该字典对应请求头中 Cookie 字符串,以分号、空格分割每一对字典键值对
      • 等号左边的一个 cookie 的 name,对应 cookies 字典的 key
      • 等号右边对应 cookies 字典的 value
    • cookies 参数的使用方法
  response = requests.get(url,cookies)
  • 注意:cookie 一般是又过期时间的,一旦过期需要重新获取
  • cookieJar 对象转换成 cookies 字典的方法

使用 requests获取的 response 对象,具有 cookie 属性。该属性是一个 cookieJar 类型,包含了对方服务器设置在本地的 cookie。可以将其转换成 cookies 字典

response.txt 和 response.content 的区别:

  • response.text
    • 类型:str
    • 解码类型:requests模块自动根据 http 头部对响应码作出有根据的推测,推测的文本编码。
  • response.content
    • 类型:bytes
    • 解码类型:默认是 utf-8

response 响应对象的其他常用属性或方法

response = requests.get(url)中 response是发送请求获取的响应对象;response 响应对象中除了 text、content获取响应内容意外还有其他常用的属性或方法:

  • response.url:响应的 url;有时候响应的 url 和请求的 url 并不一致
  • response.status_code:响应状态码
  • response.request.headers:响应对应的请求头
  • response.headers:响应头
  • response.request_cookies:响应对应请求的 cookie;返回 cookieJar 类型
  • response.cookies:响应的 cookie(经过了 set-cookie 动作;)返回 cookieJar 类型
  • response.json();自动将 json字符串类型的响应内容转换成 python 对象(dict or list)

代理的使用

  • 理解代理的过程
    • 代理 ip是一个 ip,指向的是一个代理服务器
    • 代理服务器能够帮助我们向目标服务器转发请求

image.png

  • 正向代理和反向代理的区别

前边提到 proxy 参数指定的代理 ip指向的是正向的代理服务器,那么响应的就有反向服务器;现在来了解正向和反向这两者的区别

  1. 从发送请求方的角度,来区分正向和反向代理
  2. 为浏览器或客户端(发送请求的一方)转发请求的,叫做正向代理
    1. 浏览器知道最终处理请求的服务器的真实 ip地址,例如VPN等翻墙软件
  3. 不为浏览器或客户端(转发请求),而是为最终处理请求的服务器转发请求的,叫反向代理
    1. 浏览器不知道服务器的真实地址,而都是去访问 nginx,nginx 通过负载均衡再分发到不同的 web 服务器(tomcat,php-fpm等)。
  • 代理ip(代理服务器)的分类
    1. 根据代理ip 的内名成都,代理 IP 分为下面三类:
      1. 透明代理(Transparent Proxy):透明代理虽然可以直接"隐藏"你的IP 地址,但是还是可以查到你是谁,目标服务器接受到的请求头如下:
REMOTE_ADDR = 代理IP
HTTP_VIA = 代理IP
HTTP_X_FORWARDED_FOR = 你的真实IP
  2. 匿名代理(Anonymous Proxy):使用匿名代理,别人只能直到你用了代理,无法直到你是谁。目标服务器接收到的请求头付下
REMOTE_ADDR = 代理IP
HTTP_VIA = 代理IP
HTTP_X_FORWARDED_FOR = 代理IP
  3. 高匿代理(Elite proxy 或 High Anonymity Proxy):高匿代理让别人无法发现你在用代理,所以是最好的选择。毫无疑问使用高匿代理效果最好,费用也昂贵,目标服务器接收到的请求头如下:
REMOTE_ADDR = 代理IP
HTTP_VIA = not datermined
HTTP_X_FORWARDED_FOR = not determined
  • 根据网站使用的协议不同,需要使用相应协议的代理服务器。从代理服务请求使用的协议有如下3个:
    • http代理:目标 url 为 http 协议
    • https 代理:目标 url为 https 协议
    • socks 隧道代理(如 socks5代理)等(用的比较少):
      • socks 代理是 socket 层,只简单地传递数据包,不关心是何种应用协议(FTP、HTTP 和 HTTPS)
      • socks 代理比 http、https 代理耗时少。
      • scoks代理可以转发 http 和 https 的请求
  • proxies 代理参数的使用

为了让服务器以为不是同一个客户端在请求;为了防止频繁像一个域名发送请求被封 ip,所以我们需要使用代理 ip;

  • 用法
resp = requests.get(url,proxies=proxies_dict)
  • proxies 的形式:字典
  • 例如:
proxies_dict = {"http:": "http://xxx.xxx.xx.xx:33502","https": "https://xx.xx.xx.xxx1:33220"
}
  • 注意:
    • 如果目标地址只支持 http 的,那么我们这个代理 ip 就不能使用 https,如果目标地址支持https,那么同时也能用 http
    • 如果proxies 字典包含多个键值对,发送请求时将按照 url 地址的协议来选择使用响应的代理 ip
    • 当代理ip失效时,要么就是一直卡着,要么就是报错

request.post模拟表单提交

request.session进行登录状态保持

requests 模块中的 Session类能够自动处理发送请求获取响应过程中产生的 cookie,进而达到状态保持的目的。接下来我们来学习它

requests.session 的作用以及引用场景
  • requests.session 的作用
    • 自动处理 cookie,即下一次请求会带上前一次的 cookie
  • requests.session 的应用场景
    • 自动处理连续的多次请求过程中产生的 cookie
requests.session 使用方法

session 实例在请求了一个网站后,对方服务器设置在本地 cookie 会保存在 session 中,下一次再使用 session请求对方服务器的时候,会带上前一次的 cookie

# 实例化 session 对象
session = requests.session()
response = session.get(url,headers, ...)
response = session.post(url,data,headers, ...)
  • session 对象发送 get或 post 请求的参数,与 requests模块发送的参数完全一致

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/720382.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker 安装mysql8并运行

一.拉取镜像 方法1:docker pull mysql:8.0 方法2: 如果公司服务器不让上外网,那么下载个镜像,拷贝到服务器上 下载镜像地址: https://download.csdn.net/download/cyw8998/88906130 docker load -i mysql8 二.运…

适用于 Windows 的 5 款最佳免费数据恢复软件榜单

每个计算机用户都曾经历过数据丢失的情况。很容易错误地删除重要的文件和文件夹,当发生这种情况时,可能会导致不必要的心痛和压力。值得庆幸的是,可以恢复 Windows PC 上丢失的数据。在本文中,我们将分享您可以使用的五种最佳 Win…

【问答】stm32复用时钟开启情况

首先为什么要开启时钟? 答:因为要对寄存器进行读写!而在STM32中对寄存器的读写都是要打开寄存器对应的时钟才可以的【就像人一样,有了跳动的脉搏手臂才能有能量才能进行各种动作】。 然后就什么时候AFIO时钟开启(所有…

苹果因在iOS音乐流媒体市场上的反向引导行为,在欧盟被罚款18.4亿欧元

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

Docker之自定义镜像上传阿里云

目录 一. Alpine制作jdk镜像 1.1 alpine Linux 简介 1.2 基于alpine制作jdk8镜像 1.2.1 下载镜像 1.2.2 创建并编辑Dockerfile 1.2.3 上传文件 1.2.4 执行Dockerfile构建镜像 1.2.5 测试 二. Alpine制作jre镜像 2.1 首先下载jre或者上传 2.2 解压 2.3 测试 2.4 返回上级目录&a…

云手机的境外舆情监控应用——助力品牌公关

在当今数字化时代,社交媒体已成为品牌传播和互动的主要平台。随之而来的是海量的信息涌入,品牌需要及时了解并应对海外社交媒体上的舆情变化。本文将介绍如何通过云手机进行境外舆情监控,更好地帮助企业公关及时作出决策。 1. 境外舆情监控与…

Linux——动态库和静态库

目录 前言 一.静态库 1.1生成静态库 1.2 库搜索路径 1.3 静态库优点 1.4 静态库缺点 二.动态库 2.1 生成动态库 2.2 使用动态库 2.3 运行动态库 2.4 动态库的优点 2.5 动态库的缺点 三.链接过程 四.如何创建和管理库 五.总结 前言 Linux系统中的库(…

【linux】linux系统调用及文件IO操作

一、系统调用 1、概述 系统调用: 就是操作系统内核 提供给用户可以操作内核 一组函数接口。用户 借助 系统调用 操作内核。比如用户可以通过文件系统相关的调用请求系统打开文件、关闭文件或读写文件,可以通过时钟相关的系统调用获得系统时间或设置定时…

golang关键字channel介绍

Golang 关键字 channel 的用法和原理 Golang 是一门支持并发编程的语言,它提供了一种特殊的类型:channel,用于在不同的 goroutine 之间传递数据,实现同步和通信。channel 是 Go 语言高性能并发编程中的核心数据结构和机制。本文将…

如何创建测试计划?这些要考虑到

以下为作者观点: 创建一个彻底和有效的测试计划对软件测试的成功至关重要。它可以帮助识别过程中可能出现的潜在问题或问题。 什么是测试计划? 测试计划是一份文件,概述了软件测试过程的策略、目标、资源和时间表。测试计划通常包括一些细…

Golang 锁介绍

在并发编程中,锁是一种常用的同步机制,用来保护共享资源的安全访问和修改。Golang 作为一门支持并发的语言,提供了两种主要的锁类型:互斥锁(Mutex)和读写锁(RWMutex)。本文将介绍这两…

uniapp 项目 浏览器chrome使用vue devtool 识别不了 in not detect

问题 uniapp的项目,vue2, chrome 分析 添加了运行时,指定模板h5.html 指定的h5.html重置了运行根目录,导致了vue dev tool在运行时,chrome上识别不了。 解决: 方法1: 只能调试的时候,不加sati…

java常用应用程序编程接口(API)——Arrays概述

前言: 学到Arrays了,整理下心得。打好基础,daydayup! Arrays 用来操作数组的一个工具类 Arrays的常见方法 方法名说明public static String toString(类型[] arr)返回数组的内容public static int[ ] copyOfRange(类型[ ] arr,启示索引&…

【操作系统学习笔记】文件管理1.1

【操作系统学习笔记】文件管理1.1 参考书籍: 王道考研 视频地址: Bilibili I/O 设备的基本概念与分类 I/O 设备就是可以将数据输入到计算机,或者可以接收计算机输出数据的外部设备,属于计算机中的硬件设备。UNIX系统将外部设备抽象为一种特殊的文件&a…

2021 年 6 月青少年软编等考 C 语言一级真题解析

目录 T1. 数的输入和输出思路分析 T2. (a / b) c 的值思路分析 T3. 大写字母的判断思路分析 T4. 特殊求和思路分析 T5. 硬币翻转思路分析 T1. 数的输入和输出 输入一个整数和双精度浮点数,先将浮点数保留 2 2 2 位小数输出,然后输出整数。 时间限制&…

SpringMVC框架①

目录 一、SpringMVC概述 1. 什么是MVC 2. 什么是SpringMVC 3. springMVC特点 二、HellWorld 1. 开发环境 2. 创建maven工程 3. 配置web.xml 4. 创建请求控制器 5. 创建springMVC的配置文件 6. 测试HelloWorld 三、RequestMapping注解 1、RequestMapping功能 2、Re…

Android如何实现复制到剪贴板

文章目录 核心代码关于权限举例 在 Android 开发中,可以使用 ClipboardManager 来复制文本到剪贴板。以下是一个简单的示例代码,演示如何将文本复制到剪贴板: 核心代码 // 获取剪贴板管理器 val clipboardManager getSystemService(Contex…

Linux - 安装 maven(详细教程)

目录 一、下载二、安装三、配置环境变量四、镜像资源配置 一、下载 官网:https://maven.apache.org/download.cgi 打开 maven 的官网下载页面,点击 bin.tar.gz 文件链接 即可下载最新版本的 maven 如果想要下载旧版本的 meven,则点击 Maven…

图形系统开发实战课程:进阶篇(上)——9.空间算法(一)

图形开发学院|GraphAnyWhere 课程名称:图形系统开发实战课程:进阶篇(上)课程章节:“图形样式”原文地址:https://www.graphanywhere.com/graph/advanced/2-9.html 第九章 空间算法(一) \quad 在…

SpringBoot 自定义映射规则resultMap collection一对多

介绍 collection是封装一对多关系的,通常情况下是一个列表,association是一对一,通常情况是一个对象。例如:查询班级下所有的学生,一个班级可以有多个学生,这就是一对多。 案例 有一个学生表&#xff0c…