Python_爬虫1_Requests库入门

目录

Requests库

7个主要方法

Requests库的get()方法

Response对象的属性

爬取网页的通用代码框架

        理解requests库的异常

HTTP协议及Requests库方法

HTTP协议

HTTP协议采用URL作为定位网络资源的标识。

HTTP协议对资源的操作

理解PATCH和PUT的区别

HTTP协议与Requsets库

Requests库主要方法解析

requests.requst()


Requests库

>>> import requests# 获取网页
>>> r = requests.get("http://www.baidu.com")# 获取网页状态码,200表示成功
>>> print(r.status_code)
200>>> type(r)
<class 'requests.models.Response'>>>> r.headers
{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, ection': 'Keep-Alive', 'Transfer-Encoding': 'chunked', 'Server':}

7个主要方法

方法说明
requests.requst()构造一个请求,最基本的方法,是下面方法的支撑
requests.get()获取HTML网页,对应HTTP中的GET方法
requests.post()向HTML网页提交POST信息,对应HTTP中的POST方法
requests.head()获取HTML网页的头信息,对应HTTP中的HEAD方法
requests.put()向HTML提交PUT方法,对应HTTP中的PUT方法
requests.patch()向HTML网页提交局部请求修改的的请求,对应HTTP中的PATCH方法
requests.delete()向HTML提交删除请求,对应HTTP中的DELETE方法

Requests库的get()方法

r = requests.get(url)

1、构造一个向服务器请求资源的Request对象 \Rightarrow Request

2、返回一个包含服务器资源的Response对象 \Rightarrow Response \Rightarrow Response对象包含爬虫返回的内容

requests.get(url,params=None,**kwargs)

url:获取html的网页的url

params:url中的额外的参数,字典或字节流格式,可选

**kwargs:12个控制访问的参数

def get(url,params=None,**kwargs):"""Send a GET request.:param url: URL for the new :class:'Request' object.:param params: (optional) Dictionary or bytes to be sent in the query string for the:param \*\*kwargs: Optional arguments that ''request'' takes.:return: class:'Request <Request>' object:rtype: requests.Request"""kwargs.setdefault('allow_radirects', True)return request('get', url, params=params, **kwargs)

Response对象的属性

属性说明
r.status_codeHTTP请求返回状态码,200表示连接成功,404表示失败
r.textHTTP响应的字符串形式,即,url对应的页面内容
r.encoding从HTTP header中猜测的响应内容的编码方式
r.apparent_encoding从内容中分析响应内容的编码方式(备选编码方式)
r.contentHTTP响应内容的二进制形式

r.encoding:如果header中不存在charset,则认为编码为 ISO-8859-1。

r.apparent_encoding:根据网页内容分析出的编码方式。


爬取网页的通用代码框架

理解requests库的异常
异常说明
requests.ConnectionError网络连接异常,如DNS查询失败,拒绝连接等
requests.HTTPErrorHTTP错误异常
requests.URLRequiredURL缺失异常
requests.TooManyRedirects超过最大重定向次数,产生重定向异常
requests.ConnectTimeout连接远程服务器超时异常
requests.Timeout请求URL超时,产生超时异常

专门与异常打交道

import requests
def getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()  # 如果不是200,引发HTTPError异常r.encoding = r.apparent_encodingreturn r.textexcept:return "产生异常"if __name__ == "__main__":url = "http://www.daidu.dom"print(getHTMLText(url))

爬取网页的通用代码框架最大的作用是能够使用户访问或爬取网页变得更有效更稳定更可靠


HTTP协议及Requests库方法

HTTP协议

HTTP,Hypertext Transfer Protocol,超文本传输协议。

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。

请求与响应:用户发起请求,服务器做相关响应。

无状态:第一次跟第二次请求之间并没有相关的关联。

应用层协议:该协议工作再TCP协议之上。

HTTP协议采用URL作为定位网络资源的标识。

URL格式:http://host[:post][path]

host:合法的Internet主机域名或IP地址

port:端口号,缺省端口为80

path:请求资源的路径

HTTP URL实例:

http://www.bit.edu.cn

http://220.181.111.188/duty

HTTP URL理解:

URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。

HTTP协议对资源的操作

方法说明
GET请求获取URL位置的资源
HEAD请求获取URL位置资源的响应消息报告,即获取该资源的头部消息
POST 请求向URL位置的资源后附加新的数据
PUT请求向URL位置存储一个资源,覆盖原URL位置的资源
PATCH请求局部更新URL位置的资源,即改变该处资源的部分内容
DELETE请求删除URL位置存储的资源

理解PATCH和PUT的区别

假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段。

需求:用户修改了UserName,其他不变。

  • 采用PATCH,仅向URL提交UserName的局部更新请求。
  • 采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除。

PATCH的最主要好处:节省网络带宽

HTTP协议与Requsets库

HTTP协议方法Requsets库方法功能一致性
GETrequests.get()一致
HEADrequests.post()一致
POSTrequests.head()一致
PUTrequests.put()一致
PATCHrequests.patch()一致
DELETErequests.delete()一致
Requsets库的head()方法
r = requests.head('http://httpbin.org/get')
r.headers # 展示反馈头部信息的内容
r.text # 展示全部内容,但发现内容是空

head()方法可以用很少的网络流量获取网络资源的概要信息。

Requsets库的post()方法
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post('http://httpbin.org/post', data = payload)
print(r.text)

当我们向UPL去POST一个字典,或者POAT键值对的时候,那么键值对会默认地被存储到表单的字段下。

r = requests.post('http://httpbin.org/post', data = 'ABC')
print(r.text)

如果我们不提交键值对,就提交一个字符串ABC,那么我们就发现ABC被存到了data的相关的字段下。

post方法根据用户提交内容的不同在服务器上会做数据的相关的整理。

put方法也是一样,它与post方法类似,只不过它能够将原有的数据覆盖掉。

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.put('http://httpbin.org/post', data = payload)
print(r.text)


Requests库主要方法解析

requests.requst()

requests.requst(method,url,**kwargs)

method:请求方式,对应get/put/post等7种

url:拟获取页面的url链接

**kwargs:控制访问的参数,共13个

method:请求方式

r = requests.requst('GET',url,**kwargs)
r = requests.requst('HEAD',url,**kwargs)
r = requests.requst('POST',url,**kwargs)
r = requests.requst('PUT',url,**kwargs)
r = requests.requst('PATCH',url,**kwargs)
r = requests.requst('delete',url,**kwargs)
r = requests.requst('OPTIONS',url,**kwargs)

OPTIONS,事实上是向服务器获取一些服务器跟客户端能够打交道的参数,这里面并不与获取资源直接相关,因此平时中使用的少。

**kwargs:控制访问的参数,均为可选项

  • params:字典或字节序列,作为参数增加到url中
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('http://python123.io/ws', params = kv)
print(r.url)# 运行结果 http://python123.io/ws?key1=value1&key2=value2
  • data:字典、字节序列或文件对象,作为Request的内容
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST','http://python123.io/ws', data = kv)
body = '主体内容'
r = requests.request('POST','http://python123.io/ws', data = body)
  • json:JSON格式的数据,作为Request的内容
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST','http://python123.io/ws', json = kv)
  • headers:字典,HTTP定制头
hd = {'user-agent': 'Chrome/10'}
r = requests.request('POST','http://python123.io/ws', headers = hd)
  • cookies:字典或CookieJar,Request中的cookies
  • auth:元组,支持HTTP认证功能
  • files:字典类型,传输文件
fs = {'file': open'data.xls', 'rb'}
r = requests.request('POST','http://python123.io/ws', files = fs)
  • timeout:设定超时时间,秒为单位
r = requests.request('POST','http://python123.io/ws', timeout = 10)

proxies:字典类型,设定访问代理服务器,可以增加登录认证

pxs = { 'http':'http://user:pass@10.10.10.1:1234','https','http://10.10.10.1:4321'}
r = requests.request('POST','http://python123.io/ws', proxies = pxs)
  • allow_redirects:True/False,默认为True,重定向开关
  • stream:True/False,默认为True,获取内容立即下载开关
  • verify:True/False,默认为True,认证SSL证书开关
  • cert:本地SSL证书路径

requests.get()

requests.get(url,params=None,**kwargs)

url:获取页面中的url链接

params:url中的额外参数,字典或字节流格式,可选

**kwargs:12个控制访问的参数(request中除了params参数之外的)

requests.head()

requests.head(url,**kwargs)

url:拟获取页面中的url链接

**kwargs:13个控制访问的参数(与request一样)

requests.post()

requests.post(url,data = None, json = None,**kwargs)

url:拟更新页面的url链接

data:字典、字节序列或文件,Request的内容

json:JSON格式的数据,Request的内容

**kwargs:11个控制访问的参数(除了data和json,其他11个request一样的参数放最后)

requests.put()

requests.put(url,data = None,**kwargs)

url:拟更新页面的url链接

data:字典、字节序列或文件,Request的内容

**kwargs:12个控制访问的参数(除了data,其他12个request一样的参数放最后)

requests.patch()

requests.patch(url,data = None,**kwargs)

url:拟更新页面的url链接

data:字典、字节序列或文件,Request的内容

**kwargs:12个控制访问的参数(除了data,其他12个request一样的参数放最后)

requests.delete()

requests.delete(url,**kwargs)

url:拟删除页面的url链接

**kwargs:13个控制访问的参数(request一样)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60650.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

万字长文解读深度学习——生成对抗网络GAN

&#x1f33a;历史文章列表&#x1f33a; 深度学习——优化算法、激活函数、归一化、正则化深度学习——权重初始化、评估指标、梯度消失和梯度爆炸深度学习——前向传播与反向传播、神经网络&#xff08;前馈神经网络与反馈神经网络&#xff09;、常见算法概要汇总万字长文解读…

深入理解 Vue v-model 原理与应用

一、引言 在 Vue.js 开发中,v-model是一个非常重要且强大的指令。它为开发者在处理表单输入和数据双向绑定等场景中提供了极大的便利。无论是新手还是有经验的开发者,深入理解v-model对于高效地构建 Vue 应用至关重要。本文将对v-model进行深入剖析,从其基本原理、使用方式…

学SQL,要安装什么软件?

先上结论&#xff0c;推荐MySQLDbeaver的组合。 学SQL需要安装软件吗&#xff1f; 记得几年前我学习SQL的时候&#xff0c;以为像Java、Python一样需要安装SQL软件包&#xff0c;后来知道并没有所谓SQL软件&#xff0c;因为SQL是一种查询语言&#xff0c;它用来对数据库进行操…

多窗口切换——selenium

获取窗口句柄&#xff08;以Python Selenium为例&#xff09; current_window_handle方法 用于获取当前窗口的句柄。句柄是一个标识符&#xff0c;用于唯一标识一个窗口。示例代码&#xff1a; from selenium import webdriverdriver webdriver.Chrome() driver.get("…

Java 反射:深入探索与应用实践

在 Java 编程世界里&#xff0c;反射机制犹如一把神奇的钥匙&#xff0c;能够在运行时动态地获取类的信息、访问和修改类的成员以及调用类的方法。它打破了传统编译时静态绑定的限制&#xff0c;为开发者提供了极大的灵活性和扩展性&#xff0c;使得 Java 程序能够实现诸如动态…

Leecode刷题C语言之统计好节点的数目

执行结果:通过 执行用时和内存消耗如下&#xff1a; 题目&#xff1a;统计好节点的数目 现有一棵 无向 树&#xff0c;树中包含 n 个节点&#xff0c;按从 0 到 n - 1 标记。树的根节点是节点 0 。给你一个长度为 n - 1 的二维整数数组 edges&#xff0c;其中 edges[i] [ai,…

【代码审计】常见漏洞专项审计-业务逻辑漏洞审计

❤️博客主页&#xff1a; iknow181 &#x1f525;系列专栏&#xff1a; 网络安全、 Python、JavaSE、JavaWeb、CCNP &#x1f389;欢迎大家点赞&#x1f44d;收藏⭐评论✍ 0x01 漏洞介绍 1、 原理 业务逻辑漏洞是一类特殊的安全漏洞&#xff0c;业务逻辑漏洞属于设计漏洞而非实…

【408】SDN重点笔记

总特征&#xff1a;数据平面&#xff08;负责转发&#xff09;与控制平面&#xff08;负责控制&#xff09;分离 控制平面&#xff1a; 由服务器和软件组成。控制平面完成转发表&#xff0c;并分发。 路由器不再需要路由选择协议&#xff0c;不再交换信息&#xff0c;只负责收到…

git命令提交项目

此为linux下的命&#xff0c; windows的话&#xff0c;去掉sudo即可 *转载至链接 http://www.eqicode.com/ 1、进入项目代码根目录&#xff0c;执行&#xff1a; sudo git init 把这个目录变成git可以管理的仓库。此时在文件加下&#xff0c;会出现一个 .git的隐藏文件&#…

Redis的Zset在排行榜中应用

1.在pom文件导入&#xff1a; <!-- redis --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency><dependency><groupId>org.springframew…

安全见闻1-5

涵盖了编程语言、软件程序类型、操作系统、网络通讯、硬件设备、web前后端、脚本语言、病毒种类、服务器程序、人工智能等基本知识&#xff0c;有助于全面了解计算机科学和网络技术的各个方面。 安全见闻1 1.编程语言简要概述 C语言&#xff1a;面向过程&#xff0c;适用于系统…

入门车载以太网(4) -- 传输层(TCP\UDP)

目录 1.ECU通信方式的变化 2.传输层概述 2.1 UDP 2.2 TCP 3. TCP和ISO 15765-2 1.ECU通信方式的变化 我们先回顾下两种通信方式&#xff1a;Signal-Based Messaging、Service-Based Messaging。 Signal-Based Messaging 基于信号的通信方式&#xff0c;例如CAN通信&…

Javascript中的深浅拷贝以及实现方法

目录 一、前言 二、深浅拷贝 1、浅拷贝 2、深拷贝 三、递归实现深拷贝 1、js库lodash里面cloneDeep内部实现了深拷贝 2、Json序列化 四、异常处理 throw try ... catch debugger 五、处理this 普通函数 箭头函数 六、改变this指向 call apply bind 七、防抖…

Tofu AI视频处理模块视频输入配置方法

应用Tofu产品对网络视频进行获取做视频处理时&#xff0c;首先需要配置Tofu产品的硬件连接关系与设备IP地址、视频拉流地址。 步骤1 Tofu设备点对点直连或者通过交换机连接到电脑&#xff0c;电脑IP配置到与Tofu默认IP地址同一个网段。 打开软件 点击右上角系统设置 单击左侧…

深入探索 React Hooks:原理、用法与性能优化全解

一、引言 在现代 React 开发领域,Hooks 已成为不可或缺的一部分,赋予函数组件强大功能,使其能胜任复杂任务。本文将全面剖析 React Hooks,助您深入理解并熟练运用。 二、React Hooks 是什么 (一)Hooks 出现的背景 早期 React 主要依赖类组件,其通过this.state管理状…

QT<30> Qt中使鼠标变为转圈忙状态

前言&#xff1a;当我们在写软件时&#xff0c;在等待阻塞耗时操作时可以将鼠标变为忙状态&#xff0c;并在一段时间后恢复状态&#xff0c;可以用到GxtWaitCursor&#xff1a;Qt下基于RAII的鼠标等待光标类。 一、效果演示 二、详细代码 在项目中添加C文件&#xff0c;命名为…

pom.xml和spring-config.xml

pom.xml: Spring的pom.xml文件是Maven项目中的核心配置文件&#xff0c;它并非直接由Spring框架提供&#xff0c;但Spring项目&#xff08;包括Spring Boot&#xff09;通常会使用pom.xml来管理项目的依赖、插件和构建配置。这一点得到了广泛的社区支持和官方文档的确认。在Sp…

Ubuntu20.04 为脚本文件创建桌面快捷方式 ubuntu

Ubuntu20.04 为脚本文件创建桌面快捷方式 在Ubuntu 20.04中&#xff0c;为脚本文件&#xff08;如 .sh 文件&#xff09;创建桌面快捷方式是一种提升用户效率的实用方法&#xff0c;允许用户通过图形用户界面直接执行重要或常用的脚本。以下是一种详细、专业且逻辑清晰的通用方…

等保测评怎么做?具体流程是什么?

等保测评是对信息系统进行等保&#xff08;等级保护&#xff09;安全评测的过程。等保是指对信息系统进行等级化保护管理&#xff0c;目的是提高信息系统的安全性&#xff0c;防止信息泄露、篡改、破坏等安全问题。哈尔滨等保测评按照《中华人民共和国网络安全法》及《信息安全…

【云计算解决方案面试整理】3-7主流云计算平台、云计算架构、安全防护

准备面云计算解决方案的岗位,整理了一些,也请大佬们指点。 文档分为 云计算基础概念、云计算技术原理、主流云计算平台(以天翼云为例)、云计算架构(弹性设计、高可用设计、高性能设计)、安全防护几个方面。 三、主流云计算平台 1.阿里云云计算平台 强大的计算能力:拥有…