Python_爬虫1_Requests库入门

目录

Requests库

7个主要方法

Requests库的get()方法

Response对象的属性

爬取网页的通用代码框架

        理解requests库的异常

HTTP协议及Requests库方法

HTTP协议

HTTP协议采用URL作为定位网络资源的标识。

HTTP协议对资源的操作

理解PATCH和PUT的区别

HTTP协议与Requsets库

Requests库主要方法解析

requests.requst()


Requests库

>>> import requests# 获取网页
>>> r = requests.get("http://www.baidu.com")# 获取网页状态码,200表示成功
>>> print(r.status_code)
200>>> type(r)
<class 'requests.models.Response'>>>> r.headers
{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, ection': 'Keep-Alive', 'Transfer-Encoding': 'chunked', 'Server':}

7个主要方法

方法说明
requests.requst()构造一个请求,最基本的方法,是下面方法的支撑
requests.get()获取HTML网页,对应HTTP中的GET方法
requests.post()向HTML网页提交POST信息,对应HTTP中的POST方法
requests.head()获取HTML网页的头信息,对应HTTP中的HEAD方法
requests.put()向HTML提交PUT方法,对应HTTP中的PUT方法
requests.patch()向HTML网页提交局部请求修改的的请求,对应HTTP中的PATCH方法
requests.delete()向HTML提交删除请求,对应HTTP中的DELETE方法

Requests库的get()方法

r = requests.get(url)

1、构造一个向服务器请求资源的Request对象 \Rightarrow Request

2、返回一个包含服务器资源的Response对象 \Rightarrow Response \Rightarrow Response对象包含爬虫返回的内容

requests.get(url,params=None,**kwargs)

url:获取html的网页的url

params:url中的额外的参数,字典或字节流格式,可选

**kwargs:12个控制访问的参数

def get(url,params=None,**kwargs):"""Send a GET request.:param url: URL for the new :class:'Request' object.:param params: (optional) Dictionary or bytes to be sent in the query string for the:param \*\*kwargs: Optional arguments that ''request'' takes.:return: class:'Request <Request>' object:rtype: requests.Request"""kwargs.setdefault('allow_radirects', True)return request('get', url, params=params, **kwargs)

Response对象的属性

属性说明
r.status_codeHTTP请求返回状态码,200表示连接成功,404表示失败
r.textHTTP响应的字符串形式,即,url对应的页面内容
r.encoding从HTTP header中猜测的响应内容的编码方式
r.apparent_encoding从内容中分析响应内容的编码方式(备选编码方式)
r.contentHTTP响应内容的二进制形式

r.encoding:如果header中不存在charset,则认为编码为 ISO-8859-1。

r.apparent_encoding:根据网页内容分析出的编码方式。


爬取网页的通用代码框架

理解requests库的异常
异常说明
requests.ConnectionError网络连接异常,如DNS查询失败,拒绝连接等
requests.HTTPErrorHTTP错误异常
requests.URLRequiredURL缺失异常
requests.TooManyRedirects超过最大重定向次数,产生重定向异常
requests.ConnectTimeout连接远程服务器超时异常
requests.Timeout请求URL超时,产生超时异常

专门与异常打交道

import requests
def getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()  # 如果不是200,引发HTTPError异常r.encoding = r.apparent_encodingreturn r.textexcept:return "产生异常"if __name__ == "__main__":url = "http://www.daidu.dom"print(getHTMLText(url))

爬取网页的通用代码框架最大的作用是能够使用户访问或爬取网页变得更有效更稳定更可靠


HTTP协议及Requests库方法

HTTP协议

HTTP,Hypertext Transfer Protocol,超文本传输协议。

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。

请求与响应:用户发起请求,服务器做相关响应。

无状态:第一次跟第二次请求之间并没有相关的关联。

应用层协议:该协议工作再TCP协议之上。

HTTP协议采用URL作为定位网络资源的标识。

URL格式:http://host[:post][path]

host:合法的Internet主机域名或IP地址

port:端口号,缺省端口为80

path:请求资源的路径

HTTP URL实例:

http://www.bit.edu.cn

http://220.181.111.188/duty

HTTP URL理解:

URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。

HTTP协议对资源的操作

方法说明
GET请求获取URL位置的资源
HEAD请求获取URL位置资源的响应消息报告,即获取该资源的头部消息
POST 请求向URL位置的资源后附加新的数据
PUT请求向URL位置存储一个资源,覆盖原URL位置的资源
PATCH请求局部更新URL位置的资源,即改变该处资源的部分内容
DELETE请求删除URL位置存储的资源

理解PATCH和PUT的区别

假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段。

需求:用户修改了UserName,其他不变。

  • 采用PATCH,仅向URL提交UserName的局部更新请求。
  • 采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除。

PATCH的最主要好处:节省网络带宽

HTTP协议与Requsets库

HTTP协议方法Requsets库方法功能一致性
GETrequests.get()一致
HEADrequests.post()一致
POSTrequests.head()一致
PUTrequests.put()一致
PATCHrequests.patch()一致
DELETErequests.delete()一致
Requsets库的head()方法
r = requests.head('http://httpbin.org/get')
r.headers # 展示反馈头部信息的内容
r.text # 展示全部内容,但发现内容是空

head()方法可以用很少的网络流量获取网络资源的概要信息。

Requsets库的post()方法
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post('http://httpbin.org/post', data = payload)
print(r.text)

当我们向UPL去POST一个字典,或者POAT键值对的时候,那么键值对会默认地被存储到表单的字段下。

r = requests.post('http://httpbin.org/post', data = 'ABC')
print(r.text)

如果我们不提交键值对,就提交一个字符串ABC,那么我们就发现ABC被存到了data的相关的字段下。

post方法根据用户提交内容的不同在服务器上会做数据的相关的整理。

put方法也是一样,它与post方法类似,只不过它能够将原有的数据覆盖掉。

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.put('http://httpbin.org/post', data = payload)
print(r.text)


Requests库主要方法解析

requests.requst()

requests.requst(method,url,**kwargs)

method:请求方式,对应get/put/post等7种

url:拟获取页面的url链接

**kwargs:控制访问的参数,共13个

method:请求方式

r = requests.requst('GET',url,**kwargs)
r = requests.requst('HEAD',url,**kwargs)
r = requests.requst('POST',url,**kwargs)
r = requests.requst('PUT',url,**kwargs)
r = requests.requst('PATCH',url,**kwargs)
r = requests.requst('delete',url,**kwargs)
r = requests.requst('OPTIONS',url,**kwargs)

OPTIONS,事实上是向服务器获取一些服务器跟客户端能够打交道的参数,这里面并不与获取资源直接相关,因此平时中使用的少。

**kwargs:控制访问的参数,均为可选项

  • params:字典或字节序列,作为参数增加到url中
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('http://python123.io/ws', params = kv)
print(r.url)# 运行结果 http://python123.io/ws?key1=value1&key2=value2
  • data:字典、字节序列或文件对象,作为Request的内容
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST','http://python123.io/ws', data = kv)
body = '主体内容'
r = requests.request('POST','http://python123.io/ws', data = body)
  • json:JSON格式的数据,作为Request的内容
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST','http://python123.io/ws', json = kv)
  • headers:字典,HTTP定制头
hd = {'user-agent': 'Chrome/10'}
r = requests.request('POST','http://python123.io/ws', headers = hd)
  • cookies:字典或CookieJar,Request中的cookies
  • auth:元组,支持HTTP认证功能
  • files:字典类型,传输文件
fs = {'file': open'data.xls', 'rb'}
r = requests.request('POST','http://python123.io/ws', files = fs)
  • timeout:设定超时时间,秒为单位
r = requests.request('POST','http://python123.io/ws', timeout = 10)

proxies:字典类型,设定访问代理服务器,可以增加登录认证

pxs = { 'http':'http://user:pass@10.10.10.1:1234','https','http://10.10.10.1:4321'}
r = requests.request('POST','http://python123.io/ws', proxies = pxs)
  • allow_redirects:True/False,默认为True,重定向开关
  • stream:True/False,默认为True,获取内容立即下载开关
  • verify:True/False,默认为True,认证SSL证书开关
  • cert:本地SSL证书路径

requests.get()

requests.get(url,params=None,**kwargs)

url:获取页面中的url链接

params:url中的额外参数,字典或字节流格式,可选

**kwargs:12个控制访问的参数(request中除了params参数之外的)

requests.head()

requests.head(url,**kwargs)

url:拟获取页面中的url链接

**kwargs:13个控制访问的参数(与request一样)

requests.post()

requests.post(url,data = None, json = None,**kwargs)

url:拟更新页面的url链接

data:字典、字节序列或文件,Request的内容

json:JSON格式的数据,Request的内容

**kwargs:11个控制访问的参数(除了data和json,其他11个request一样的参数放最后)

requests.put()

requests.put(url,data = None,**kwargs)

url:拟更新页面的url链接

data:字典、字节序列或文件,Request的内容

**kwargs:12个控制访问的参数(除了data,其他12个request一样的参数放最后)

requests.patch()

requests.patch(url,data = None,**kwargs)

url:拟更新页面的url链接

data:字典、字节序列或文件,Request的内容

**kwargs:12个控制访问的参数(除了data,其他12个request一样的参数放最后)

requests.delete()

requests.delete(url,**kwargs)

url:拟删除页面的url链接

**kwargs:13个控制访问的参数(request一样)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60650.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

万字长文解读深度学习——生成对抗网络GAN

&#x1f33a;历史文章列表&#x1f33a; 深度学习——优化算法、激活函数、归一化、正则化深度学习——权重初始化、评估指标、梯度消失和梯度爆炸深度学习——前向传播与反向传播、神经网络&#xff08;前馈神经网络与反馈神经网络&#xff09;、常见算法概要汇总万字长文解读…

学SQL,要安装什么软件?

先上结论&#xff0c;推荐MySQLDbeaver的组合。 学SQL需要安装软件吗&#xff1f; 记得几年前我学习SQL的时候&#xff0c;以为像Java、Python一样需要安装SQL软件包&#xff0c;后来知道并没有所谓SQL软件&#xff0c;因为SQL是一种查询语言&#xff0c;它用来对数据库进行操…

Leecode刷题C语言之统计好节点的数目

执行结果:通过 执行用时和内存消耗如下&#xff1a; 题目&#xff1a;统计好节点的数目 现有一棵 无向 树&#xff0c;树中包含 n 个节点&#xff0c;按从 0 到 n - 1 标记。树的根节点是节点 0 。给你一个长度为 n - 1 的二维整数数组 edges&#xff0c;其中 edges[i] [ai,…

【代码审计】常见漏洞专项审计-业务逻辑漏洞审计

❤️博客主页&#xff1a; iknow181 &#x1f525;系列专栏&#xff1a; 网络安全、 Python、JavaSE、JavaWeb、CCNP &#x1f389;欢迎大家点赞&#x1f44d;收藏⭐评论✍ 0x01 漏洞介绍 1、 原理 业务逻辑漏洞是一类特殊的安全漏洞&#xff0c;业务逻辑漏洞属于设计漏洞而非实…

【408】SDN重点笔记

总特征&#xff1a;数据平面&#xff08;负责转发&#xff09;与控制平面&#xff08;负责控制&#xff09;分离 控制平面&#xff1a; 由服务器和软件组成。控制平面完成转发表&#xff0c;并分发。 路由器不再需要路由选择协议&#xff0c;不再交换信息&#xff0c;只负责收到…

Redis的Zset在排行榜中应用

1.在pom文件导入&#xff1a; <!-- redis --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency><dependency><groupId>org.springframew…

安全见闻1-5

涵盖了编程语言、软件程序类型、操作系统、网络通讯、硬件设备、web前后端、脚本语言、病毒种类、服务器程序、人工智能等基本知识&#xff0c;有助于全面了解计算机科学和网络技术的各个方面。 安全见闻1 1.编程语言简要概述 C语言&#xff1a;面向过程&#xff0c;适用于系统…

入门车载以太网(4) -- 传输层(TCP\UDP)

目录 1.ECU通信方式的变化 2.传输层概述 2.1 UDP 2.2 TCP 3. TCP和ISO 15765-2 1.ECU通信方式的变化 我们先回顾下两种通信方式&#xff1a;Signal-Based Messaging、Service-Based Messaging。 Signal-Based Messaging 基于信号的通信方式&#xff0c;例如CAN通信&…

Tofu AI视频处理模块视频输入配置方法

应用Tofu产品对网络视频进行获取做视频处理时&#xff0c;首先需要配置Tofu产品的硬件连接关系与设备IP地址、视频拉流地址。 步骤1 Tofu设备点对点直连或者通过交换机连接到电脑&#xff0c;电脑IP配置到与Tofu默认IP地址同一个网段。 打开软件 点击右上角系统设置 单击左侧…

QT<30> Qt中使鼠标变为转圈忙状态

前言&#xff1a;当我们在写软件时&#xff0c;在等待阻塞耗时操作时可以将鼠标变为忙状态&#xff0c;并在一段时间后恢复状态&#xff0c;可以用到GxtWaitCursor&#xff1a;Qt下基于RAII的鼠标等待光标类。 一、效果演示 二、详细代码 在项目中添加C文件&#xff0c;命名为…

什么是CRM系统?

越来越多的企业意识到&#xff1a;如何有效管理与客户的关系、提升客户满意度&#xff0c;并通过这些提升推动销售增长&#xff0c;已经成为许多公司亟待解决的问题。为此&#xff0c;客户关系管理&#xff08;Customer Relationship Management&#xff0c;简称CRM&#xff09…

【青牛科技】 GC6153——TMI8152 的不二之选,可应用于摇头机等产品中

在电子工程领域&#xff0c;不断寻求性能更优、成本更低的解决方案是工程师们的永恒追求。今天&#xff0c;我们要为广大电子工程师带来一款极具竞争力的产品 —— GC6153&#xff0c;它将成为 TMI8152 的完美替代之选。 一、产品背景 随着科技的飞速发展&#xff0c;电子设备…

JS 实现游戏流畅移动与按键立即响应

AWSD 按键移动 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title><style>.box1 {width: 400px;height: 400px;background: yellowgreen;margin: 0 auto;position: relative;}.box2 {width: 50px;height:…

服务器上安装Orcale数据库以及PL SQL工具(中文)

一、前期准备 1、oracle数据库安装包–>Oracle下载地址&#xff0c;版本根据当时情况就下最新的就行&#xff0c;下载时间可能有点长&#xff0c;耐心点。 2、PL SQL工具下载地址–>PL SQL下载地址&#xff0c;百度网盘可以共享【限速&#xff0c;没办法&#xff01;&am…

javaWeb小白项目--学生宿舍管理系统

目录 一、检查并关闭占用端口的进程 二、修改 Tomcat 的端口配置 三、重新启动 Tomcat 一、javaw.exe的作用 二、结束javaw.exe任务的影响 三、如何判断是否可以结束 结尾&#xff1a; 这个错误提示表明在本地启动 Tomcat v9.0 服务器时遇到了问题&#xff0c;原因是所需…

python爬虫(二)爬取国家博物馆的信息

import requests from bs4 import BeautifulSoup# 起始网址 url https://www.chnmuseum.cn/zx/xingnew/index_1.shtml # 用于存储所有数据 all_data [] page 1 global_index 1 # 定义全局序号变量并初始化为1 while True:html_url requests.get(url).textif requests.get…

2024 年(第 7 届)“泰迪杯”数据分析技能赛B 题 特殊医学用途配方食品数据分析 完整代码 结果 可视化分享

一、背景特殊医学用途配方食品简称特医食品&#xff0c;是指为满足进食受限、消化吸收障碍、代谢素乱或者特定疾病状态人群对营养素或者膳食的特殊需要&#xff0c;专门加工配置而成的配方食品&#xff0c;包括0月龄至12月龄的特殊医学用途婴儿配方食品和适用于1岁以上的特殊医…

TofuAI处理BT1120时序视频要求

时序要求 BT.1120视频用于1920x108030Hz数字视频输入。具体时序必须严格按照说明。BT.1120输入电平为1.8V。 BT1120数字视频采用YCbCr彩色格式输出&#xff0c;串行数据位宽为16bit&#xff0c;亮度在 高8bit&#xff0c;色度在低8bit&#xff0c;亮度和色度在同一个时钟周期输…

ASP.NET MVC宠物商城系统

该系统采用B/S架构&#xff0c;使用C#编程语言进行开发&#xff0c;以ASP.NET MVC框架为基础&#xff0c;以Visual Studio 2019为开发工具&#xff0c;数据库采用SQL Server进行保存数据。系统主要功能包括登录注册、宠物展示、个人中心、我的订单、购物车、用户管理、宠物类别…

嵌入式硬件实战提升篇(一)-泰山派RK3566制作多功能小手机

引言&#xff1a;主要针对于嵌入式全栈内容的知识点汇总并对于linux等相关驱动知识点进行串联&#xff0c;用大家参考学习&#xff0c;并用到了嘉立创提供的泰山派RK3566作为学习的主控。 实物演示如下所示&#xff1a; 目录 一、硬件设计 1.转接电路 2.背光电路 3.音频接…