项目二:学会使用python爬虫请求库(小白入门级)

上一章已经了解python爬虫的基本知识,这一次让我们一起来学会如何使用python请求库爬取目标网站的信息。当然这次爬虫之旅相信我能给你带来不一样的体验。

目录

一、安装requests 库

简介

安装

步骤

1.requests的基本使用3步骤

2.查看所使用编码

3.设置编码

二、认识requests请求方法

GET请求

简介

基本语法

POST请求

简介

基本语法


一、安装requests 库

简介

requests库是一个Python HTTP客户端库,使得发送HTTP请求变得简单。

requests库提供了一种简洁直观的API,用于发送各种HTTP请求,如GET、POST、PUT、DELETE等,并处理返回的响应。

使用requests库,开发者可以轻松地添加头部信息、发送表单数据、上传文件、处理Cookies、使用代理等。它还支持SSL证书验证、连接超时设置、会话对象复用等高级功能。

requests库的设计哲学是“HTTP for Humans”(人类的HTTP),意味着它的API设计尽量符合人类的直觉,让HTTP请求变得像喝水一样自然。

安装

安装命令:pip install requests

注意你需要在安装python虚拟环境下执行,没有python虚拟环境安装命令会报错,当然你也可以使用其他软件来执行,比如pycham、vscode等都可以(前提是你要配置好python环境才能正常运行)

步骤
1.requests的基本使用3步骤
  • 导入模块
  • 发送get请求, 获取响应:
  • 从响应中获取数据:
#导入请求库
import requests
#设置请求网址
response = requests.get('https://www.baidu.com/')
#获取响应数据
print(response.text)

response 常见属性

  • response.text :  响应体 str类型
  • response.ecoding : 二进制转换字符使用的编码
  • respones.content:  响应体 bytes类型

输出结果:

vscode编辑器输出结果

但是作者发现输出的结果包含了一些特殊的字符,ç¾åº¦ä¸ä¸ï¼äå°è´´å»å½这些字符实际上是UTF-8编码的中文字符,由于在命令提示符中没有正确显示,所以看起来像是乱码。

2.查看所使用编码

如果要想知道自已所使用的是什么编码,直接添加如下

# 导入请求库
import requests# 设置请求网址
response = requests.get("https://www.baidu.com/") # 输出信息
print(response.text)# 获取编码
print(response.encoding)

输出结果如下:

就可以看到圈红色的就是所使用的编码ISO-8859-1

小提示:

ISO-8859-1,也称为Latin-1,是一种单字节字符集编码,它是为了表示西欧语言中的大部分字符而设计的。这种编码标准是国际标准化组织(ISO)1987年制定的,它是ISO 8859系列字符集编码中的第一个成员。

ISO-8859-1编码可以表示256个不同的字符,包括英文字母(大写和小写)、数字、标点符号以及一些特殊符号。此外,它还包括西欧语言中的特殊字符,如法语的ç、é、è、ê、ë,德语的ä、ö、ü,以及西班牙语的ñ等。

在计算机和网络技术中,ISO-8859-1曾经被广泛用作默认的字符编码,特别是在早期的互联网和电子邮件系统中。然而,随着多语言互联网内容的增长,这种编码逐渐被更通用的Unicode编码(如UTF-8)所取代,因为Unicode能够表示世界上大多数语言的字符,而ISO-8859-1仅限于西欧语言。

HTML文档中,可以通过<meta charset="ISO-8859-1">标签来指定使用ISO-8859-1字符集。在HTTP头部信息中,也可以通过Content-Type字段来指定字符编码,例如:Content-Type: text/html; charset=ISO-8859-1

3.设置编码

要想把我们的所获取的乱码变为中文字符,只需要设置编码为UTF-8即可,代码如下

# 导入请求库
import requests
# 设置请求网址
response = requests.get('https://www.baidu.com/') 
# 设置编码
response.encoding = 'utf8'
# 输出信息
print(response.text)

输出结果:

上图结果可知乱码变为中文,是不很简单啊,哈哈。

除了设置编码,还有其他使用技巧,比如代码如下

# 打印响应的二进制数据
print(response.content)# 把二进制数据转换字符串
print(response.content.decode())

这两个代码可以单独使用或者组合使用,全看个人使用意愿,但最终目的是把不认识的字转换为我们能认识的字就可以了。

二、认识requests请求方法

这次我们来认识以下requests请求库的主要七个方法,如下:

requsts.requst() - > 构造一个请求,最基本的方法,是下面方法的支撑
requsts.get() - >获取网页,对应HTTP中的GET方法
requsts.post() - > 向网页提交信息,对应HTTP中的POST方法
requsts.head() - > 获取html网页的头信息,对应HTTP中的HEAD方法
requsts.put() - > 向html提交put方法,对应HTTP中的PUT方法
requsts.patch() - > 向html网页提交局部请求修改的的请求,对应HTTP中的PATCH方法
requsts.delete() - > 向html提交删除请求,对应HTTP中的DELETE方法

这次我们来简单的学会如何使用get方法和post方法

GET请求
简介
  • 用途:GET方法主要用于从服务器请求数据。可用于读取操作,并且结果会被显示给用户,如浏览网页。
  • 参数传递:GET方法的参数通过URL传递,通常以键值对的形式附加在URL之后。例如:http://example.com/index.php?name=value&anothername=value2
  • 安全性:由于GET请求的参数在URL中可见,因此不适合传输敏感信息,如密码或个人信息。
  • 缓存:GET请求的结果可以被浏览器缓存,也可以被书签保存。
  • 数据量限制:GET方法由于参数在URL中传递,因此对传输的数据量有限制(URL长度限制)。
基本语法
#导入请求库
import requests
#发送GET请求
r = requests.get('http://httpbin.org/get')
#打印响应内容
print(r.text)

提示

r : 是一个Response对象,一个包含服务器资源的对象
get(url) : 是一个Request对象,构造一个向服务器请求资源的Request。

上述代码是先导入请求库,然后构建简单的get请求方法,设置请求目标网址,最后输出响应信息的一个简单流程。

输出结果

可以看到我们成功发送get请求,返回结果包含有请求头,URL,IP等信息。

下面我们来解释代码各行意思,相信你会了解代码的意图

{"args": {}, #空值,表示在GET请求中没有包含任何查询字符串参数。#请求头headers包含的列出内容"headers": {"Accept": "*/*", #指示客户端可以处理的MIME类型"Accept-Encoding": "gzip, deflate", #指示客户端可以接受的内容编码格式"Host": "httpbin.org", #指示服务器正在访问的主机名"User-Agent": "python-requests/2.31.0", #包含了发出请求的用户代理的信息"X-Amzn-Trace-Id": "Root=1-661cb1d9-5734386062c81b176d2d6f2b" #用于AWS X-Ray跟踪的请求ID},"origin": "112.224.144.133", #表示发出请求的客户端的IP地址"url": "http://httpbin.org/get" #表示请求的URL
}

根据上述简单的案例我想我们能够写出一个简单get请求方法,并且能读懂代码的意思,接下来我们在深入一下怎么使用带参数的get请求传递参数

带参数的GET请求的格式

http://example.com/resource?param1=value1&param2=value2&param3=value3
  • http://example.com/resource 是资源的URL。
  • param1=value1&param2=value2&param3=value3 是查询字符串,包含了三个参数。
  • param1param2param3 是参数的名称(键)。
  • value1value2value3 是与参数名称相对应的值。

对于GET的请求如果我们想要添加多余的信息,一般需要在URL后面拼接,用一个【  ?】分割,参数传递过来后再用【 & 】的符号分割即可。例如我想要添加两个参数,其中name是China,age是5000,然后来构造这个请求连接,那这样的话就可以写为

r = requests.get('http://httpbin.org/get?name=China&age=5000')

0k,这行代码我们构造完毕,接下来我们再使用params这个用来传递参数,方便我们添加代码,一目了然。

提醒:构造好的代码理论上可以直接执行,但是一般情况下,此信息数据会用字典来存储。

代码如下:

import requests
# 设置参数
data = {'name':'China','age':5000
}
# url拼接
r = requests.get('http://httpbin.org/get',params=data)
print(r.text)

输出结果:

好了上述代码我们已经学会如何使用GET请求,也学会了如何构造参数请求的方式和传递参数。

POST请求
简介
  • 用途:POST方法主要用于向服务器提交数据,以创建或更新资源。可用于产生副作用的操作,如表单提交。
  • 参数传递:POST方法的参数在请求体中传递,不会显示在URL中。这使得POST方法可以传输更大量的数据。
  • 安全性:POST方法相对GET方法来说更安全,因为参数不会在URL中暴露。
  • 缓存:POST请求的结果通常不会被浏览器缓存,也不能被书签保存。
  • 数据量限制:POST方法没有数据量限制,理论上可以传输更大量的数据,但实际上可能受到服务器配置或HTTP库的限制。
基本语法
# 导入请求库
import requests# 发送请求
res = requests.post('http://www.httpbin.org/post',data={'username':'China','password':5000})# text 接收返回内容
print(res.text)

注意哈,post方法用于提交数据,跟get方法不同

输出结果

提示:res作为变量名代表“response”的缩写,这是一个广泛接受的做法,用于表示HTTP请求的响应对象。当然,您也可以使用其他变量名,如responser

POST请求的语法格式通常遵循以下结构:

POST /path/to/resource HTTP/1.1 #post请求方式以及请求路径和协议版本
Host: www.example.com #指定IP地址
Content-Type: application/x-www-form-urlencoded  #请求体的媒体类型
Content-Length: [length]  #请求体的长度
[key1=value1&key2=value2] #请求体的内容

这个post请求参数的语法格式我们一般不需要太重视(按实际需要),因为这是基于HTTP协议的原始请求格式,无需手动构造请求函数,高级的HTTP客户端库(如Python的requests库)会帮助我们处理这些细节。

好了,今日分享到此一游,通过这次学习我们可以学会如何通过安装和使用requests请求库以及能够编写基本的请求函数代码,同时也能够认识post和get两个不同的请求方法

点个关注不迷路,期待你的肯定🎁❤️💖

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/854.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis中BitMap在钉钉机器人中的应用

性能分析 数据库中有1000w用户&#xff0c;每个用户签到一次&#xff0c;对应两个字段 连续签到多少次 、签到时间。 签到时间字段占用10个字节&#xff0c;连续签到多少天 占用5个字节&#xff08;假设一个用户能活100年&#xff0c;每天都签到&#xff0c;一个用户最多签到3…

前端框架技术革新历程:从原生DOM操作、数据双向绑定到虚拟DOM等框架原理深度解析,Web开发与用户体验的共赢

前端的发展与前端框架的发展相辅相成&#xff0c;形成了相互驱动、共同演进的关系。前端技术的进步不仅催生了前端框架的产生&#xff0c;也为其发展提供了源源不断的动力。 前端的发展 前端&#xff0c;即Web前端&#xff0c;是指在创建Web应用程序或网站过程中负责用户界面…

使用Azure AI Search和LlamaIndex构建高级RAG应用

RAG 是一种将公司信息合并到基于大型语言模型 &#xff08;LLM&#xff09; 的应用程序中的常用方法。借助 RAG&#xff0c;AI 应用程序可以近乎实时地访问最新信息&#xff0c;团队可以保持对其数据的控制。 在 RAG 中&#xff0c;您可以评估和修改各个阶段以改进结果&#x…

2024年思维100春季线上赛今天开赛,来做历年真题700道感受下难度

今天是2024年4月20日&#xff0c;下午13点开始2024年春季思维100活动第一阶段的线上比赛就按年级正式开始了&#xff0c;先祝愿所有的参赛选手考出好成绩&#xff01; 这次没有参赛的孩子们也可以来做做历年的思维100真题&#xff0c;看看思维100考什么、怎么考、难度怎么样。如…

ProgressFlowmon的confluence接口存在任意命令执行漏洞(CVE-2024-2389)

声明&#xff1a; 本文仅用于技术交流&#xff0c;请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;文章作者不为此承担任何责任。 简介 ProgressFlowmon是一整套用于网络映射、应用程序性能…

C++ | Leetcode C++题解之第29题两数相除

题目&#xff1a; 题解&#xff1a; class Solution { public:int divide(int dividend, int divisor) {// 考虑被除数为最小值的情况if (dividend INT_MIN) {if (divisor 1) {return INT_MIN;}if (divisor -1) {return INT_MAX;}}// 考虑除数为最小值的情况if (divisor I…

【计算机组成原理】运算方法和运算器

数据与文字的表示方法 1. 数据格式1.1 定点数表示方法1.1.1 定点小数1.1.2 定点整数 1.2 浮点数表示方法1.2.1 浮点数表示1.2.2 浮点数的规格化1.2.2.1 尾数为原码表示的规格化1.2.2.2 尾数为补码表示的规格化 1.2.3 IEEE754标准⭐ 1.3 十进制数串的表示方法1.3.1 字符串形式1.…

Tensorflow2.0笔记 - 使用卷积神经网络层做CIFA100数据集训练(类VGG13)

本笔记记录CNN做CIFAR100数据集的训练相关内容&#xff0c;代码中使用了类似VGG13的网络结构&#xff0c;做了两个Sequetial&#xff08;CNN和全连接层&#xff09;&#xff0c;没有用Flatten层而是用reshape操作做CNN和全连接层的中转操作。由于网络层次较深&#xff0c;参数量…

centos搭建yum源

目录 1.createrepo简介 2.repo搭建思路 3.安装 4.使用 1.createrepo简介 createrepo 是一个用于创建 RPM 包的工具&#xff0c;它可以帮助你创建一个本地的 YUM 仓库。createrepo 并不是用于运行 YUM 仓库服务的软件&#xff0c;而是用来生成仓库的元数据&#xff0c;使得…

区分软件成熟度模型集成的五个等级

概念讲解 软件成熟度模型集成&#xff08;CMMI&#xff0c;Capability Maturity Model Integration&#xff09;是一种评估和改进软件开发过程的模型。CMMI的五个成熟度等级分别是&#xff1a; 初始级&#xff08;Level 1 - Initial&#xff09;&#xff1a;在这个等级&#x…

【Taro3踩坑日记】找不到sass的类型定义文件

问题截图如下&#xff1a;找不到sass的类型定义文件 解决办法&#xff1a; 1、npm i types/sass1.43.1 2、然后配置 TypeScript 编译选项&#xff1a;确保 TypeScript 编译器能够识别 Sass 文件&#xff0c;并正确处理它们。

PyTorch的核心概念

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

AWS账号注册以及Claude 3 模型使用教程!

哈喽哈喽大家好呀&#xff0c;伙伴们&#xff01;你听说了吗&#xff1f;最近AWS托管了大热模型&#xff1a;Claude 3 Opus&#xff01;想要一探究竟吗&#xff1f;那就赶紧来注册AWS账号吧&#xff01;别担心&#xff0c;现在注册还免费呢&#xff01;而且在AWS上还有更多的大…

【Linux】认识文件(一):文件标识符

【Linux】认识文件&#xff08;一&#xff09;&#xff1a;文件标识符 一.什么是文件&#xff1f;1.文件的本质2.文件的分类 二.访问文件操作1.C语言中的访问文件接口i.fopenii.fcloseiii.fwrite 2.系统访问文件接口i.openii.closeiii.write 三.文件管理1.对所有打开文件的管理…

FlinkCDC基础篇章2-数据源 SqlServerCDC写入到ES中

接着 上期FlinkCDC基础篇章1-安装使用 下载 Flink 和所需要的依赖包 # 下载 Flink 1.17.0 并将其解压至目录 flink-1.17.0 下载下面列出的依赖包&#xff0c;并将它们放到目录 flink-1.17.0/lib/ 下&#xff1a; 下载链接只对已发布的版本有效, SNAPSHOT 版本需要本地编译 …

【分治】Leetcode 数组中的第K个最大元素

题目讲解 数组中的第K个最大元素 算法讲解 堆排序&#xff1a;1. 寻找最后一个节点的父亲&#xff0c;依次向上遍历&#xff0c;完成小堆的建立&#xff1b;2. 从最后一个元素开始&#xff0c;和堆顶的数据做交换&#xff0c;此时最小的数据在对后面&#xff0c;然后对剩下的…

部署轻量级Gitea替代GitLab进行版本控制(一)

Gitea 是一款使用 Golang 编写的可自运营的代码管理工具。 Gitea Official Website gitea: Gitea的首要目标是创建一个极易安装&#xff0c;运行非常快速&#xff0c;安装和使用体验良好的自建 Git 服务。我们采用Go作为后端语言&#xff0c;这使我们只要生成一个可执行程序即…

【React】Sigma.js框架网络图-入门篇

一、介绍 Sigma.js是一个专门用于图形绘制的JavaScript库。 它使在Web页面上发布网络变得容易&#xff0c;并允许开发人员将网络探索集成到丰富的Web应用程序中。 Sigma.js提供了许多内置功能&#xff0c;例如Canvas和WebGL渲染器或鼠标和触摸支持&#xff0c;以使用户在网页上…

Echarts-丝带图

Echarts-丝带图 demo地址 打开CodePen 什么是丝带图&#xff1f; 丝带图是Power BI中独有额可视化视觉对象&#xff0c;它的工具提示能展示指标当期与下期的数据以及排名。需求&#xff1a;使用丝带图展示"2022年点播订单表"不同月份不同点播套餐对应订单数据。 …

搭建HBase2.x完全分布式集群(CentOS 9 + Hadoop3.x)

Apache HBase™是一个分布式、可扩展、大数据存储的Hadoop数据库。 当我们需要对大数据进行随机、实时的读/写访问时&#xff0c;可以使用HBase。这个项目的目标是在通用硬件集群上托管非常大的表——数十亿行X数百万列。Apache HBase是一个开源、分布式、版本化的非关系数据库…