Python网页处理与爬虫实战:使用Requests库进行网页数据抓取


✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭~✨✨

🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢,在这里我会分享我的知识和经验。🎥

希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏:Python

欢迎访问我的主页:Srlua小谢 获取更多信息和资源。✨✨🌙🌙

​​

​​

目录

Python网页处理与爬虫实战:使用Requests库进行网页数据抓取

问题概述

Python与网页处理

安装requests 库

网页爬虫

拓展:Robots 排除协议

requests 库的使用

requests 库概述

requests 库中的网页请求函数

网页请求函数

Response 对象的属性

Response 对象的方法

获取一个网页内容


Python网页处理与爬虫实战:使用Requests库进行网页数据抓取

问题概述

Python 语言实现网络爬虫的问题引入

Python与网页处理

  • Python 语言发展中有一个里程碑式的应用事件,即 美国谷歌( GOOGLE) 公司在搜索引擎后端采用  Python 语言进行链接处理和开发,这是该语言发展 成熟的重要标志。Python 语言的简洁性和脚本特点 非常适合链接和网页处理
  • 万维网(WWW)的快速发展带来了大量获取和提 交网络信息的需求,这产生了“网络爬虫”等一系列 应用。
  • Python    语言提供了很多类似的函数库,包括urllib 、urllib2、urllib3、wget、scrapy、requests    等。 这些库作用不同、使用方式不同、用户体验不同。
  • 对于爬取回来的网页内容,可以通过re(正则表达 式)、beautifulsoup4等函数库来处理,随着该领 域各函数库的发展,本章将详细介绍其中最重要且最 主流的两个函数库:requests 和beautifulsoup4,  它们都是第三方库。

网络爬虫应用一般分为两个步骤:

(1)通过网络连接获取网页内容

(2)对获得的网页内容进行处理。

这两个步骤分别使用不同的函数库:requests    和 beautifulsoup4

安装requests 库

采用pip指令安装requests库,如果在Python2和Python3并存的系统中,采用pip3 指令 :\>pip install requests # 或者 pip3 install requests

采用pip或pip3指令安装beautifulsoup4库,注意,不要安装beautifulsoup库,后者由于年久失修 ,已经不再维护了 :\>pip install beautifulsoup4 # 或者 pip3 install beautifulsoup4

网页爬虫

使用Python语言实现网络爬虫和信息提交是非常简单的事情 ,代码行数很少,也无须知道网络通信等方面知识,非常适合 非专业读者使用。然而,肆意的爬取网络数据并不是文明现象 ,通过程序自动提交内容争取竞争性资源也不公平。就像那些 肆意的推销电话一样,他们无视接听者意愿,不仅令人讨厌也 有可能引发法律纠纷。

拓展:Robots 排除协议

Robots 排除协议(Robots Exclusion Protocol),也被称为爬虫协议,它是 网站管理者表达是否希望爬虫自动获取网络信息意愿的方法。管理者可以在网 站根目录放置一个robots.txt 文件,并在文件中列出哪些链接不允许爬虫爬取 。一般搜索引擎的爬虫会首先捕获这个文件,并根据文件要求爬取网站内容。

Robots 排除协议重点约定不希望爬虫获取的内容,如果没有该文件则表示网 站内容可以被爬虫获得,然而,Robots 协议不是命令和强制手段,只是国际 互联网的一种通用道德规范。绝大部分成熟的搜索引擎爬虫都会遵循这个协议 ,建议个人也能按照互联网规范要求合理使用爬虫技术。

——君子协议——

requests 库的使用

requests    库是一个简洁且简单的处理HTTP请求的第三方库

requests 库概述

requests 的最大优点是程序编写过程更接近正常 URL 访问过程。

  • 这个库建立在Python语言的urllib3库基础上,类似这种在其他函数库之上再封装功能提供更友好函数的方式在Python语言中十分常见。在Python的生态圈里,任何人都有通过技术创新或体验创新发表意 见和展示才华的机会。
  • request 库支持非常丰富的链接访问功能,包括:国际域名和 URL 获取、HTTP 长连接和连接缓存、HTTP 会话和Cookie 保 持、浏览器使用风格的SSL 验证、基本的摘要认证、有效的键 值对Cookie 记录、自动解压缩、自动内容解码、文件分块上传 、HTTP(S) 代理功能、连接超时处理、流数据下载等。
  • 有关 requests 库的更多介绍请访问: http://docs.python‐requests.org

requests 库中的网页请求函数

get() 是获取网页最常用的方式 , 在调用requests.get()函数后,返回的网页内容会保存为一 个Response对象,其中,get()函数的参数url 必须 链接采用HTTP 或HTTPS方式访问

网页请求函数

 和浏览器的交互过程一样,requests.get()代表请求 过程,它返回的Response 对象代表响应。返回内容 作为一个对象更便于操作,Response 对象的属性如 下表所示,需要采用<a>.<b>形式使用。

Response 对象的属性

  • status_code   属性返回请求HTTP    后的状态,在处理数据之前要先判断状态情况,如果请求未被响应, 需要终止内容处理。
  • text 属性是请求的页面内容,以字符串形式展示。
  • encoding  属性非常重要,它给出了返回页面内容的编码方式,可以通过对encoding属性赋值更改编码 方式,以便于处理中文字符
  • content 属性是页面内容的二进制形式

Response 对象的方法

 ​​​​​

  • json() 方法能够在HTTP响应内容中解析存在的 JSON 数据,这将带来解析HTTP的便利。 
  • raise_for_status()方法能在非成功响应后产生异常,即只要返 回的请求状态status_code 不是200,这个方法会产生一个异 常,用于try…except 语句。使用异常处理语句可以避免设置一 堆复杂的if 语句,只需要在收到响应调用这个方法,就可以避 开状态字200 以外的各种意外情况。
  • requests    会产生几种常用异常。当遇到网络问题时,如: DNS查询失败 、 拒绝连接等 , requests 会 抛 出 ConnectionError 异常;遇到无效HTTP 响应时,requests 则 会抛出HTTPError 异常;若请求url 超时,则抛出Timeout 异 常; 若请求超过了设定的最大重定向次数, 则会抛出一个  TooManyRedirects 异常

获取一个网页内容

实战示例:

Python爬虫项目实战案例-批量下载网易云榜单音乐保存至本地_python爬取制定名称歌曲并下载-CSDN博客

​​

希望对你有帮助!加油!

若您认为本文内容有益,请不吝赐予赞同并订阅,以便持续接收有价值的信息。衷心感谢您的关注和支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/19341.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【前端】Vuex笔记(超详细!!)

最近花了两周时间&#xff0c;完完全全的跟着Vuex官方的视频学完了Vuex并且详详细细的做了笔记&#xff0c;其中总结部分是我对于整个视频课程的总结&#xff0c;视频部分是跟着视频做的笔记&#xff0c;如果总结部分有不懂的话&#xff0c;直接去视频部分查找对应的笔记即可&a…

ios:文本框默认的copy、past改成中文复制粘贴

问题 ios 开发&#xff0c;对于输入框的一些默认文案展示&#xff0c;如复制粘贴是英文的&#xff0c;那么如何改为中文的呢 解决 按照路径找到这个文件 ios/项目/Info.plist&#xff0c;增加 <key>CFBundleAllowMixedLocalizations</key> <true/> <…

Keras深度学习框架实战(1):图像分类识别

1、绪论 1.1 图像分类的定义 图像分类是计算机视觉领域中的一项基本任务&#xff0c;其定义是将输入图像分配给预定义类别中的一个或多个。具体来说&#xff0c;图像分类系统接受一个图像作为输入&#xff0c;并输出一个或多个类别标签&#xff0c;这些标签描述了图像中的内容…

第十三届蓝桥杯物联网试题(国赛)

还是那句话不能掉以轻心&#xff0c;全力以赴吧&#xff0c;遇事不要慌&#xff0c;该做的都做了&#xff0c;冷静沉稳的处理&#xff0c;看看配置&#xff0c;看看代码&#xff0c;还是不行就重启&#xff0c;都没问题换个板子 下面对比较复杂的部分的处理过程进行展现&#x…

git报错prohibited by Gerrit: not permitted: update

git push报错&#xff1a; Push to refs/for/[branch] to create a review, or get Push rights to update the branch. Contact an administrator to fix the permissions (prohibited by Gerrit: not permitted: update)原因&#xff1a; 使用Gerrit代码审核时&#xff0c;本…

CentOS 7基础操作02_优化Linux操作系统中的服务

1、实验环境 公司在文件服务器中新安装了CentOS系统.由于默认启动的服务程序较多&#xff0c;系统运行缓慢。现需要对系绞服务进行适当优化&#xff0c;减少一些不必要的自启动服务.并设置系统在开机后直接进入字符模式。 2、需求描述 根据实际使用需求对CentOS 7操作系统中的…

postgressql——PGPROC XLOG(6)

PGPROC相关结构 在共享内存中,核心数据结构围绕PROC_HDR指向的两个list:PROC和XACT PRCO内存连续,维护链表结构方便申请释放,对应每个后台服务进程,PID为OS标识、PGPROCNO为内部标识 XACT内存连续,维护快照需要的xmin和xid,XACT从PROC拆出来是为了更高的cache line命中…

IBM开源Granite Code模型,多尺寸可选,支持多种代码任务,性能媲美 CodeLlama

前言 近年来&#xff0c;大型语言模型&#xff08;LLM&#xff09;在代码领域展现出惊人的潜力&#xff0c;为软件开发流程带来了革命性的改变。代码 LLM 不仅能够生成高质量代码&#xff0c;还能帮助程序员修复错误、解释代码、编写文档等等&#xff0c;极大地提高了软件开发…

【kubernetes】探索k8s集群的存储卷、pvc和pv

目录 一、emptyDir存储卷 1.1 特点 1.2 用途 1.3部署 二、hostPath存储卷 2.1部署 2.1.1在 node01 节点上创建挂载目录 2.1.2在 node02 节点上创建挂载目录 2.1.3创建 Pod 资源 2.1.4访问测试 2.2 特点 2.3 用途 三、nfs共享存储卷 3.1特点 3.2用途 3.3部署 …

Web程序设计-实验05 DOM与BOM编程

题目 【实验主题】 影视网站后台影视记录管理页设计 【实验任务】 1、浏览并分析多个网站后台的列表页面、编辑页面&#xff08;详见参考资源&#xff0c;建议自行搜索更多后台页面&#xff09;的主要元素构成和版面设计&#xff0c;借鉴并构思预期效果。 2、新建 index.h…

正则匹配优化:匹配排除多个字符串的其他字符串

(^entity|^with|...)\w优化 (?!entity|with|has|index|associations|input)\w(?!): 匹配排除项 效果 继续优化 匹配会过滤掉带有关键字的字段&#xff0c;在过滤的时候是可以加上尾部结束匹配符的 效果&#xff1a;

thinkphp6 自定义的查询构造器类

前景需求&#xff1a;在查询的 时候我们经常会有一些通用的&#xff0c;查询条件&#xff0c;但是又不想每次都填写一遍条件&#xff0c;这个时候就需要重写查询类&#xff08;Query&#xff09; 我目前使用的thinkphp版本是6.1 首先自定义CustomQuery类继承于Query <?p…

【C语言回顾】预处理

前言1. 简单概要2. 预处理命令讲解结语 上期回顾: 【C语言回顾】编译和链接 个人主页&#xff1a;C_GUIQU 归属专栏&#xff1a;【C语言学习】 前言 各位小伙伴大家好&#xff01;上期小编给大家讲解了C语言中的编译和链接&#xff0c;接下来我们讲解一下预处理&#xff01; …

【香橙派 AIpro】新手保姆级开箱教程:Linux镜像+vscode远程连接

香橙派 AIpro 开发板 AI 应用部署测评 写在最前面一、开发板概述官方资料试用印象适用场景 二、详细开发前准备步骤1. 环境准备2. 环境搭建3. vscode安装ssh插件4. 香橙派 AIpro 添加连接配置5. 连接香橙派 AIpro6. SSH配置 二、详细开发步骤1. 登录 juypter lab2. 样例运行3. …

【IDEA】-使用IDEA查看类之间的依赖关系

1、父子类的继承、实现关系 1.1、使用CTRL Alt U 选择 java class 依据光标实际指向的类位置 用实心箭头表示泛化关系 是一种继承的关系&#xff0c;指向父类 可以提前设置需要显示的类的属性、方法等信息 快捷键 Ctrl Alt S &#xff0c;然后搜索 Diagrams 1.2、使用…

python知识继续学习

1、计算机表示小数是有误差的&#xff0c;下面的5就是误差 2、在python中&#xff0c;所有的非0数字都是True&#xff0c;零是False。所有的非空字符串都是True&#xff0c;空字符串是False。空列表是False。在python的基本数据类型中&#xff0c;表示空的东西都是False&#x…

数据结构(三)循环链表 约瑟夫环

文章目录 一、循环链表&#xff08;一&#xff09;概念&#xff08;二&#xff09;示意图&#xff08;三&#xff09;操作1. 创建循环链表&#xff08;1&#xff09;函数声明&#xff08;2&#xff09;注意点&#xff08;3&#xff09;代码实现 2. 插入&#xff08;头插&#x…

【linux】运维-基础知识-认知hahoop周边

1. HDFS HDFS&#xff08;Hadoop Distributed File System&#xff09;–Hadoop分布式文件存储系统 源自于Google的GFS论文&#xff0c;HDFS是GFS的克隆版 HDFS是Hadoop中数据存储和管理的基础 他是一个高容错的系统&#xff0c;能够自动解决硬件故障&#xff0c;eg&#xff1a…

【Linux 网络编程】网络的背景、协议的分层知识!

文章目录 1. 计算机网络背景2. 认识 "协议"3. 协议分层 1. 计算机网络背景 网络互联: 多台计算机连接在一起, 完成数据共享; &#x1f34e;局域网&#xff08;LAN----Local Area Network&#xff09;: 计算机数量更多了, 通过交换机和路由器连接。 &#x1f34e; 广…

多模态模型入门:BLIP与OWL-ViT

BLIP 数据预处理 CapFilt&#xff1a;标题和过滤 由于多模态模型需要大量数据集&#xff0c;因此通常必须使用图像和替代文本 (alt-text) 对从互联网上抓取这些数据集。然而&#xff0c;替代文本通常不能准确描述图像的视觉内容&#xff0c;使其成为噪声信号&#xff0c;对于…