pythonwhile爬虫教程_Python 爬虫从入门到进阶之路(十一)

之前的文章我们介绍了一下 Xpath 模块,接下来我们就利用 Xpath 模块爬取《糗事百科》的糗事。

之前我们已经利用 re 模块爬取过一次糗百,我们只需要在其基础上做一些修改就可以了,为了保证项目的完整性,我们重新再来一遍。

b29ccaf108d464b1dcffcfef9a06ef49.png

我们通过 Xpath Helper 的谷歌插件经过分析获取到我们想要的内容为: //div[@class="content"]/span[1]

9120cded375984b2bac3a46760f6bb75.png

然后我们就可以通过 text() 来获取里面的内容了, //div[@class="content"]/span[1]/text()

1 importurllib.request2 from lxml importetree3 importssl4

5 #取消代理验证

6 ssl._create_default_https_context =ssl._create_unverified_context7

8 url = "https://www.qiushibaike.com/text/page/1/"

9 #User-Agent头

10 user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36'

11 headers = {'User-Agent': user_agent}12 req = urllib.request.Request(url, headers=headers)13 response =urllib.request.urlopen(req)14 #获取每页的HTML源码字符串

15 html = response.read().decode('utf-8')16 #解析html 为 HTML 文档

17 selector =etree.HTML(html)18 content_list = selector.xpath('//div[@class="content"]/span[1]/text()')19 print(content_list)

输出结果为:

1e160ea2a2bd7a9e18e63390fa79a8cd.png

从上面的输出结果可以看出我们已经拿到了我们想要的数据,并且是一个列表类型,我们对列表进行操作扥别拿到糗事再存储到本地即可。

1 for item initem_list:2 item = item.replace("\n", "")3 self.writePage(item)

上面的代码中 item_list 即为我们上面所获取到的 content_list 列表,在之前通过 re 模块获取数据时通过对列表的内容分析,我们发现有 ,查看全文,
,\n 等多余内容,而通过 Xpath 只有 \n 为多余,我们通过 replace 方法将其转为空,剩下的就是我们想要的内容了,接下来就是存储到本地即可了。

上面就可以实现一个获取 糗事百科 的糗事的简单爬虫,但是只能爬取单个页面的内容,通过分析 url 我们发现 https://www.qiushibaike.com/text/page/1/ 中最后的 1 即为页码,我们就可以根据这个页码逐一爬取更多页面的内容,最终的代码如下:

1 importurllib.request2 from lxml importetree3 importssl4

5 #取消代理验证

6 ssl._create_default_https_context =ssl._create_unverified_context7

8

9 classSpider:10 def __init__(self):11 #初始化起始页位置

12 self.page = 1

13 #爬取开关,如果为True继续爬取

14 self.switch =True15

16 defloadPage(self):17 """

18 作用:打开页面19 """

20 url = "https://www.qiushibaike.com/text/page/" + str(self.page) + "/"

21 #User-Agent头

22 user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36'

23 headers = {'User-Agent': user_agent}24 req = urllib.request.Request(url, headers=headers)25 response =urllib.request.urlopen(req)26 #获取每页的HTML源码字符串

27 html = response.read().decode('utf-8')28 #解析html 为 HTML 文档

29 selector =etree.HTML(html)30 content_list = selector.xpath('//div[@class="content"]/span[1]/text()')31 #调用dealPage() 处理糗事里的杂七杂八

32 self.dealPage(content_list)33

34 defdealPage(self, item_list):35 """

36 @brief 处理得到的糗事列表37 @param item_list 得到的糗事列表38 @param page 处理第几页39 """

40 for item initem_list:41 item = item.replace("\n", "")42 self.writePage(item)43

44 defwritePage(self, text):45 """

46 @brief 将数据追加写进文件中47 @param text 文件内容48 """

49 myFile = open("./qiushi.txt", 'a') #追加形式打开文件

50 myFile.write(text + "\n\n")51 myFile.close()52

53 defstartWork(self):54 """

55 控制爬虫运行56 """

57 #循环执行,直到 self.switch == False

58 whileself.switch:59 #用户确定爬取的次数

60 self.loadPage()61 command = input("如果继续爬取,请按回车(退出输入quit)")62 if command == "quit":63 #如果停止爬取,则输入 quit

64 self.switch =False65 #每次循环,page页码自增1

66 self.page += 1

67 print("爬取结束!")68

69

70 if __name__ == '__main__':71 #定义一个Spider对象

72 qiushiSpider =Spider()73 qiushiSpider.startWork()

最终会在本地添加一个 qiushi.txt 的文件,结果如下:

3d77b67fe6ff32903a717c33f174fcd5.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/564615.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿联酋esma认证怎么做_百度爱采购企业认证是怎么做的?这些你要知道!

入驻百度爱采购的企业可以获得认证标识,这个标识是企业品牌树立的重要表现,在产品展示页面和百度首页搜索企业名称都有企业信息的醒目展示,并且可以直接跳转到企业店铺,为企业带来流量的同时,还能进行品牌的宣传。百度…

人脸离线识别模块_人脸消费机离线刷脸如何实现?

随着越来越多刷卡刷脸一卡通的设备出现。大家在享受一卡通的便利的同时。也在考虑人脸消费机的基本功能和安全属性,人脸消费机,是指人脸在消费访客管理方面的相关。在人脸刷脸进行消费的时候是一下几个阶段1.人脸特征提取首先得先让人脸消费机看到你的脸…

junit版本_Junit-jupiter-api 和 junit-jupiter-engine 的区别是什么

我们都知道 JUnit 是用于进行单元测试的。但是 Junit 5 和 Junit 4 的区别比较大。 很多时候你可能会遇到 Junit 引擎配置错误导致测试无法进行。junit-jupiter-api JUnit 5 Jupiter API 的测试,你需要使用这个 API 来写测试和进行扩展。junit-jupiter-engine JUnit…

mysql数据库基础简介_MySql数据库基础之数据库简介及安装

MySql数据库简介:众所周知,MySql数据库是一款开源的关系型数据库,在Web应用方面,MySql是最好的、最流行的RDBMS(Relational Database Management System,关系型数据库管理系统)应用软件。MySql的4大特点:1.MySql是开源…

Java访问控制修饰符详解

在 Java 语言中提供了多个作用域修饰符,其中常用的有 public、private、protected、final、abstract、static、transient 和 volatile,这些修饰符有类修饰符、变量修饰符和方法修饰符。 在实际生活中,如果要获取某件物品,与其直接…

为资产分类定义折旧范围_RFID固定资产管理系统方案

项目介绍随着经济的不断发展,企业的规模日益壮大,固定资产管理作为企业资产管理最要的一部分,一直是企业关注的难题。由于固定资产具有价值高,使用周期长、使用地点分散的特点、相关责任人员多,在实际工作中不容易做到…

ssh中c3p0连接mysql_JSP+SSH+Mysql+C3P0实现的传智播客网上商城

项目简介本系统是传智播客授课时的开发案例,基于JSPSSHMysql的简单网上商城。在当代开发中,SSH的使用已经逐渐被SSM取代,但不代表我们不需要学习SSH,该系统简单,但功能齐全可以作为SSH框架初学者的入门项目。难度等级&…

zabbix配置mysql监控_【zabbix】zabbix配置MySQL监控

说明:除最后的测试步骤之外,以下操作均在zabbix的agent端(被监控端)执行一、环境准备:1、操作系统:CentOS 5.6 (zabbix server端)CentOS 5.6 (zabbix agent端)2、数据库:MySQL 5.6 (安装在agent端的数据库)3、软件&…

北信源管理网页卸载密码_Homebrew: 一行代码实现mac软件管理

Homebrew是一款帮助我们管理软件的软件。任何开源软件都可以通过Homebrew的一行代码完成软件的下载、升级或卸载等。目前Homebrew主要适用macOS或Linux系统。(Windows系统下的类似软件叫Chocolatey,功能相近,使用方法类似。详情请见https://chocolatey.o…

java集合基础_java常用集合基础知识

【纯出自个人笔记,如有错误,望改正,谢谢哈!学习~】一、Java集合1、集合类:容器类 装对象的(不能存放基本数据类型,但是里面看到的其实是包装类型)java.util包ArrayList底层是一个对象数组----------------------------…

java cookie安全_cookie的安全性问题

HTTP协议:(1)请求组成部分:请求行:(get或者post请求;请求路径(不包括主机) ;http1.1)请求头:请求头是浏览器交给服务器的一些信息(比较cookie啥的)请求体:只有post请求有请求体,get请…

java幻灯片播放代码_简单常用的幻灯片播放实现代码

幻灯片自动播放图片是当前网站比较流行的一个展示方式。在网上我们能找到各种特效丰富的幻灯片插件和代码。这里项目需要,我自己做了一个简单的,就不详细讲解了,代码很简单。直接看效果图和代码吧。所有代码 ppt.html,需要提供相应…

ssms没有弹出服务器验证_powerbi报表服务器搭建链接

作品展示​www.chinapowerbi.com安装 Power BI 报表服务器所要满足的硬件和软件要求 - Power BI​docs.microsoft.comDownload 用于基于 x64 的系统的 Windows 8.1 更新程序 (KB2919442) from Official Microsoft Download Center​www.microsoft.comDownload Windows Server 2…

groovy java_在java中使用groovy怎么搞

临摹微笑一种基于Java虚拟机的动态语言,可以和java无缝集成,正是这个特性,很多时候把二者同时使用,把groovy作为java的有效补充。对于Java程序员来说,学习成本几乎为零。同时支持DSL和其他简介的语法(例如闭包)&#x…

mysql 类似wm concat_oracle的wm_concat()和mysql的group_concat()合并同列变成一行的用法以及和concat()合并不同列的区别...

前言标题几乎已经说的很清楚了,在oracle中,concat()函数和 “ || ” 这个的作用是一样的,是将不同列拼接在一起;那么wm_concat()是将同属于一个组的(group by)同一个字段拼接在一起变成一行。mysql是一样的,只不过mysq…

试图将驱动程序添加到存储区_基于容器的块存储使用

什么是块存储?分布式存储系统,为业务与数据在集群内漂移提供了自由保障,满足企业对于不受约束的系统环境要求。同时,平台仅保存迁移被改动的数据,而非整体增加数据量,实现增量备份。魔方云块存储的功能&…

如何编译和运行C++程序?

C 和C语言类似,也要经过编译和链接后才能运行。那么C是如何运行的呢,C和C的运行步骤是一样的。我们需要留意的是C源文件的后缀,以及GCC 中的g命令。 下图是 C/C 代码生成可执行文件的过程: C源文件的后缀 C语言源文件的后缀非…

堆排序java实例_堆排序(示例代码)

前言:网上有很多堆排序的案例,我只想写自己堆排序。一:堆结构即:一个父节点最多只能有两个子节点(可以没有),如下图图1图2图3 图4二: 数组与堆结构转换假设已知堆数组 int[] a {9,7,6,4,5,1,3,2,} 则相…

python 生成图片_python生成带有表格的图片

因为工作中需要,需要生成一个带表格的图片例如:直接在html中写一个table标签,然后单独把表格部分保存成图片或者是直接将excel中的内容保存成一个图片刚开始的思路,是直接生成一个带有table标签的html文件,然后将这个文…

wpf xaml突然不能自动补齐代码_Xaml+C#桌面客户端跨平台初体验

(给DotNet加星标,提升.Net技能)转自:大头BigHeadcnblogs.com/Big-Head/p/12614118.html前言随着 .NET 5的到来,微软在 .NET跨平台路上又开始了一个更高的起点。回顾.NET Core近几年的成果,可谓是让.NET重生了一次.ASP .NET Core跨…