【Python3爬虫】为什么你的博客没人看呢?

我相信对于很多爱好和习惯写博客的人来说,如果自己的博客有很多人阅读和评论的话,自己会非常开心,但是你发现自己用心写的博客却没什么人看,多多少少会觉得有些伤心吧?我们今天就来看一下为什么你的博客没人看呢?

 

一、页面分析

首先进入博客园首页,可以看到一页有20篇博客简介,然后有200页,也就是说总共有20*200=4000篇博客。这时我们点击下一页,可以看到网页上的链接变成了https://www.cnblogs.com/#p2,看起来好像很简单--只需要改变#p后面的数字就好了,真的是这样吗?打开开发者工具,刷新页面,可以找到如下链接:

所携带的参数是这样的:

我们很容易就知道只需要改变PageIndex的数值就能实现翻页了。

 

二、解析网页

返回的结果如下图:

 

我们可以很方便的使用xpath来解析,相关代码如下:

1 et = etree.HTML(html)
2 title_list = et.xpath('//*[@class="post_item_body"]/h3/a/text()')  # 标题
3 author_list = et.xpath('//*[@class="post_item_foot"]/a/text()')  # 作者
4 time_list = et.xpath('//*[@class="post_item_foot"]/text()')  # 发布时间
5 read_list = et.xpath('//*[@class="post_item_foot"]/span[2]/a/text()')  # 阅读数
6 comment_list = et.xpath('//*[@class="post_item_foot"]/span[1]/a/text()')  # 评论数

这里得到的数据都是”发布于 2019-01-23 14:16“、”评论(0)“、”阅读(86)“这种,这样显然不利于我们对数据进行分析,所以还需要进行一下处理,相关代码如下:

1 # 处理数据
2 time_list = [i.strip().lstrip('发布于 ') for i in time_list if i.strip() != '']
3 comment_list = [int(i.strip().strip('评论(').rstrip(')')) for i in comment_list]
4 read_list = [int(i.strip().strip('阅读(').rstrip(')')) for i in read_list]

 

三、存储数据

这次我使用的数据库是MySQL数据库,首先创建一个数据表blogs,SQL代码如下:

create table if not exists blogs(
title varchar(100) not null,
author varchar(30) not null,
rtime varchar(30) not null,
readnum int(6) not null,
commentnum int(6) not null);

然后就可以把爬取的数据都保存到数据库里,最后进入数据库查看一下:

 

 四、数据分析

 大家都是几点写博客的呢?什么时候写的博客会被更多人看到呢?这里我们可以建一个字典dic1,一个数字代表一个小时,其对应的值就是这个小时里发布的博客的数量之和,如下:

dic1 = {
0: 0, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0, 6: 0, 7: 0, 8: 0, 9: 0, 10: 0, 11: 0, 12: 0,
13: 0, 14: 0, 15: 0, 16: 0, 17: 0, 18: 0, 19: 0, 20: 0, 21: 0, 22: 0, 23: 0,
}

同理还可以建立一个一样的字典dic2,但是dic2中每个键的值是这个小时里发布的博客的阅读量之和。

由于一天的数据量比较小,也不能说明问题,然后通过查看数据库中的数据,可以知道最近的一篇博客是2019年1月22日写的,而最早的一篇的博客是2018-11-22日写的,所以我们可以把2018年12月整个月的数据提取出来进行分析,这样的话数据量不算少,得到的结果也就更有说服力。相关代码如下:

1  # 查看2018年12月的数据
2  day_list = ["2018-12-{}".format(str(i).zfill(2)) for i in range(1, 32)]
3  for day in day_list:
4     results = [i for i in all_data if day in i[0]]
5     for result in results:
6         t = int(result[0].split(' ')[1].split(':')[0])
7         dic1[t] += 1
8         dic2[t] += result[1]

最后根据结果绘制柱状图。

每小时发布的博客篇数:

 

每小时发布的博客阅读数:

 

 

从第一张图可以看到在早上9点-11点和下午3点-5点是发布博客的高峰期,在中晚饭时段也有不少人发博客,还有很多人选择在晚上下班之后写博客,比较意外的是凌晨三四点的时候也有人写博客,可以说是很厉害了。根据第二张图可以知道在早上8点-10点发的博客比较容易得到高阅读量,下午2点-5点也是比较不错的写博客的时间,而凌晨写博客的话就比较难被大家看到了,毕竟这个时候大多数人还在梦乡之中。要想你的博客被更多人看到和喜欢,除了选择一个合适的写博客的时间,最重要的就是用心写出一篇好的博客!

 

完整代码已上传到GitHub!

转载于:https://www.cnblogs.com/TM0831/p/10308894.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/395342.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

泰安高考2021成绩查询,泰安高考成绩查询入口2021

高考结束之后,为了方便大家进行高考成绩的查询,下面跟着出国留学网小编来一起看看“泰安高考成绩查询入口2021”,仅供参考,希望对大家有帮助。2021山东高考成绩查询时间及志愿填报时间根据山东2021年夏季高考须知,2021…

用GitHub Issue取代多说,是不是很厉害?

2019独角兽企业重金招聘Python工程师标准>>> 摘要: 别了,多说,拥抱Gitment。 2017年6月1日,多说正式下线,这多少让人感觉有些遗憾。在比较了多个博客评论系统,我最终选择了Gitment作为本站的博客评论系统&a…

mysql延时优化教程_Mysql优化之延迟索引和分页优化_MySQL

什么是延迟索引?使用索引查询出来数据,之后把查询结果和同一张表中数据进行连接查询,进而提高查询速度!分页是一个很常见功能,select ** from tableName limit ($page - 1 ) * $n ,$n通过一个存储过程插入10000条数据进行测试&…

【动态规划】Vijos P1313 金明的预算方案(NOIP2006提高组第二题)

题目链接&#xff1a; https://vijos.org/p/1313 题目大意&#xff1a; m(m<32000)金钱&#xff0c;n&#xff08;n<60&#xff09;个物品&#xff0c;花费vi&#xff0c;价值vi*ci,每个物品可能有不超过2个附件&#xff0c;附件没有附件。 题目思路&#xff1a; 【动态规…

计算机网络应用答题卡,2013-2014学年第2学期11级计算机网络技术毕业考试试卷

2013-2014学年第2学期11级《计算机网络技术》课程毕业考试试卷得分&#xff1a;一、单项选择题&#xff1a;(每题1分&#xff0c;共30分&#xff0c;答案必须写在后面的选择题答题卡内&#xff0c;否则不得分)1、计算机网络可以按网络的覆盖范围来划分&#xff0c;以下()不是按…

0622 - 如何坚守自己的价值观?

如果有人有着和自己迥异的价值观&#xff0c;且混得很好&#xff0c;且和自己是熟人&#xff0c;自己是不是要改变自己、向其学习&#xff1f; 比如&#xff0c;常说的「学习好的比学习差的打工」&#xff0c;那到底是要好好学习&#xff0c;还是提前混人脉、攒经验&#xff1f…

如何免费注册Coursera课程

One question I get asked all the time here at Class Central is: are Coursera courses really free?在班级中心&#xff0c;我一直被问到的一个问题是&#xff1a; Coursera课程真的免费吗&#xff1f; Coursera’s user interface is intentionally designed to push le…

三态门有一个信号控制端en_三态门verilog

双向口-三态门的电路IC专业技术文章2008-12-06 14:59:24阅读119评论0字号&#xff1a;大中小订阅1.TTL三态门电路工作原理:三态门电路的基本结构如下图所示&#xff1a;(1)图1给出了三态门的电路结构图及图形符号。其中控制端EN为低电平时,P点为高电平&#xff0c;二极管D截止&…

[树形dp] Jzoj P3914 人品问题

Description 网上出现了一种高科技产品——人品测试器。只要你把你的真实姓名输入进去&#xff0c;系统将自动输出你的人品指数。yzx不相信自己的人品为0。经过了许多研究后&#xff0c;yzx得出了一个更为科学的人品计算方法。这种方法的理论依据是一个非常重要的结论&#xff…

为什么那些每三年跳一次槽的人越跳越好? - 震撼

现在&#xff0c;人们已经放下了对跳槽的偏见。这是一件好事。之前。假设你每几年换一次工作&#xff0c;人们会认为你的简历上有 “污点”。面试官会认为你无法胜任一份工作。与同事相处不好。或者你对公司不忠诚&#xff0c;不能承担任务&#xff0c;等等。 这样的想法非常快…

2019 6月编程语言_六月开始提供435项免费在线编程和计算机科学课程

2019 6月编程语言Five years ago, universities like MIT and Stanford first opened up free online courses to the public. Today, more than 700 schools around the world have created thousands of free online courses.五年前&#xff0c;麻省理工学院和斯坦福大学等大…

使用html记笔记,开始学习HTML,并记下笔记

开始学习HTML,并记下笔记。外边距(不影响可见框大小&#xff0c;影像盒子位置)margin-top(上)right(右)bottom(下)left(左)“外边距也可以为一个负值&#xff0c;元素会反方向移动”margin还可以设置为auto&#xff0c;auto一般只设置给水平方向的margin.如果只指定&#xff0c…

矢量合成和分解的法则_专题14 运动的合成与分解

运动的合成与分解【基础回顾】 考点内容:运动的合成与分解 考纲解读: 1.掌握曲线运动的概念、特点及条件. 2.掌握运动的合成与分解法则&#xff0e; 考点一 物体做曲线运动的条件及轨迹分析 1&#xff0e;条件  (1)因为速度时刻在变&#xff0c;所以一定存在加速度&#xff1…

详解--单调队列 经典滑动窗口问题

单调队列&#xff0c;即单调的队列。使用频率不高&#xff0c;但在有些程序中会有非同寻常的作用。 动态规划单调队列的理解 做动态规划时常常会见到形如这样的转移方程&#xff1a;f[x] max or min{g(k) | b[x] < k < x} w[x](其中b[x]随x单调不降&#xff0c;即b[1]&…

Java Persistence with MyBatis 小结2

MyBatis 最关键的组成部分是 SqlSessionFactory&#xff0c;我们可以从中获取 SqlSession&#xff0c;并执行映射的 SQL 语句。SqlSessionFactory 对象可以通过基于 XML 的配置信息或者 Java API 创建。 1 mybatis环境&#xff0c;environments 配置默认的数据库环境 MyBatis 支…

《计算机应用基础》18春作业,【北语网院】18春《计算机应用基础》作业_2.pdf...

谋学网【北京语言大学】 18 春《计算机应用基础》作业 _2试卷总分 :100 得分 :100第 1 题, 操作系统是 ___ 的接口。A、用户与软件B、系统软件与应用软件C、主机与外设D、用户与计算机第 2 题, 计算机配置的内存的容量为 128MB或 128MB以上&#xff0c;其中的 128MB是指 __ 。A…

freeCodeCamp纳什维尔十月聚会回顾

by Seth Alexander塞斯亚历山大(Seth Alexander) 纳什维尔的美好时光&#xff1a;十月免费CodeCamp聚会的回顾 (Good times in Nashville: a recap of our October freeCodeCamp Meetup) On Saturday, October 7, we had our monthly freeCodeCamp Nashville meetup at Nashvi…

c#时分秒毫秒微妙_你真的清楚DateTime in C#吗?

DateTime&#xff0c;就是一个世界的大融合。日期和时间&#xff0c;在我们开发中非常重要。DateTime在C#中&#xff0c;专门用来表达和处理日期和时间。本文算是多年使用DateTime的一个总结&#xff0c;包括DateTime对象的整体应用&#xff0c;以及如何处理不同的区域、时区、…

(HY000): Cannot modify @@session.sql_log_bin inside a transaction

昨天&#xff0c;线上发生一例(HY000): Cannot modify session.sql_log_bin inside a transaction代码缺少显示的start transaction控制。。转载于:https://www.cnblogs.com/zhjh256/p/5775390.html

解决Eclipse的Team菜单中没有SVN选项的问题

刚开始自己拿一个项目&#xff0c;手练一下发觉在Eclipse的Team找不到SVN仓库&#xff0c;看了一下才发觉使用SVN向SVN服务器上传代码&#xff0c;但Eclipse默认情况下却没有SVN选项&#xff0c;刚开始也是这样的 默认只有GIT&#xff0c;如下图所示 想要解决这些问题&#xff…