CSDN 2020 博客之星实时数据排名(Python 爬虫 + PyEcharts)

CSDN 2020 博客之星实时数据排名:csdn.itrhx.com


CSDN 一年一度的博客之星评选开始了,官网地址:https://bss.csdn.net/m/topic/blog_star2020 ,由于官网是按照随机编号排序的,没有按照票数多少排序,为了方便查看排名,可以使用 Python 爬虫 + PyEcharts 来实现实时数据排名。

打开 Google Chrome 的审查工具,可以找到一个 getUsers 的请求,请求地址为:https://bss.csdn.net/m/topic/blog_star2020/getUsers,请求方式为 POST,返回的是 JSON 格式的数据,里面包含了每一位博主的相关信息。

在这里插入图片描述

找到请求接口就不难了,使用 Python 爬虫很容易将其爬取下来,然后对数据进行处理,按照票数进行排序,再配合 PyEcharts 就可以进行数据展示了,完整代码如下:

# ====================================
# --*-- coding: utf-8 --*--
# @Time    : 2021-01-12
# @Author  : TRHX • 鲍勃
# @Blog    : www.itrhx.com
# @CSDN    : itrhx.blog.csdn.net
# @FileName: csdn_blog_star_2020.py
# @Software: PyCharm
# ====================================import json
import requests
from datetime import datetime
from pyecharts.components import Table
from pyecharts.options import ComponentTitleOptsdef crawl_data() -> dict:url = 'https://bss.csdn.net/m/topic/blog_star2020/getUsers'headers = {'authority': 'bss.csdn.net','origin': 'https://bss.csdn.net','referer': 'https://bss.csdn.net/m/topic/blog_star2020','sec-fetch-dest': 'empty','sec-fetch-mode': 'cors','sec-fetch-site': 'same-origin','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}data = {'number': ''}response = requests.post(url=url, headers=headers, data=data)response_json = json.loads(response.text)return response_jsondef data_processing(data) -> list:all_data = []csdn_data = data['data']for csdn in csdn_data:vote_num = int(csdn['vote_num'])                   # 票数number = csdn['number']                            # 编号csdn_id = csdn['title']                            # CSDN IDnick_name = csdn['nick_name']                      # 昵称code_level = csdn['codeLevel']                     # 码龄article_count = csdn['article_count']              # 文章数csdn_url = 'https://blog.csdn.net/' + csdn_id      # 主页url = csdn['url']                                  # 投票地址# avatar = c['avatar']                             # 头像地址personal_information = [vote_num, number, csdn_id, nick_name, code_level, article_count, csdn_url, url]all_data.append(personal_information)# 按照票数排序all_data_sorted = sorted(all_data, key=lambda x: x[0], reverse=True)# 添加排名rank = 1for a in all_data_sorted:a.insert(0, rank)rank += 1# print(all_data_sorted)return all_data_sorteddef create_table(data, crawl_time):table = Table(page_title="TRHX丨CSDN 2020 博客之星实时数据")headers = ["排名", "票数", "编号", "CSDN ID", "CSDN 昵称", "码龄", "文章数", "主页", "投票地址"]rows = datatable.add(headers, rows)table.set_global_opts(title_opts=ComponentTitleOpts(title="CSDN 2020 博客之星实时数据排名(每10分钟更新一次)",subtitle='上次更新时间:' + str(crawl_time) + '    数据来源:https://bss.csdn.net/m/topic/blog_star2020' + "\n\n作者:TRHX • 鲍勃    为作者投上一票吧:https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_36759224",title_style={"style": "font-size:20px; font-weight:bold; text-align: center"},subtitle_style={"style": "font-size:15px; text-align: center"}))table.render("csdn_blog_star_2020.html")if __name__ == '__main__':time_now = datetime.now().strftime('%Y-%m-%d %H:%M:%S')json_data = crawl_data()data_sorted = data_processing(json_data)create_table(data_sorted, time_now)

打开生成的 csdn_blog_star_2020.html 文件,如下图所示:

在这里插入图片描述

我们可以将 Python 代码部署至服务器,设置定时任务,每十分钟爬取一次数据并更新进行展示,如果有域名的话,还可以做一个域名解析,这样一个简单的实时数据排名就做好啦!

实时数据排名查看地址:csdn.itrhx.com


博主有幸能够进入 2020 博客之星 TOP200,如果我的文章对您有所帮助的话,烦请为我投上您宝贵的一票吧!(PS:每天都可以投哦!)


TRHX • 鲍勃 投票地址:

https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_36759224

或者扫描以下二维码为我投票:

在这里插入图片描述

一入 IT 深似海,从此学习无绝期!2021,加油!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/437658.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【转】注册Azure AD 应用程序

作者:陈希章 发表于2017年3月22日 在此前的文章中,我给大家介绍了分别用Graph 浏览器以及第三方工具(POSTMAN)快速体验Microsoft Graph的功能,其中有一个重要的环节就是,开发人员需要访问Microsoft Graph的…

Python + GitHub Actions 实现 CSDN 自动签到与抽奖(非 selenium 版本)

文章目录【1x00】技术栈【2x00】代码实现签到与抽奖【3x00】签到结果通知【03x01】Server 酱【03x02】企业微信【03x03】钉钉【4x00】自动签到【5x00】完整代码【6x00】如何使用【06x01】方法一:直接 Fork 代码(推荐)【06x01】方法二&#xf…

Spark安装配置

Scala基础语法学习的差不多了,先把spark安装上 首先官网下载解压安装后 进入到conf目录下修改文件名 修改spark-env.sh(配置jdk路径) export JAVA_HOME/usr/local/java/jdk1.8.0_221修改slaves(添加子节点名) chun…

【转】注册Azure AD 2.0 应用程序

作者:陈希章 发表于 2017年3月22日 上一篇 介绍了Microsoft Graph应用程序的一些概念,以及目前还比较普遍的Azure AD 1.0应用程序的注册方式。但正如我多次提到的那样,虽然目前功能还在不断完善,但Azure AD 2.0会逐渐成为主流&…

Python 采集 Facebook 评论插件、留言外挂程序

实现时间:2021-05-30实现难度:★★★☆☆☆实现目标:采集 Facebook 评论插件、留言外挂程序的所有评论。完整代码:https://github.com/TRHX/Python3-Spider-Practice/tree/master/CommentPlugin/facebook-comments其他爬虫实战代码…

写第一个spark程序(wordcount)

首先启动集群与spark 其次把spark目录下的README.md上传到hdfs 进入spark下的bin目录,运行spark-shell ./spark-shell运行 val textFile sc.textFile("hdfs://chun1:9000/spark/README.md")val wordCounts textFile.flatMap(line>line.split("…

【中国版Office 365 应用程序注册】

中国版Office 365是由世纪互联进行运营的一个云服务,单纯从技术角度来看的话,它基本保持了与国际版的同步。但是由于两个版本本质上是完全独立的,其中最关键的就是账号系统是分开的,所以从使用角度来看,不管是直接用户…

Python 中如何解决 asyncio 文件描述符最大数量限制问题

文章目录问题复现问题分析事件循环 EventLoopI/O 多路复用select 的缺点解决方法1.更换事件循环选择器2.限制并发量3.修改最大文件描述符限制WindowsLinux总结WindowsLinux问题复现 Windows 平台下,Python 版本 3.5,使用异步框架 asyncio,有…

【转】掀起Azure AD的盖头来——深入理解Microsoft Graph应用程序和服务权限声明

引子 这是一篇计划外的文章。我们都知道要进行Microsoft Graph的开发的话,需要进行应用程序注册。这个在此前我已经有专门的文章写过了。但这里存在一个小的问题:国内版的Office 365在申请好之后,并没有像国际版那样,有一个对应的…

Python3 学习系列 丨 博客目录索引

整个博客有关 Python 学习目录索引,方便快捷定位查询基础学习篇 Python3 基础学习笔记 C01【变量和简单数据类型】Python3 基础学习笔记 C02【列表】Python3 基础学习笔记 C03【操作列表】Python3 基础学习笔记 C04【if 语句】Python3 基础学习笔记 C05【字典】Pyt…

【转】日邮物流:实现智慧物流,这个云上对了!

和阳光、空气、水、网络一样,「物流」早已成为当代企业、个人赖以生存的必要条件。2020第一季度全球物流受疫情影响面临挑战,业内普遍预计全球物流及供应链将重新优化布局。借此时机,物流业纷纷将目光投向“数字化智慧物流”方向,…

Python 实现十大经典排序算法

目录排序算法分类一、冒泡排序(Bubble Sort)1、原理2、步骤3、动画演示4、代码实现5、具体示例二、选择排序(Selection Sort)1、原理2、步骤3、动画演示4、代码实现5、具体示例三、插入排序(Insertion Sort&#xff09…

【转】Microsoft Graph 桌面应用程序

桌面应用程序,在我这篇文章的语境中,我是特指在Windows桌面上面直接运行的.NET应用程序,包括Console Application,WPF Application,Windows Forms Application, UWP Application,并且限于篇幅,我…

【转】Microsoft Graph Web应用程序极致开发体验

前言 这篇文章最早写于2017年5月2日,当时的想法是从最简单的方式来写如何在一个ASP.NET MVC应用程序中集成Microsoft Graph,但实际上还真不是那么简单,至少我是不满意的,加上这一两周都比较忙,所以这一篇就一直搁置。…

Spark(idea)操作mysql进行查询和插入 (代码+理解)

首先在maven中加入配置 <!--mysql--><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.27</version></dependency>然后在idea配置数据库 1&#xff09; 查询 //1.查询数…

【转】在无人值守程序(服务)中调用Microsoft Graph

什么是无人值守程序&#xff08;服务&#xff09; 我在此前用了几篇文章分别介绍了在桌面应用程序&#xff08;控制台&#xff09;&#xff0c;Web应用程序&#xff08;ASP.NET MVC&#xff09;&#xff0c;以及PowerSehll脚本中如何访问Microsoft Graph&#xff0c;今天这一篇…

【转】使用PowerApps快速构建基于主题的轻业务应用 —— 入门篇

前言 在上一篇文章 基于Office 365的随需应变业务应用平台 中我提到&#xff0c;随着随需应变的业务需要&#xff0c;以及技术的发展&#xff0c;业务应用的开发的模式也有了深刻的变化。基于微软的平台&#xff0c;有服务于主干业务应用的Dynamic 365 业务应用平台&#xff0…

Spark内核源码学习(暂未学完)

1&#xff09; 回顾 1.1 Spark通用运行流程概述 在submit任务条件是需要指定executo个数&#xff0c;executor-CUP个数&#xff0c;可以提高并行度。 什么是并行&#xff0c;什么是并发&#xff1f; 并发&#xff1a;假如有多个任务task&#xff0c;并行是在一个cup中&#x…

【转】使用PowerApps快速构建基于主题的轻业务应用 —— 进阶篇

在上一篇 使用PowerApps快速构建基于主题的轻业务应用 —— 入门篇 中&#xff0c;我用了三个实际的例子演示了如何快速开始使用PowerApps构建轻业务应用&#xff0c;你可能已经发现&#xff0c;我都是使用默认生成的设置&#xff0c;没有做任何修改。当然&#xff0c;那样做出…

Spark一些组件的定义

Driver program: 运行应用程序的main函数并创建SparkContext的进程 除了RDD的最终执行所写的业务逻辑&#xff0c;剩下的都在Driver里生成&#xff0c;Driver端执行action算子才会到开始执行所创建的DAG-RDD图。 Cluster manager&#xff1a; 用于获取集群资源外部服务 Mas…