python爬虫实战(10)--获取本站热榜

1. 需要的类库

import requests
import pandas as pd

2. 分析

通过分析，本站的热榜数据可以直接通过接口拿到，故不需要解析标签，请求热榜数据接口

    url = "https://xxxt/xxxx/web/blog/hot-rank?page=0&pageSize=25&type=" #本站地址

直接请求解析会有点问题，数据无法解析，加上请求头

headers = {"Accept": "*/*","Accept-Encoding": "gzip, deflate, br","Accept-Language": "zh-CN,zh;q=0.9","Sec-Ch-Ua": "\"Chromium\";v=\"116\", \"Not)A;Brand\";v=\"24\", \"Google Chrome\";v=\"116\"","Sec-Ch-Ua-Mobile": "?1","Sec-Ch-Ua-Platform": "\"Android\"","Sec-Fetch-Dest": "empty","Sec-Fetch-Mode": "cors","Sec-Fetch-Site": "same-site","User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Mobile Safari/537.36"
}

完整请求代码

    # 发送HTTP请求r = requests.get(url, headers=headers)# 解析JSON数据data = r.json()# 提取所需信息articles = []for item in data["data"]:title = item["articleTitle"]link = item["articleDetailUrl"]rank = item["hotRankScore"]likes = item["favorCount"]comments = item["commentCount"]views = item["viewCount"]author = item["nickName"]time = item["period"]articles.append({"标题": title,"链接": link,"热度分": rank,"点赞数": likes,"评论数": comments,"查看数": views,"作者": author,"时间": time})

3.导出Excel

    # 创建DataFramedf = pd.DataFrame(articles)# 将DataFrame保存为Excel文件df.to_excel("csdn_top.xlsx", index=False)

4. 成果展示

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/616742.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python爬虫实战(10)--获取本站热榜

1. 需要的类库

2. 分析

3.导出Excel

4. 成果展示

相关文章

最全Linux驱动开发全流程详细解析（持续更新）

vim文本编辑器，常用命令

linux创建文件并分配权限

聚焦老年生活与健康，“老有所依·情暖夕阳”元岗街社区微型养老博览会顺利开展

开源C语言库Melon：红黑树

MySQL 8.0中新增的功能（五）

PyQt5系列之核心模块与控件

真正的强大，原来是不动声色的

Veeam Backup12安装备份恢复ESXI7.0 U3虚拟机

Vue3 的基本开发+新特性

小H靶场笔记：Empire-Breakout

作业--day45

AJAX入门到实战，学习前端框架前必会的（ajax+node.js+webpack+git）（六）

Linux(Debina12)系统安装

先锋WEB燃气收费系统 Upload.aspx 文件上传漏洞复现

PHP版学校教务管理系统源码带文字安装教程

随机漫步【scatter的使用】

实现秒杀功能设计

Pycharm close project 速度缓慢解决办法

LeetCode+ 56 - 60