爬虫实战-Python爬取百度当天热搜内容

爬虫实战-Python爬取百度当天热搜内容

  • 学习建议
  • 学习目标
  • 预期内容
  • 目标分解
    • 热搜地址
    • 热搜标题
    • 热搜简介
    • 热搜指数
    • 小总结
  • 代码实现
  • 总结

学习建议

  • 本文仅用于学习使用,不做他用;
  • 本文仅获取页面的内容,作为学习和对Python知识的了解,不会对页面或原始数据造成压力;
  • 请规范文明使用本文内容,请仅作为个人学习参考使用。
  • 本文主要学习了Python爬虫的基础,及常用的几个模块或库的使用,比如BeautifulSoup、request等。

学习目标

  • 获取百度当天的热搜内容,并打印出来;
  • 内容需要包含热搜的标题、热搜简介、以及热搜的指数。

预期内容

  • 输入网址打开百度首页;
  • 进入首页后,点击【百度热搜】,如图:

请在此添加图片描述

  • 进入热搜首页后,点击【热搜】,即当前页面就是我们需要的数据:

请在此添加图片描述

  • 从下图可以看出,一条热搜的内容包含了热搜标题、该热搜的简介,以及热搜的指数,那么这三项内容就是我们最终要的内容:

请在此添加图片描述

目标分解

热搜地址

  • 进入到热搜主界面后,我们查看当前页面的URL,后续需要用到:

https://top.baidu.com/board?tab=realtime

请在此添加图片描述

热搜标题

  • 进入到热搜主页后,我们打开浏览器的F12调试模式;
  • 然后查看这条热搜标题对应的界面的源码;

请在此添加图片描述

  • 通过查看我们看出前两个热搜标题的源码为:
绿我涓滴 会它千顷澄碧
英媒称有人目击凯特现身
  • 从以上可以看出,有一个共同属性是class,剩下的就是标题内容不一样;
  • 通过分析我们用正则表达式来统一识别所有的热搜标题:
(.\*?)

热搜简介

  • 使用以上同样的方法,我们可以看到前两条热搜的简介如下:

请在此添加图片描述

如今兰考发生了翻天覆地的变化,张庄村的老百姓把xx走过的一条路改名为“幸福路”,沿着“幸福路”奔向越来越好的日子...
  • 同样可以使用正则表达式表示下:
(.\*)

热搜指数

  • 使用同样方法我们获取到热搜指数的正则表达式为:

div class=“hot-index_1Bl1a”>(.*?)

小总结

  • 通过以上分析,我们就得到了我们需要重点几个变量:

URL:url = https://top.baidu.com/board?tab=realtime
热搜标题: title = re.compile(r’

(.*?)
‘)
热搜简介:introduction = re.compile(r’
(.*)<a’)
#热搜指数:index = re.compile(r’
(.*?)
')

代码实现

根据以上分析,我们整理下思路:

  • 我们创建一个类TestHotsearch()来组织需要进行的操作;
  • 在类初始化中,把URL、热搜标题、热搜简介、热搜指数四个变量初始化;
  • 创建方法test_html_content()获取热搜页面的html内容;
  • 创建方法test_get_content()获取需要的重点信息;
  • 类实例化后调用对应的方法。

详细代码如下:

from bs4 import BeautifulSoup
import re
import urllib.request, urllib.errorclass TestHotsearch():def __init__(self):# 热搜URLself.url = 'https://top.baidu.com/board?tab=realtime'# 热搜标题self.title = re.compile(r'<div class="c-single-text-ellipsis">(.*?)</div>')# 热搜简介self.introduction = re.compile(r'<div class="hot-desc_1m_jR small_Uvkd3 ellipsis_DupbZ">(.*)<a')# 热搜指数self.index = re.compile(r'<div class="hot-index_1Bl1a">(.*?)</div>')# 所有热搜条目self.all_content = "category-wrap_iQLoo horizontal_1eKyQ"def test_html_content(self):"""获取热搜页面的html内容:return:"""header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"}request = urllib.request.Request(self.url, headers = header)html_content = ""try:response = urllib.request.urlopen(request)html_content = response.read().decode("utf-8")except urllib.error.URLError as e:if hasattr(e, "code"):print(e.code)if hasattr(e, "reason"):print(e.reason)return html_content.encode('gbk', 'ignore').decode('gbk')def test_get_content(self):"""获取需要的重点信息:return:"""# 获取html内容html = self.test_html_content()# 定义一个空列表保存要获取的信息data_info = []content = BeautifulSoup(html, "html.parser")for name in content.find_all('div', class_=self.all_content):data = []name_str = str(name)title = re.findall(self.title, name_str)data.append(title)introduction = re.findall(self.introduction, name_str)data.append(introduction)index = re.findall(self.index, name_str)data.append(index)data_info.append(data)return data_infoif __name__ == "__main__":hot_search = TestHotsearch()get_content = hot_search.test_get_content()print(f"获取到信息如下:{get_content}")
  • 部分输出内容如下:

获取到信息如下:[[[’ 心系这门“关键课程” ‘], [], [’ 4932922 ‘]], [[’ 三只羊就梅菜扣肉事件致歉 ‘], [], [’ 4991528 ‘]], [[’ 女子山顶徒手攀爬石头手滑摔下 ‘], [], [’ 4816630 ‘]], [[’ 春分将至农事忙 ‘], [], [’ 4790902 ']],…

总结

Python主要是简单的爬虫实战,步骤清晰,容易理解和入门。建议最好用自己本地环境测试,仅供学习参考,请勿做其他用途。重点是学习Python正则表达式的应用,python的BeautifulSoup、request模块的使用等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/760969.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2040X系列 电子校准件

苏/州/新/利/通 2040X系列 电子校准件 300kHz&#xff5e;67GHz 简述 2040X系列电子校准件包括20402/20403/20404/20405/20409五种型号&#xff0c;覆盖频段300kHz&#xff5e;18GHz/10MHz&#xff5e;26.5GHz/10MHz&#xff5e;50GHz/10MHz&#xff5e;20GHz/10MHz&#xf…

redis学习-Set集合类型相关命令及特殊情况分析

目录 1. sadd key value1 value2 ... 2. smembers key 3. sismember key value 4. scard key 5. srem key value1 value2 ... 6. srandmember key num 7. spop key num 8. smove key1 key2 value 9. sdiff key1 key2 key3 ... 10. sinter key1 key2 ... 11. sunion key1 key2 .…

鸿蒙一次开发,多端部署(二)从一个例子开始

本章通过一个天气应用&#xff0c;介绍一多应用的整体开发过程&#xff0c;包括UX设计、工程管理及调试、页面开发等。 UX设计 本示例中的天气应用包含主页、管理城市和添加城市三个页面&#xff0c;其中主页中又包含菜单和更新间隔两个弹窗&#xff0c;基本业务逻辑如下所示…

Aztec的客户端证明

1. 引言 隐私保护 zk-rollup 的证明生成与通用 zk-rollup 的证明生成有很大不同。原因是给定交易中存在特定数据&#xff08;由私有函数处理&#xff09;&#xff0c;我们希望保持完全私有。在本文中&#xff0c;我们探讨了用于证明私有函数正确执行的客户端证明生成&#xff…

arm-linux实现onvif server+WS-UsernameToken令牌验证

目录 一、环境搭建 1、安装openssl 2、安装bison 3、安装flex 二、gsoap下载 三、编译x86版本gsoap 四、编译arm-linux版本gsoap 1、交叉编译openssl 1.1、下载openssl 1.2、交叉编译 2、交叉编译zlib 2.1、下载zlib 2.2、交叉编译 3、交叉编译gsoap 3.1、编译过…

【嵌入式学习】Qtday03.21

一、思维导图 二、练习 自由发挥登录窗口的应用场景&#xff0c;实现一个登录窗口界面。&#xff08;不要使用课堂上的图片和代码&#xff0c;自己发挥&#xff0c;有利于后面项目的完成&#xff09; 要求&#xff1a; 1. 需要使用Ui界面文件进行界面设计 2. ui界面上的组件…

深入了解 Spring boot的事务管理机制:掌握 Spring 事务的几种传播行为、隔离级别和回滚机制,理解 AOP 在事务管理中的应用

&#x1f389;&#x1f389;欢迎光临&#xff0c;终于等到你啦&#x1f389;&#x1f389; &#x1f3c5;我是苏泽&#xff0c;一位对技术充满热情的探索者和分享者。&#x1f680;&#x1f680; &#x1f31f;持续更新的专栏《Spring 狂野之旅&#xff1a;从入门到入魔》 &a…

LeetCode 热题 100 | 堆(一)

目录 1 什么是堆排序 1.1 什么是堆 1.2 如何构建堆 1.3 举例说明 2 215. 数组中的第 K 个最大元素 2.1 子树大根化 2.2 遍历所有子树 2.3 弹出栈顶元素 2.4 完整代码 菜鸟做题&#xff0c;语言是 C 1 什么是堆排序 1.1 什么是堆 堆的定义和分类&#xff…

【c++入门】命名空间,缺省参数与函数重载

&#x1f525;个人主页&#xff1a; Quitecoder &#x1f525;专栏&#xff1a;c笔记仓 朋友们大家好&#xff01;本篇内容我们进入一个新的阶段&#xff0c;进入c的学习&#xff01;希望我的博客内容能对你有帮助&#xff01; 目录 1.c关键字2.第一个c代码3.命名空间3.1 nam…

CTF-辨别细菌

题目描述&#xff1a;try your best to find the flag. 进入靶场后发现是一个游戏&#xff0c;需要全部答对才可以得到最后的flag 查看了一下源码&#xff0c;发现有一个答案模板的模块 尝试解释一下代码 <!-- 答案模版 --> <script id"template_game_pi…

数据结构/C++:红黑树

数据结构/C&#xff1a;红黑树 概念实现基本结构插入uncle为红色节点uncle为黑色节点 总代码展示 概念 红黑树是一种二叉搜索树&#xff0c;一般的二叉搜索会发生不平衡现象&#xff0c;导致搜索效率下降&#xff0c;于是学者们开始探索如何让二叉搜索树保持平衡&#xff0c;这…

Agent驱动的RPA——实在Agent(智能体):自动化时代的新引擎

随着人工智能和机器学习技术的快速发展&#xff0c;智能Agent在 RPA领域扮演了革命性的角色。 Agent驱动的RPA不仅实现了传统规则导向自动化工具的功能升级&#xff0c;而且通过引入自主、智能决策与协作能力&#xff0c;为现代企业带来了更高程度的灵活性与智能化水平。随着数…

第1章 计算机系统概述

王道学习 1.1 操作系统的基本概念 1.1.1 操作系统的概念 1.1.2 操作系统的特征 操作系统是一种系统软件&#xff0c;但与其他系统软件和应用软件有很大的不同&#xff0c;它有自己的特殊性即基本特征。操作系统的基本特征包括并发、共享、虚拟和异步。这些概念对理解和掌握…

kail linux破解密码--- 详细过程(配合图文让你看了就会)

1.准备工作 1.vmware虚拟机 2.kali的系统 3.无线网卡一张(这个是必须的我买的是30多块) 4.这里为了实验&#xff0c;和直观的看到效果&#xff0c;用手机开了一个wifi然后使用kali进行破解 2.下载kali然后安装到虚拟机vmware 直接在官网下载 Get Kali | Kali Linux 我选…

WebXR实践——利用aframe框架浏览器展示全景图片

一、效果 话不多说&#xff0c;先上效果 二、代码 index.html <!DOCTYPE html> <html><head><meta charset"utf-8"><title>360&deg; Image</title><meta name"description" content"360&deg; Imag…

【机器学习】深入解析线性回归模型

&#x1f388;个人主页&#xff1a;豌豆射手^ &#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏 &#x1f917;收录专栏&#xff1a;机器学习 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共同学习、交流进…

高精度铸铁平台制造工艺有多精细——河北北重机械

高精度铸铁平台制造工艺通常包括以下几个步骤&#xff1a; 材料准备&#xff1a;选择合适的铸铁材料&#xff0c;并确保其质量符合要求。常用的铸铁材料包括灰铸铁、球墨铸铁等。 模具制造&#xff1a;根据平台的设计要求&#xff0c;制造适用的模具。模具一般由砂型、金属模具…

【python】flask基于cookie和session来实现会话控制

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

【开源-土拨鼠充电系统】鸿蒙 HarmonyOS 4.0 App+微信小程序+云平台

✨本人自己开发的开源项目&#xff1a;土拨鼠充电系统 ✨踩坑不易&#xff0c;还希望各位大佬支持一下&#xff0c;在Gitee或GitHub给我点个 Start ⭐⭐&#x1f44d;&#x1f44d; ✍Gitee开源项目地址&#x1f449;&#xff1a;https://gitee.com/cheinlu/groundhog-charging…

力扣Lc19--- 268. 丢失的数字(java版)-2024年3月20日

1.题目描述 2.知识点 &#xff08;1&#xff09;比如数组里面有n个数&#xff0c;然后计算这n个数的总和(用等差求和数列计算&#xff09;,然后减去数组的和&#xff0c;用总和减去数组和即为所得 &#xff08;2&#xff09;加强型 for 循环&#xff08;也称为 for-each 循环&…