Python网络爬虫详解:实战豆瓣电影信息采集

文章目录

  • 前言
  • 一、爬虫是什么?
  • 二、常用库及其作用
    • 1.Requests
    • 2.BeautifulSoup
    • 3. lxml
    • 4. Scrapy
    • 5. Selenium
    • 6. PyQuery
    • 7. Pandas
    • 8. JSON
    • 9. Time
  • 三、实现步骤
    • 步骤一:环境准备
    • 步骤二:数据采集
    • 步骤三:数据处理
    • 步骤四:数据存储
  • 总结


前言

随着互联网的迅猛发展和数据分析需求的不断增加,网络爬虫成为了一项重要的技术。通过网络爬虫,用户可以自动化地从互联网获取大量数据,从而实现各种数据分析、市场调查等目标。本文将介绍什么是爬虫,以及在爬虫开发中经常用到的一些Python库和其作用,并展示一个简单的爬虫实现步骤。

在这里插入图片描述


一、爬虫是什么?

网络爬虫,又称网页蜘蛛、网络机器人,是一种按照一定规则自动抓取互联网信息的程序。它通过模拟浏览器的行为发送HTTP请求,获取网页内容,然后对获取到的HTML进行解析,从中提取出需要的数据。爬虫广泛应用于搜索引擎、数据分析、市场调查等领域,帮助人们从海量的互联网信息中提取有用的数据。

爬虫的工作流程:

  1. 发送请求:爬虫通过HTTP请求获取目标网页的HTML内容。这通常使用requests库来完成。
  2. 解析内容:获取到HTML内容后,爬虫使用BeautifulSoup等库来解析网页,提取所需的数据。
  3. 数据处理:对提取的数据进行处理和清洗,使其结构化和规范化。
  4. 数据存储:将处理后的数据存储到本地文件或数据库中,以便后续分析和使用。

二、常用库及其作用

在进行网络爬虫开发时,Python提供了许多功能强大的库,帮助开发者轻松获取、解析和存储数据。以下是一些常用的库及其作用:

1.Requests

  • 作用:用于发送HTTP请求,获取网页内容。Requests库简化了HTTP请求的操作,使得爬虫可以方便地获取网页数据。
  • 示例:
import requests
response = requests.get('https://www.douban.com/')
print(response.text)

2.BeautifulSoup

  • 作用:用于解析HTML和XML文档,从中提取所需的数据。BeautifulSoup提供了简洁的API,便于搜索、遍历和修改解析树。
  • 示例:
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.title)

3. lxml

  • 作用:一个高效的XML和HTML解析库,支持XPath和XSLT。lxml比BeautifulSoup更快,更适合处理大型文档。
  • 示例:
from lxml import etree
tree = etree.HTML(response.text)
title = tree.xpath('//title/text()')
print(title)

4. Scrapy

  • 作用:一个强大的爬虫框架,提供了丰富的功能,包括页面抓取、数据提取、存储和爬虫管理。Scrapy适用于需要抓取大量网页和处理复杂逻辑的项目。
  • 示例:
import scrapy
class MySpider(scrapy.Spider):name = 'my_spider'start_urls = ['https://www.douban.com/']def parse(self, response):title = response.xpath('//title/text()').get()print(title)

5. Selenium

  • 作用:一个自动化测试工具,可以控制浏览器进行各种操作,适用于需要处理动态加载内容的网页。Selenium可以模拟用户操作,如点击、输入等。
  • 示例:
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.douban.com/')
print(driver.title)
driver.quit()

6. PyQuery

  • 作用:一个类似jQuery的解析库,可以使用jQuery语法选择和操作HTML元素。PyQuery非常直观,适合习惯jQuery语法的开发者。
  • 示例:
from pyquery import PyQuery as pq
doc = pq(response.text)
title = doc('title').text()
print(title)

7. Pandas

  • 作用:一个数据处理和分析库,适合用来处理结构化数据。Pandas可以方便地将数据存储到CSV、Excel等格式,适合后续的数据分析和处理。
  • 示例:
import pandas as pd
data = [{'name': 'Inception', 'year': 2010}, {'name': 'Interstellar', 'year': 2014}]
df = pd.DataFrame(data)
df.to_csv('movies.csv', index=False)

8. JSON

  • 作用:用于处理JSON数据格式,可以将Python对象转换为JSON格式,或将JSON字符串解析为Python对象。
  • 示例:
import json
data = {'name': 'Inception', 'year': 2010}
json_data = json.dumps(data)
print(json_data)

9. Time

  • 作用:用于处理时间相关的操作。在爬虫中常用于引入随机延迟,模拟人类行为,避免被目标网站屏蔽。
  • 示例:
import time
import random
time.sleep(random.randint(1, 3))

通过这些库的配合使用,可以方便地实现各种爬虫功能,自动化地从互联网获取所需的信息,并对数据进行处理和存储。


三、实现步骤

步骤一:环境准备

下载requests库和beautifulsoup4库,requests库的本质就是封装了urllib3模块,它可以模拟浏览器的请求,编写过程更接近正常URL的访问过程。一般通过导入BeautifulSoup类来解析网页内容,以下是下载依赖的命令:

pip install requests beautifulsoup4

步骤二:数据采集

导入 requests 库:import requests,设置目标URL和请求头信息。设置UA进行简单伪装,将目标URL和请求头信息传入到requests库中的get()方法,使用 requests.get() 方法发送请求,获取豆瓣电影排行榜的HTML内容
在这里插入图片描述

步骤三:数据处理

导入 BeautifulSoup 库,解析获取的HTML内容:from bs4 import BeautifulSoup,创建BeautifulSoup对象,初始化一个空列表 movies 来存储电影信息。
在这里插入图片描述
遍历所有包含电影信息的 div 标签(类名为 pl2),提取电影名称、上映时间和主演信息。

通过方法选择器获取所有类名为pl2的div标签,再从中找到a标签第一个返回的结果,获取到电影名称,再找到里面类名为pl的第一个p标签的信息,获取到该信息里的第一个内容为上映时间,第三个内容之后的则为主演信息,使用字符串操作对提取的数据进行处理,并存储到字典中。将每部电影的信息添加到 movies 列表中。
引入 time 模块添加1到3秒的随机延迟,模拟人类行为。

在这里插入图片描述

步骤四:数据存储

导入 json 库:import json,将提取的信息存储在字典中,并将字典转换为JSON格式文件保存到本地。
在这里插入图片描述

最后我们运行该爬虫文件,可以看到数据已保存至本地文件 movies.json
在这里插入图片描述

总结

通过本篇博客,我们学习了如何使用Python进行网络爬虫。首先,我们介绍了爬虫的基本概念和工作流程,然后详细介绍了常用的爬虫库及其作用。通过一个具体的示例演示了从环境准备、数据采集、数据处理到数据存储的全过程。这个案例展示了Python在网络爬虫领域的强大应用和灵活性。希望本文能够帮助读者更好地了解Python在网络爬虫方面的使用,如果有任何疑问或者建议,欢迎留言讨论🌹

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/51088.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法日记day 19(找树左下角的值|路径总和)

一、找树左下角的值 题目: 给定一个二叉树的 根节点 root,请找出该二叉树的 最底层 最左边 节点的值。 假设二叉树中至少有一个节点。 示例 1: 输入: root [2,1,3] 输出: 1示例 2: 输入: [1,2,3,4,null,5,6,null,null,7] 输出: 7 思路:…

[Windows CMD] 检测网络连通性 ping

ping 是一个非常常用的网络工具,用于测试网络连接的可达性和测量网络延迟。它通过发送 ICMP (Internet Control Message Protocol) Echo Request 数据包到目标主机,并等待接收回显应答 (Echo Reply) 来工作。ping 命令可以帮助您快速检测网络问题&#x…

LinkedList 实现 LRU 缓存

LRU(Least Recently Used,最近最少使用)缓存是一种缓存淘汰策略,用于在缓存满时淘汰最久未使用的元素。 关键: 缓存选什么结构? 怎么实现访问顺序? import java.util.*;public class LRUCac…

2021真题-架构师案例(四)

问题1(16分) 针对该系统功能,赵工建议解释器架构风格,李工建议管道过滤架构风格,王工则建议饮食调用,该系统从灵活性和可扩展性考虑,应采用哪种? 解析: 管道-过滤器&am…

lua 游戏架构 之 游戏 AI (九)ai_mgr Ai管理

定义ai_mgr的类,用于管理游戏中实体的AI组件。 先定义 AI行为枚举和优先级: lua 游戏架构 之 游戏 AI (八)ai_tbl 行为和优先级-CSDN博客https://blog.csdn.net/heyuchang666/article/details/140712839?spm1001.2014.3001.55…

汕头 西月 公司的面试

1;常用的框架,tp 他的特性 2:事务,的使用的场景。 3:redis 的使用的场景 。 4:redis 集合使用的场景

软设之数据库规范化理论——模式分解

数据库规范化理论之模式分解 数据库进行分解,一个是保持函数依赖分解 假定数据库模式Q{R1,R2,R3,~~~RK}是关系模式R的一个分解,F是R上的函数依赖集,P中的每个模式RI上的FD集是Fi。如果{F1,F2,~~~&#xf…

【音视频】WebRTC的简介并使用WebRTC并直播本地

文章目录 前言WebRTC 是什么WebRTC 的主要组件为什么要使用 WebRTCWebRTC 的应用示例使用ffmpeg直播本地步骤 1:使用 FFmpeg 录制本地桌面视频并通过 WebSocket 传输步骤 2:设置 WebSocket 服务器安装 Node.js 和 npm创建 WebSocket 服务器 步骤 3&#…

[原理] 可变性卷积(deformable convolution)原理及代码解释

文章目录 前言提出问题核心思想代码理解模块初始化forward过程self.p_convself._get_pself._get_x_qself._reshape_x_offset 参考文献 前言 代码见:https://github.com/4uiiurz1/pytorch-deform-conv-v2/blob/master/deform_conv_v2.py 论文:https://ar…

【数据结构】使用栈实现综合计算器

首先初始化两个栈,数栈(numStack)用于存放数据,符号栈(operStack)用于存放运算符 计算思路 1.通过一个index值(索引)来遍历表达式 2.如果发现扫描到一个数字,就直接入数栈…

Python | TypeError: ‘function’ object is not subscriptable

Python | TypeError: ‘function’ object is not subscriptable 在Python编程中,遇到“TypeError: ‘function’ object is not subscriptable”这一错误通常意味着你尝试像访问列表、元组、字典或字符串等可订阅(subscriptable)对象那样去…

Javascript面试基础6(下)

获取页面所有checkbox 怎样添加、移除、移动、复制、创建和查找节点 在JavaScript中,操作DOM(文档对象模型)是常见的任务,包括添加、移除、移动、复制、创建和查找节点。以下是一些基本的示例,说明如何执行这些操作&a…

【Python】如何修改元组的值?

一、题目 We have seen that lists are mutable (they can be changed), and tuples are immutable (they cannot be changed). Lets try to understand this with an example. You are given an immutable string, and you want to make chaneges to it. Example >>…

Java语言程序设计——篇九(2)

🌿🌿🌿跟随博主脚步,从这里开始→博主主页🌿🌿🌿 枚举类型 枚举类型的定义枚举类型的方法实战演练 枚举在switch中的应用实战演练 枚举类的构造方法实战演练 枚举类型的定义 [修饰符] enum 枚举…

内部文档:如何创建、提示和示例

每个组织都拥有一定的内部知识储备,可以让组织不断运转、持续发展。这些知识资产对于每个企业来说都是独一无二的,并且高度依赖于为您工作的人员。问题是,这些知识常常储存在员工的头脑中。如果知识被记录下来,它通常隐藏在 Slack…

医院影像平台源码,C/S体系结构的C#语言PACS系统全套商业源代码

医学学影像临床信息系统具有图像采集、显示、存储、传输和管理等功能,支持DICOM影像设备和非DICOM影像设备,可以识别CT、MR、CR/DR、X光、DSA、B超、NM、SC等设备的图像类型,可对数字影像进行无损压缩和有损压缩处理。C/S体系结构的多媒体数据…

湖仓一体架构解析:数仓架构选择(第48天)

系列文章目录 1、Lambda 架构 2、Kappa 架构 3、混合架构 4、架构选择 5、实时数仓现状 6、湖仓一体架构 7、流批一体架构 文章目录 系列文章目录前言1、Lambda 架构2、Kappa 架构3、混合架构4、架构选择5、实时数仓现状6、湖仓一体架构7、流批一体架构 前言 本文解析了Lambd…

Verilog语言和C语言的本质区别是什么?

在开始前刚好我有一些资料,是我根据网友给的问题精心整理了一份「C语言的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!! 用老石的一句话其实很好说…

QtQuick-QML类型系统-对象特性 (方法特性)

概念 对象类型的方法就是一个函数,可以执行,也可以和信号关联,这样发射信号会自动调用。 在C中,可以使用Q_INVOKABLE宏或者Q_SLOT宏进行注册的方式定义方法; 另外,也可以在QML文档的对象声明里使用下面的…

二分类损失 - BCELoss详解

BCELoss (Binary Cross-Entropy Loss) 是用于二分类问题的损失函数。它用于评估预测值和实际标签之间的差异。在 PyTorch 中,BCELoss 是一个常用的损失函数。以下是 BCELoss 的详细计算过程和代码实现。 BCELoss 的计算过程 给定一组预测值 y ^ \hat{y} y^​ 和实…