利用Python进行网络爬虫:Beautiful Soup和Requests的应用【第131篇—Beautiful Soup】

利用Python进行网络爬虫:Beautiful Soup和Requests的应用

在网络数据变得日益丰富和重要的今天,网络爬虫成为了获取和分析数据的重要工具之一。Python作为一种强大而灵活的编程语言,在网络爬虫领域也拥有广泛的应用。本文将介绍如何使用Python中的两个流行库Beautiful Soup和Requests来创建简单而有效的网络爬虫,以便从网页中提取信息。
在这里插入图片描述

什么是Beautiful Soup和Requests?

  • Requests:是一个简单而优雅的HTTP库,用于发送HTTP请求。它使得从网站获取数据变得非常容易,而且可以处理各种类型的HTTP请求和响应。

  • Beautiful Soup:是一个用于解析HTML和XML文档的Python库。它提供了许多方便的方法来浏览、搜索和修改解析树,使得从网页中提取信息变得非常简单。

安装和导入库

首先,确保你已经安装了这两个库。你可以使用pip来安装它们:

pip install requests beautifulsoup4

安装完成后,让我们开始编写我们的网络爬虫!

示例:提取网页中的标题和链接

我们将以一个简单的例子开始,从一个网页中提取标题和链接。假设我们要从一个博客页面中提取标题和对应的文章链接。

import requests
from bs4 import BeautifulSoup# 定义要爬取的网页地址
url = 'https://xxxx/blog'# 发送HTTP请求获取页面内容
response = requests.get(url)# 使用Beautiful Soup解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')# 找到所有的标题和链接
titles = soup.find_all('h2', class_='post-title')
links = [title.a['href'] for title in titles]# 输出标题和链接
for i in range(len(titles)):print("标题:", titles[i].text.strip())print("链接:", links[i])print()

代码解析

  1. 我们首先导入了requestsBeautifulSoup库。
  2. 定义了要爬取的网页地址。
  3. 使用requests.get()方法发送HTTP请求,获取页面的响应内容。
  4. 通过BeautifulSoup将页面内容解析成一个HTML文档对象。
  5. 使用find_all()方法找到页面中所有的标题,指定了标题的标签为<h2>,并且指定了它们的类名为post-title
  6. 通过循环遍历每个标题,提取出标题文本和对应的链接。
  7. 最后输出标题和链接。

示例:提取网页中的图片链接和保存图片

在这个示例中,我们将学习如何从网页中提取图片链接,并将图片保存到本地文件系统中。

import os
import requests
from bs4 import BeautifulSoup# 定义要爬取的网页地址
url = 'https://xxxx/gallery'# 发送HTTP请求获取页面内容
response = requests.get(url)# 使用Beautiful Soup解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')# 找到所有的图片链接
image_links = [img['src'] for img in soup.find_all('img')]# 创建保存图片的文件夹
if not os.path.exists('images'):os.makedirs('images')# 下载图片并保存到本地
for i, link in enumerate(image_links):image_name = f'image_{i}.jpg'image_path = os.path.join('images', image_name)with open(image_path, 'wb') as f:img_data = requests.get(link).contentf.write(img_data)print(f"图片 '{image_name}' 已保存。")

代码解析

  1. 我们继续导入requestsBeautifulSoup库,以及Python的os模块。
  2. 定义了要爬取的网页地址。
  3. 发送HTTP请求并获取页面的响应内容。
  4. 使用BeautifulSoup解析页面内容。
  5. 使用find_all()方法找到页面中所有的图片标签,并提取出它们的src属性,即图片链接。
  6. 检查本地是否存在用于保存图片的文件夹,如果不存在则创建它。
  7. 使用循环遍历所有的图片链接,下载图片并保存到本地文件系统中。我们使用了enumerate()函数来同时获取图片的索引和链接。
  8. 每次下载完成后,打印出图片的保存信息。

示例:爬取动态加载的内容

有时,网页中的内容可能是通过 JavaScript 动态加载的,这时候我们不能简单地通过静态页面的解析来获取内容。我们需要使用更高级的技术,例如模拟浏览器行为或使用 AJAX 请求来获取动态内容。下面是一个示例,演示如何使用 Selenium 库来爬取动态加载的内容。

首先,确保你已经安装了 Selenium 库。你可以使用下面的命令进行安装:

pip install selenium

然后,下载并安装相应浏览器的 WebDriver。你可以从浏览器官方网站下载,例如 Chrome 的 WebDriver 可以从 Chrome WebDriver 获取。

下面是一个示例代码,演示了如何使用 Selenium 来爬取动态加载的内容:

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
import time# 设置 Chrome WebDriver 的路径
webdriver_path = '/path/to/chromedriver'# 创建 Chrome WebDriver
service = Service(webdriver_path)
chrome_options = Options()
chrome_options.add_argument("--headless")  # 无头模式,不打开浏览器界面
driver = webdriver.Chrome(service=service, options=chrome_options)# 加载页面
driver.get("https://xxxx/dynamic-content")# 模拟滚动浏览器窗口,触发动态加载
for i in range(5):driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")time.sleep(2)  # 等待页面加载# 提取动态加载的内容
elements = driver.find_elements(By.XPATH, "//div[@class='dynamic-content']")
for element in elements:print(element.text)# 关闭 WebDriver
driver.quit()

代码解析

  1. 我们导入了 webdriver 模块以及一些相关的类和方法。
  2. 设置了 Chrome WebDriver 的路径,创建了 Chrome WebDriver 实例。
  3. 使用 get() 方法加载目标网页。
  4. 使用 execute_script() 方法模拟滚动浏览器窗口,触发动态加载内容的加载。
  5. 使用 find_elements() 方法通过 XPath 查找动态加载的内容元素。
  6. 遍历找到的元素并输出它们的文本内容。
  7. 最后关闭 WebDriver。

示例:处理登录认证

有些网站需要用户登录后才能访问某些页面或获取某些内容。下面是一个示例,演示了如何使用 Selenium 模拟登录认证,然后爬取登录后的内容。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys# 设置 Chrome WebDriver 的路径
webdriver_path = '/path/to/chromedriver'# 创建 Chrome WebDriver
driver = webdriver.Chrome(webdriver_path)# 加载登录页面
driver.get("https://xxxx/login")# 找到用户名和密码输入框,并输入登录信息
username_field = driver.find_element(By.ID, "username")
password_field = driver.find_element(By.ID, "password")username_field.send_keys("your_username")
password_field.send_keys("your_password")# 找到登录按钮并点击
login_button = driver.find_element(By.XPATH, "//button[@type='submit']")
login_button.click()# 登录成功后,等待一段时间,确保页面加载完成
driver.implicitly_wait(10)  # 等待时间可以根据实际情况调整。在这里,我们等待了 10 秒钟,以确保页面加载完成。你也可以根据实际情况调整等待时间。

一旦登录成功并且页面加载完成,你就可以开始爬取登录后的内容了。以下是一个简单的示例,演示了如何查找登录后页面中的某些元素并提取它们的文本内容:

# 爬取登录后页面的内容
welcome_message = driver.find_element(By.XPATH, "//h1[contains(text(), 'Welcome')]").text
user_info = driver.find_element(By.XPATH, "//div[@class='user-info']").textprint("欢迎信息:", welcome_message)
print("用户信息:", user_info)# 关闭 WebDriver
driver.quit()

代码解析

  1. 使用 find_element() 方法查找用户名和密码输入框,并使用 send_keys() 方法输入登录信息。
  2. 使用 find_element() 方法找到登录按钮,并使用 click() 方法点击按钮进行登录。
  3. 使用 implicitly_wait() 方法等待一段时间,确保页面加载完成。
  4. 使用 find_element() 方法查找登录后页面中的元素,并提取它们的文本内容。
  5. 输出提取到的内容。
  6. 最后关闭 WebDriver。

在前面的示例中,我们使用了硬编码的方式来输入用户名和密码。然而,在实际情况中,我们可能需要更安全和更灵活的方法来处理用户凭据。下面是一个示例,演示了如何使用 getpass 模块来安全地输入密码,并且如何从外部文件中读取凭据信息。

首先,确保你已经安装了 getpass 模块:

pip install getpass

然后,假设我们有一个外部文件 credentials.txt,其中包含用户名和密码,格式如下:

username: your_username
password: your_password

以下是相应的代码示例:

from selenium import webdriver
from selenium.webdriver.common.by import By
from getpass import getpass# 设置 Chrome WebDriver 的路径
webdriver_path = '/path/to/chromedriver'# 创建 Chrome WebDriver
driver = webdriver.Chrome(webdriver_path)# 加载登录页面
driver.get("https://xxx/login")# 从外部文件读取用户名和密码
with open("credentials.txt", "r") as file:lines = file.readlines()username = lines[0].strip().split(": ")[1]password = lines[1].strip().split(": ")[1]# 输入用户名
username_field = driver.find_element(By.ID, "username")
username_field.send_keys(username)# 输入密码(安全方式)
password = getpass("请输入密码:")
password_field = driver.find_element(By.ID, "password")
password_field.send_keys(password)# 找到登录按钮并点击
login_button = driver.find_element(By.XPATH, "//button[@type='submit']")
login_button.click()# 登录成功后,等待一段时间,确保页面加载完成
driver.implicitly_wait(10)# 爬取登录后页面的内容
welcome_message = driver.find_element(By.XPATH, "//h1[contains(text(), 'Welcome')]").text
user_info = driver.find_element(By.XPATH, "//div[@class='user-info']").textprint("欢迎信息:", welcome_message)
print("用户信息:", user_info)# 关闭 WebDriver
driver.quit()

代码解析

  1. 使用 getpass() 函数安全地输入密码,这样密码不会在控制台中显示出来。
  2. 使用文件读取操作从外部文件中读取用户名和密码,这样可以将凭据信息存储在安全的地方,避免了硬编码的方式。

总结:

在本文中,我们介绍了如何使用 Python 中的 Requests 和 Beautiful Soup 库以及 Selenium 模块来创建网络爬虫,并展示了不同场景下的实际应用。

首先,我们使用 Requests 和 Beautiful Soup 演示了如何从静态网页中提取信息,包括文本内容、链接和图片链接。这使得我们能够快速、有效地从网页中获取所需的数据。

接着,我们展示了如何使用 Selenium 模拟登录认证并爬取登录后的内容。登录认证是访问某些网站或页面所必需的操作之一,而使用 Selenium 可以模拟用户的真实操作,从而实现登录认证并获取登录后页面的内容。

最后,我们介绍了如何安全地处理用户凭据,包括使用 getpass 模块安全输入密码以及从外部文件中读取用户名和密码。这样的做法使得我们的代码更加安全和灵活,有效地保护用户的隐私信息。

通过本文的学习,读者可以掌握使用 Python 进行网络爬虫的基本原理和方法,并且了解如何处理一些常见的爬虫场景,如静态网页数据提取、动态加载内容和登录认证等。同时,我们也强调了在进行网络爬虫时需要遵守相关的法律法规和网站的使用规则,以避免侵犯他人的权益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/743357.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Elasticseach基础认识

ES的起源&#xff1f; Elasticsearch 是由 Elastic 公司创建 简称&#xff08;ES&#xff09; Elasticsearch 是一个分布式、免费和开放的搜索和分析引擎&#xff0c;适用于所有类型的数据&#xff0c;包括文本、数字、地理空间、结构化和非结构化数据。 Elasticsearch 基于 …

Oracle 主从切换脚本

一、 切换前预检查 1. dg_precheck_main_v1.4.sh #!/bin/bash#********************************************************************************** # Author: Hehuyi_In # Date: 2022年06月16日 # FileName: dg_precheck_main_v1.4.sh # # For sys user, execute the sc…

LLM之RAG实战(二十九)| 探索RAG PDF解析

对于RAG来说&#xff0c;从文档中提取信息是一种不可避免的场景&#xff0c;确保从源文件中提取出有效的内容对于提高最终输出的质量至关重要。 文件解析过程在RAG中的位置如图1所示&#xff1a; 在实际工作中&#xff0c;非结构化数据比结构化数据丰富得多。如果这些海量数据无…

如何使用vue定义组件之——子组件调用父组件数据

1.定义父子模板template <div class"container"><my-father></my-father><my-father></my-father><my-father></my-father><!-- 此处无法调用子组件&#xff0c;子组件必须依赖于父组件进行展示 --><!-- <my-…

数学实验_Matlab使用2_简单绘图

简单使用 x -pi * 2 : .1 : pi*2;y sin(x);plot(x, y); % 绘制普通图像plot(x, y, k-.*); % 绘制2维图像&#xff0c;线为实线&#xff0c;*为每个点&#xff08;Matlab的画图比较原始&#xff0c;就是简单的秒点画图&#xff09;grid on; % 打开网状格式% grid off; % 关闭…

SORA和大语言模型的区别

OpenAI的文生视频模型SORA与大语言模型&#xff08;LLM&#xff09;的主要区别在于它们的应用领域和处理的数据类型&#xff0c;数据处理能力、技术架构、多模态能力和创新点。SORA作为一款专注于视频生成的模型&#xff0c;展现了在处理视觉数据方面的独特优势和创新能力。 1…

R语言读取大型NetCDF文件

失踪人口回归&#xff0c;本篇来介绍下R语言读取大型NetCDF文件的一些实践。 1 NetCDF数据简介 先给一段Wiki上关于NetCDF的定义。 NetCDF (Network Common Data Form) is a set of software libraries and self-describing, machine-independent data formats that support…

STM32串口通信—串口的接收和发送详解

目录 前言&#xff1a; STM32串口通信基础知识&#xff1a; 1&#xff0c;STM32里的串口通信 2&#xff0c;串口的发送和接收 串口发送&#xff1a; 串口接收&#xff1a; 串口在STM32中的配置&#xff1a; 1. RCC开启USART、串口TX/RX所对应的GPIO口 2. 初始化GPIO口 …

YOLOv8改进 | 图像去雾 | 特征融合注意网络FFA-Net增强YOLOv8对于模糊图片检测能力(北大和北航联合提出)

一、本文介绍 本文给大家带来的改进机制是由北大和北航联合提出的FFA-net: Feature Fusion Attention Network for Single Image Dehazing图像增强去雾网络,该网络的主要思想是利用特征融合注意力网络(Feature Fusion Attention Network)直接恢复无雾图像,FFA-Net通过特征…

MyBatis-Plus学习记录

目录 MyBatis-Plus快速入门 简介 快速入门 MyBatis-Plus核心功能 基于Mapper接口 CRUD 对比mybatis和mybatis-plus&#xff1a; CRUD方法介绍&#xff1a; 基于Service接口 CRUD 对比Mapper接口CRUD区别&#xff1a; 为什么要加强service层&#xff1a; 使用方式 CR…

开发指南009-从list导出excel文件

从数据库返回一般是对象的列表&#xff0c;平台底层提供了从list转为excel文件的方法。平台的设计思想就是为一些典型的场景设计对应的解决方法&#xff0c;通过模式化的方法来简化编程和提高维护性&#xff08;通过标准化来减少学习成本和维护成本&#xff0c;张三做的东西和李…

游戏数据处理

游戏行业关键数据指标 ~ 总激活码发放量、总激活量、总登录账号数 激活率、激活登录率 激活率 激活量 / 安装量 激活率 激活量 / 激活码发放量 激活且登录率 激活且登录量 / 激活码激活量 激活且登录率应用场景 激活且登录率是非常常用的转化率指标之一&#xff0c;广泛…

Ypay源支付6.9无授权聚合免签系统可运营源码

YPay是一款专为个人站长设计的聚合免签系统&#xff0c;YPay基于高性能的ThinkPHP 6.1.2 Layui PearAdmin架构&#xff0c;提供了实时监控和管理的功能&#xff0c;让您随时随地掌握系统运营情况。 说明 Ypay源支付6.9无授权聚合免签系统可运营源码 已搭建测试无加密版本…

HTML5:七天学会基础动画网页13

看完前面很多人可能还不是很明白0%-100%那到底是怎么回事&#xff0c;到底该怎么用&#xff0c;这里我们做一个普遍的练习——心跳动画 想让心❤跳起来&#xff0c;我们先分析一波&#xff0c;这个心怎么写&#xff0c;我们先写一个正方形&#xff0c;再令一个圆形前移: 再来一…

Linux中YUM仓库的配置

Linux软件包的管理 YUM仓库是什么YUM的常用命令修改YUM源其实CentOS7已经对YUM做了优化 YUM仓库是什么 之前传统RPM的管理方式 可以简单理解为写Java的时候不用Maven管理 jar包都要自己手动去导入 去下载 但是配置好YUM仓库 就放佛在用Maven管理Java项目 基于RPM包管理 能够从…

Python导入类说一说

要在Python中导入一个类&#xff0c;需要使用import关键字。 详细去看下面的代码 1、多例类 class Restaurant:餐馆类def __init__(self,restaurant_name,cuisine_type):#类的属性self.restaurant_name restaurant_nameself.cuisine_type cuisine_type# self.stregth_leve…

2024软件测试应该学什么?“我“怎么从功能转入自动化测试?

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、软件测试应该学…

TypeScript编译选项

编译单个文件&#xff1a;终端 tsc 文件名 自动编译单个文件&#xff1a;终端 tsc 文件名 -w 编译整个项目&#xff1a;tsc 前提是得有ts的配置文件tsconfig.json 自动编译整个项目&#xff1a;tsc --w tsconfig.json默认文件内容&#xff1a; tsconfig.json是ts编译器的配…

代码随想录算法训练营Day45 ||leetCode 70. 爬楼梯 (进阶)|| 322. 零钱兑换 || 279.完全平方数

70. 爬楼梯 &#xff08;进阶&#xff09; 本质上和leetcode377一样 #include <iostream> #include <vector> using namespace std; int main() {int n, m;while (cin >> n >> m) {vector<int> dp(n 1, 0);dp[0] 1;for (int i 1; i < n; i…

【MySQL 系列】MySQL 索引篇

在 MySQL 中&#xff0c;索引是一种帮助存储引擎快速获取数据的数据结构&#xff0c;形象的说就是索引是数据的目录。它一般是以包含索引键值和一个指向索引键值对应数据记录物理地址的指针的节点的集合的清单的形式存在。通过使用索引&#xff0c; MySQL 可以在不需要扫描整个…