利用Python进行网络爬虫:Beautiful Soup和Requests的应用【第131篇—Beautiful Soup】

利用Python进行网络爬虫:Beautiful Soup和Requests的应用

在网络数据变得日益丰富和重要的今天,网络爬虫成为了获取和分析数据的重要工具之一。Python作为一种强大而灵活的编程语言,在网络爬虫领域也拥有广泛的应用。本文将介绍如何使用Python中的两个流行库Beautiful Soup和Requests来创建简单而有效的网络爬虫,以便从网页中提取信息。
在这里插入图片描述

什么是Beautiful Soup和Requests?

  • Requests:是一个简单而优雅的HTTP库,用于发送HTTP请求。它使得从网站获取数据变得非常容易,而且可以处理各种类型的HTTP请求和响应。

  • Beautiful Soup:是一个用于解析HTML和XML文档的Python库。它提供了许多方便的方法来浏览、搜索和修改解析树,使得从网页中提取信息变得非常简单。

安装和导入库

首先,确保你已经安装了这两个库。你可以使用pip来安装它们:

pip install requests beautifulsoup4

安装完成后,让我们开始编写我们的网络爬虫!

示例:提取网页中的标题和链接

我们将以一个简单的例子开始,从一个网页中提取标题和链接。假设我们要从一个博客页面中提取标题和对应的文章链接。

import requests
from bs4 import BeautifulSoup# 定义要爬取的网页地址
url = 'https://xxxx/blog'# 发送HTTP请求获取页面内容
response = requests.get(url)# 使用Beautiful Soup解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')# 找到所有的标题和链接
titles = soup.find_all('h2', class_='post-title')
links = [title.a['href'] for title in titles]# 输出标题和链接
for i in range(len(titles)):print("标题:", titles[i].text.strip())print("链接:", links[i])print()

代码解析

  1. 我们首先导入了requestsBeautifulSoup库。
  2. 定义了要爬取的网页地址。
  3. 使用requests.get()方法发送HTTP请求,获取页面的响应内容。
  4. 通过BeautifulSoup将页面内容解析成一个HTML文档对象。
  5. 使用find_all()方法找到页面中所有的标题,指定了标题的标签为<h2>,并且指定了它们的类名为post-title
  6. 通过循环遍历每个标题,提取出标题文本和对应的链接。
  7. 最后输出标题和链接。

示例:提取网页中的图片链接和保存图片

在这个示例中,我们将学习如何从网页中提取图片链接,并将图片保存到本地文件系统中。

import os
import requests
from bs4 import BeautifulSoup# 定义要爬取的网页地址
url = 'https://xxxx/gallery'# 发送HTTP请求获取页面内容
response = requests.get(url)# 使用Beautiful Soup解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')# 找到所有的图片链接
image_links = [img['src'] for img in soup.find_all('img')]# 创建保存图片的文件夹
if not os.path.exists('images'):os.makedirs('images')# 下载图片并保存到本地
for i, link in enumerate(image_links):image_name = f'image_{i}.jpg'image_path = os.path.join('images', image_name)with open(image_path, 'wb') as f:img_data = requests.get(link).contentf.write(img_data)print(f"图片 '{image_name}' 已保存。")

代码解析

  1. 我们继续导入requestsBeautifulSoup库,以及Python的os模块。
  2. 定义了要爬取的网页地址。
  3. 发送HTTP请求并获取页面的响应内容。
  4. 使用BeautifulSoup解析页面内容。
  5. 使用find_all()方法找到页面中所有的图片标签,并提取出它们的src属性,即图片链接。
  6. 检查本地是否存在用于保存图片的文件夹,如果不存在则创建它。
  7. 使用循环遍历所有的图片链接,下载图片并保存到本地文件系统中。我们使用了enumerate()函数来同时获取图片的索引和链接。
  8. 每次下载完成后,打印出图片的保存信息。

示例:爬取动态加载的内容

有时,网页中的内容可能是通过 JavaScript 动态加载的,这时候我们不能简单地通过静态页面的解析来获取内容。我们需要使用更高级的技术,例如模拟浏览器行为或使用 AJAX 请求来获取动态内容。下面是一个示例,演示如何使用 Selenium 库来爬取动态加载的内容。

首先,确保你已经安装了 Selenium 库。你可以使用下面的命令进行安装:

pip install selenium

然后,下载并安装相应浏览器的 WebDriver。你可以从浏览器官方网站下载,例如 Chrome 的 WebDriver 可以从 Chrome WebDriver 获取。

下面是一个示例代码,演示了如何使用 Selenium 来爬取动态加载的内容:

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
import time# 设置 Chrome WebDriver 的路径
webdriver_path = '/path/to/chromedriver'# 创建 Chrome WebDriver
service = Service(webdriver_path)
chrome_options = Options()
chrome_options.add_argument("--headless")  # 无头模式,不打开浏览器界面
driver = webdriver.Chrome(service=service, options=chrome_options)# 加载页面
driver.get("https://xxxx/dynamic-content")# 模拟滚动浏览器窗口,触发动态加载
for i in range(5):driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")time.sleep(2)  # 等待页面加载# 提取动态加载的内容
elements = driver.find_elements(By.XPATH, "//div[@class='dynamic-content']")
for element in elements:print(element.text)# 关闭 WebDriver
driver.quit()

代码解析

  1. 我们导入了 webdriver 模块以及一些相关的类和方法。
  2. 设置了 Chrome WebDriver 的路径,创建了 Chrome WebDriver 实例。
  3. 使用 get() 方法加载目标网页。
  4. 使用 execute_script() 方法模拟滚动浏览器窗口,触发动态加载内容的加载。
  5. 使用 find_elements() 方法通过 XPath 查找动态加载的内容元素。
  6. 遍历找到的元素并输出它们的文本内容。
  7. 最后关闭 WebDriver。

示例:处理登录认证

有些网站需要用户登录后才能访问某些页面或获取某些内容。下面是一个示例,演示了如何使用 Selenium 模拟登录认证,然后爬取登录后的内容。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys# 设置 Chrome WebDriver 的路径
webdriver_path = '/path/to/chromedriver'# 创建 Chrome WebDriver
driver = webdriver.Chrome(webdriver_path)# 加载登录页面
driver.get("https://xxxx/login")# 找到用户名和密码输入框,并输入登录信息
username_field = driver.find_element(By.ID, "username")
password_field = driver.find_element(By.ID, "password")username_field.send_keys("your_username")
password_field.send_keys("your_password")# 找到登录按钮并点击
login_button = driver.find_element(By.XPATH, "//button[@type='submit']")
login_button.click()# 登录成功后,等待一段时间,确保页面加载完成
driver.implicitly_wait(10)  # 等待时间可以根据实际情况调整。在这里,我们等待了 10 秒钟,以确保页面加载完成。你也可以根据实际情况调整等待时间。

一旦登录成功并且页面加载完成,你就可以开始爬取登录后的内容了。以下是一个简单的示例,演示了如何查找登录后页面中的某些元素并提取它们的文本内容:

# 爬取登录后页面的内容
welcome_message = driver.find_element(By.XPATH, "//h1[contains(text(), 'Welcome')]").text
user_info = driver.find_element(By.XPATH, "//div[@class='user-info']").textprint("欢迎信息:", welcome_message)
print("用户信息:", user_info)# 关闭 WebDriver
driver.quit()

代码解析

  1. 使用 find_element() 方法查找用户名和密码输入框,并使用 send_keys() 方法输入登录信息。
  2. 使用 find_element() 方法找到登录按钮,并使用 click() 方法点击按钮进行登录。
  3. 使用 implicitly_wait() 方法等待一段时间,确保页面加载完成。
  4. 使用 find_element() 方法查找登录后页面中的元素,并提取它们的文本内容。
  5. 输出提取到的内容。
  6. 最后关闭 WebDriver。

在前面的示例中,我们使用了硬编码的方式来输入用户名和密码。然而,在实际情况中,我们可能需要更安全和更灵活的方法来处理用户凭据。下面是一个示例,演示了如何使用 getpass 模块来安全地输入密码,并且如何从外部文件中读取凭据信息。

首先,确保你已经安装了 getpass 模块:

pip install getpass

然后,假设我们有一个外部文件 credentials.txt,其中包含用户名和密码,格式如下:

username: your_username
password: your_password

以下是相应的代码示例:

from selenium import webdriver
from selenium.webdriver.common.by import By
from getpass import getpass# 设置 Chrome WebDriver 的路径
webdriver_path = '/path/to/chromedriver'# 创建 Chrome WebDriver
driver = webdriver.Chrome(webdriver_path)# 加载登录页面
driver.get("https://xxx/login")# 从外部文件读取用户名和密码
with open("credentials.txt", "r") as file:lines = file.readlines()username = lines[0].strip().split(": ")[1]password = lines[1].strip().split(": ")[1]# 输入用户名
username_field = driver.find_element(By.ID, "username")
username_field.send_keys(username)# 输入密码(安全方式)
password = getpass("请输入密码:")
password_field = driver.find_element(By.ID, "password")
password_field.send_keys(password)# 找到登录按钮并点击
login_button = driver.find_element(By.XPATH, "//button[@type='submit']")
login_button.click()# 登录成功后,等待一段时间,确保页面加载完成
driver.implicitly_wait(10)# 爬取登录后页面的内容
welcome_message = driver.find_element(By.XPATH, "//h1[contains(text(), 'Welcome')]").text
user_info = driver.find_element(By.XPATH, "//div[@class='user-info']").textprint("欢迎信息:", welcome_message)
print("用户信息:", user_info)# 关闭 WebDriver
driver.quit()

代码解析

  1. 使用 getpass() 函数安全地输入密码,这样密码不会在控制台中显示出来。
  2. 使用文件读取操作从外部文件中读取用户名和密码,这样可以将凭据信息存储在安全的地方,避免了硬编码的方式。

总结:

在本文中,我们介绍了如何使用 Python 中的 Requests 和 Beautiful Soup 库以及 Selenium 模块来创建网络爬虫,并展示了不同场景下的实际应用。

首先,我们使用 Requests 和 Beautiful Soup 演示了如何从静态网页中提取信息,包括文本内容、链接和图片链接。这使得我们能够快速、有效地从网页中获取所需的数据。

接着,我们展示了如何使用 Selenium 模拟登录认证并爬取登录后的内容。登录认证是访问某些网站或页面所必需的操作之一,而使用 Selenium 可以模拟用户的真实操作,从而实现登录认证并获取登录后页面的内容。

最后,我们介绍了如何安全地处理用户凭据,包括使用 getpass 模块安全输入密码以及从外部文件中读取用户名和密码。这样的做法使得我们的代码更加安全和灵活,有效地保护用户的隐私信息。

通过本文的学习,读者可以掌握使用 Python 进行网络爬虫的基本原理和方法,并且了解如何处理一些常见的爬虫场景,如静态网页数据提取、动态加载内容和登录认证等。同时,我们也强调了在进行网络爬虫时需要遵守相关的法律法规和网站的使用规则,以避免侵犯他人的权益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/743357.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++进阶学习

模板编程 模板函数和模板类的基本概念和用法 模板编程是C中一种强大的特性&#xff0c;它允许程序员编写与类型无关的代码。这意味着你可以编写一个函数或类&#xff0c;让它能够处理任何数据类型。这不仅可以提高代码的重用性&#xff0c;还可以提高编程效率和程序的可维护性…

Verilog——Verilog的历史

第1节 Verilog的历史 在传统硬件电路的设计方法中&#xff0c;当设计工程师需要设计一个新的硬件、数字电路或数字逻辑系统 时&#xff0c;需要为此设计并画出一张线路图&#xff0c;随后在CAE&#xff08;计算机辅助工程分析&#xff09;工作站上进行设计。所 设计的线路图由线…

.Net Core 与数据库

查询 Linq var indexList new long[] { 1, 2, 3}; List<long> list new List<long>(); if (String.IsNullOrWhiteSpace(request.Key) false) {var ret from aa in _db.TblAAjoin bb in _db.TblBBon aa.PId equals bb.Idjoin cc in _db.TblCCon aa.CId equals…

13、Linux-Shell02:参数传递和运算符

目录 一、参数传递 二、运算符 1、算术运算符&#xff08;、-、*、/、%、、、&#xff01;&#xff09; 2、关系运算符 3、逻辑运算符 4、字符串运算符 5、文件运算符 一、参数传递 执行脚本时可以为脚本文件传递参数&#xff0c;在脚本中可以处理这些参数。 第n个参数…

[LeetCode][LCR172]统计目标成绩的出现次数——二分找边界

题目 LCR 172. 统计目标成绩的出现次数 某班级考试成绩按非严格递增顺序记录于整数数组 scores&#xff0c;请返回目标成绩 target 的出现次数。 示例 1&#xff1a; 输入&#xff1a;scores [2, 2, 3, 4, 4, 4, 5, 6, 6, 8], target 4 输出&#xff1a;3 示例 2&#xff1a…

Elasticseach基础认识

ES的起源&#xff1f; Elasticsearch 是由 Elastic 公司创建 简称&#xff08;ES&#xff09; Elasticsearch 是一个分布式、免费和开放的搜索和分析引擎&#xff0c;适用于所有类型的数据&#xff0c;包括文本、数字、地理空间、结构化和非结构化数据。 Elasticsearch 基于 …

Oracle 主从切换脚本

一、 切换前预检查 1. dg_precheck_main_v1.4.sh #!/bin/bash#********************************************************************************** # Author: Hehuyi_In # Date: 2022年06月16日 # FileName: dg_precheck_main_v1.4.sh # # For sys user, execute the sc…

LLM之RAG实战(二十九)| 探索RAG PDF解析

对于RAG来说&#xff0c;从文档中提取信息是一种不可避免的场景&#xff0c;确保从源文件中提取出有效的内容对于提高最终输出的质量至关重要。 文件解析过程在RAG中的位置如图1所示&#xff1a; 在实际工作中&#xff0c;非结构化数据比结构化数据丰富得多。如果这些海量数据无…

【向课题组提交实习申请模板】

实习申请 尊敬的老师&#xff1a; 本人系xx学院xx专业的学生xx。现已通过xx公司202x届“xx星”实习计划的面试&#xff0c;并成功获得xx工程师实习岗位&#xff1b;工作内容为xx&#xff1b;实习地点位于xx&#xff1b;实习时长为暑期x个月。我希望能够通过此次实习&#xff0…

Redis事务及原理

Redis 事务以及原理 Redis 中的事务是一组命令的集合&#xff0c;是 Redis 的最小执行单位。它可以保证一次执行多个命令&#xff0c;每个事务是一个单独的隔离操作&#xff0c;事务中的所有命令都会序列化、按顺序地执行。服务端在执行事务的过程中&#xff0c;不会被其他客户…

HTML、CSS、JavaScript

W3C标准&#xff1a;网页主要由三部分组成 ➢结构&#xff1a;HTML ➢表现&#xff1a;CSS ➢行为&#xff1a;JavaScript HTML HTML是一门语言&#xff0c;所有的网页都是用HTML这语言编写出来的 HTML(Hyper Text Markup Language)&#xff1a;超文本标记语言 ➢超文本&#x…

【python】(10)语法糖

Python 语法糖(Syntactic Sugar)是指 Python 中的一些语法特性,它们并不改变语言的功能,但能够使代码更加简洁、易读和优雅。 1. 列表推导式(List Comprehensions) 列表推导式是 Python 中一种简洁的创建列表的方法,它允许我们使用单行代码来生成列表,避免了传统的循…

微服务篇-A JavaEE架构演进历程(学习总结)

原创作者&#xff1a;田超凡 版权所有&#xff0c;转载请注明原作者&#xff0c;严禁复制转载 Level1 传统架构 就是大家众所周知的SSM或SSH了&#xff0c; 优点&#xff1a;三层架构职责清晰 缺点&#xff1a;依赖库管理难度大&#xff0c;协同开发代码冲突和功能扩展性差&a…

如何使用vue定义组件之——子组件调用父组件数据

1.定义父子模板template <div class"container"><my-father></my-father><my-father></my-father><my-father></my-father><!-- 此处无法调用子组件&#xff0c;子组件必须依赖于父组件进行展示 --><!-- <my-…

Java Web实战(五)Web后端之AOP-面向切面编程原理用法详解

文章目录 1. 场景示例Spring AOP快速入门&#xff1a;统计各个业务层方法执行耗时 2. AOP核心概念2.1 通知类型2.2 PointCut2.3 通知顺序2.4 使用通知函数的参数2.5 示例 3. 切入点表达式3.1 切入点表达式-execution3.2 切入点表达式-annotation 4. 案例 AOP&#xff1a;Aspect…

数学实验_Matlab使用2_简单绘图

简单使用 x -pi * 2 : .1 : pi*2;y sin(x);plot(x, y); % 绘制普通图像plot(x, y, k-.*); % 绘制2维图像&#xff0c;线为实线&#xff0c;*为每个点&#xff08;Matlab的画图比较原始&#xff0c;就是简单的秒点画图&#xff09;grid on; % 打开网状格式% grid off; % 关闭…

【自动驾驶中的BEV算法】

自动驾驶中的BEV算法 在自动驾驶领域中&#xff0c;Bird’s Eye View (BEV) 算法是一种将来自不同传感器&#xff08;如摄像头、激光雷达、毫米波雷达等&#xff09;的数据转换为车辆正上方俯瞰视角下的统一表示的方法。这种转换使得车辆能够获得一个直观且具有空间一致性的环…

6. git 指定某一个提交

在 Git 中&#xff0c;直接“更新”一个特定的提交记录是不常见的操作&#xff0c;因为提交记录是 Git 仓库历史的一部分&#xff0c;通常不应该被修改。 但是&#xff0c;你可以通过一些策略来达到类似的效果&#xff0c;比如创建一个新的提交来撤销或者修改之前的提交。 以下…

SORA和大语言模型的区别

OpenAI的文生视频模型SORA与大语言模型&#xff08;LLM&#xff09;的主要区别在于它们的应用领域和处理的数据类型&#xff0c;数据处理能力、技术架构、多模态能力和创新点。SORA作为一款专注于视频生成的模型&#xff0c;展现了在处理视觉数据方面的独特优势和创新能力。 1…

R语言读取大型NetCDF文件

失踪人口回归&#xff0c;本篇来介绍下R语言读取大型NetCDF文件的一些实践。 1 NetCDF数据简介 先给一段Wiki上关于NetCDF的定义。 NetCDF (Network Common Data Form) is a set of software libraries and self-describing, machine-independent data formats that support…