Python爬虫入门：从网站爬取文章内容并保存到本地文件

Python爬虫入门：从网站爬取文章内容并保存到本地文件

news/2025/4/19 16:04:50/文章来源:https://blog.csdn.net/m0_67388084/article/details/137027743

目录

前言

准备工作

简单爬虫实现

注意事项

爬虫伦理与合法性

总结

前言

在互联网时代，数据是宝贵的资源。然而，当需要从海量网站中抓取数据时，手动操作显然不切实际。这时，爬虫技术应运而生，成为我们获取数据的重要工具。本文将带你走进Python爬虫的世界，通过编写一个简单的爬虫程序，学会如何从网站上爬取文章内容，并将其保存到本地文件中。

准备工作

在开始编写爬虫程序之前，我们需要准备两个关键的Python库：requests和BeautifulSoup。requests库用于发送HTTP请求获取网页内容，而BeautifulSoup库则用于解析HTML内容并提取所需数据。你可以通过以下命令安装这两个库：

pip install requests  
pip install beautifulsoup4

简单爬虫实现

接下来，我们将编写一个简单的爬虫程序来演示如何爬取网站上的文章内容。假设我们要爬取的网站URL为https://example.com/articles。

import requests  
from bs4 import BeautifulSoup  # 设置目标网站的URL  
url = 'https://example.com/articles'  # 发送HTTP GET请求获取网页内容  
response = requests.get(url)  
response.encoding = 'utf-8'  # 设置网页内容的编码格式  # 使用BeautifulSoup解析网页内容  
soup = BeautifulSoup(response.text, 'html.parser')  # 查找文章列表所在的HTML元素  
articles = soup.find_all('div', class_='article')  # 遍历文章列表，提取标题和内容  
for article in articles:  title = article.find('h2').text.strip()  # 提取标题并去除空白字符  content = article.find('p').text.strip()  # 提取内容并去除空白字符  # 打印提取到的标题和内容  print(f"标题：{title}")  print(f"内容：{content}\n")  # 将文章内容保存到本地文件  
with open('articles.txt', 'w', encoding='utf-8') as file:  for article in articles:  title = article.find('h2').text.strip()  content = article.find('p').text.strip()  # 将标题和内容写入文件，并在每篇文章之间添加空行分隔  file.write(f"标题：{title}\n内容：{content}\n\n")

上面首先通过requests库发送HTTP GET请求获取目标网页的内容。然后，使用BeautifulSoup库解析HTML内容，并找到包含文章的HTML元素。接下来，遍历这些元素，提取每篇文章的标题和内容，并打印到控制台。最后，将提取到的文章内容保存到名为articles.txt的本地文件中。

注意事项

虽然上面的示例代码展示了基本的爬虫实现过程，但实际的爬虫程序可能会更加复杂。因为不同的网站可能有不同的HTML结构，需要针对具体情况进行调整。此外，在进行爬取时，务必遵守网站的爬取规则，尊重对方的服务器资源，避免对网站造成过大的访问压力。

爬虫伦理与合法性

在使用爬虫技术时，我们需要遵循爬虫伦理，确保我们的行为合法合规。这包括尊重网站的robots.txt文件、设置合理的爬取频率、避免对网站造成过大的负担等。同时，我们也要尊重数据的版权和隐私，不要将爬取到的数据用于非法用途。

总结

通过本文的介绍，相信你对Python爬虫有了更深入的了解。爬虫技术为我们提供了一种高效的数据采集方式，能够帮助我们从海量的网络数据中快速获取所需信息。但请记住，在使用爬虫技术时，务必遵守相关规则和伦理准则，确保我们的行为合法合规。希望你在未来的学习和实践中能够运用爬虫技术实现更多的数据采集需求。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/775701.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

OSG编程指南＜二十一＞：OSG视图与相机视点更新设置及OSG宽屏变形

OSG编程指南＜二十一＞：OSG视图与相机视点更新设置及OSG宽屏变形

1、概述什么是视图？在《OpenGL 编程指南》中有下面的比喻，从笔者开始学习图形学就影响深刻，相信对读者学习场景管理也会非常有帮助。产生目标场景视图的变换过程类似于用相机进行拍照，主要有如下的步骤：（1）把照相机固定在三脚架上，让它对准场景（视图变换）。（2）…

阅读更多...

详细分析java.io.EOFException: readObject: unexpected end of file的解决方法

详细分析java.io.EOFException: readObject: unexpected end of file的解决方法

目录前言1. 问题所示2. 原理分析3. 解决方法4. 彩蛋前言以下问题涉及知识点推荐阅读详细分析Java中的分布式任务调度框架 XXL-Job出现 Caused by: java.lang.NumberFormatException: For input string: “Error“ 解决方法（全）java框架零基础从入门到精通的学习路线附开…

阅读更多...

【爬虫基础】第4讲 GET与POST请求

【爬虫基础】第4讲 GET与POST请求

GET请求 GET请求是一种HTTP方法，用于向服务器获取（或读取）数据。它是Web开发中最常用的请求方式之一。对于GET请求，客户端向服务器发送一个HTTP请求，服务器返回请求的资源。GET请求通常用于获取静态资源，比…

阅读更多...

c#基础-引用类型和值类型的区别

c#基础-引用类型和值类型的区别

在C#中，数据类型分为两类：值类型和引用类型。值类型：直接存储数据，分配在栈(Stack)上。常见的值类型包括基本数据类型（int, float, double等），结构体（struct），枚举（enum）等。引用类型：存储数据的引用和对象，分配在托管堆(Heap)上。常见的引用类型包括类（cla…

阅读更多...

记录关于智能家居的路程的一个bug___Segmentation fault（段错误）

记录关于智能家居的路程的一个bug___Segmentation fault（段错误）

前言其实发生段错误的情况有很多： 其实在项目的开发中最有可能的错误就是①和②，考虑到本项目数组用的比较少，所以主要是考虑错误①指针的误用。有时候错误就是那么离谱，声音也算是一种设备？？&#xff…

阅读更多...

35.HarmonyOS App(ArkUI)使用父组件@Builder装饰的方法初始化子组件@BuilderParam报错

35.HarmonyOS App(ArkUI)使用父组件@Builder装饰的方法初始化子组件@BuilderParam报错

HarmonyOS App(ArkUI)使用父组件Builder装饰的方法初始化子组件BuilderParam报错 Type void is not assignable to type () > void. <tsCheck> 去掉括号()就可以了装饰器： 用于装饰类、结构、方法以及变量，并赋予其特殊的含义。如上述示例中En…

阅读更多...

Linux 内核工具 iptables 配置TCP/UDP端口转发（命令参考）

Linux 内核工具 iptables 配置TCP/UDP端口转发（命令参考）

1、配置TCP端口转发把本机20000/TCP端口转发到7.7.7.7:20000 iptables -t nat -A PREROUTING -p tcp --dport 20000 -j DNAT --to-destination 7.7.7.7:20000 iptables -t nat -A POSTROUTING -j MASQUERADE 2、配置UDP端口转发把本机20000/UDP端口转发到7.7.7.7:20000 i…

阅读更多...

SpringBoot实现RabbitMQ的简单队列(SpringAMQP 实现简单队列)

SpringBoot实现RabbitMQ的简单队列(SpringAMQP 实现简单队列)

文章目录 1. 前言2. Basic Queue 简单队列模型2.1 父工程导入依赖2.2 消息发送2.2.1 消息发送方必要的配置2.2.2 发消息 3. 消息接收3.1 消息接收方必要的配置3.2 接收消息 1. 前言 SpringAMQP 是基于 RabbitMQ 封装的一套模板，并且还利用 SpringBoot 对其实现了自…

阅读更多...

2024.3.26学习总结

2024.3.26学习总结

一，正则匹配正则匹配是用来搜索，匹配，替换的一种字符串模式，使用正则匹配可以让搜索匹配的语句更加简洁，在php中会使用一些函数来处理正则匹配常用的语法： 字符类 [abc]: 匹配单个字符a、b或c[^abc]: 匹…

阅读更多...

DevSecOps平台架构系列-互联网企业私有化DevSecOps平台典型架构

DevSecOps平台架构系列-互联网企业私有化DevSecOps平台典型架构

目录一、概述二、私有化DevSecOps平台建设思路 2.1 采用GitOps公有云建设 2.2 采用GitOps私有云建设 2.3 总结三、GitOps及其生态组件 3.1 采用GitOps的好处 3.1.1 周边生态系统齐全 3.1.2 便于自动化的实现 3.1.3 开发人员属性GitOps 3.2 GitOps部分生态组件介绍…

阅读更多...

搜维尔科技【应急推演】虚拟仿真技术的发展为煤炭矿井的安全生产找到新的出口

搜维尔科技【应急推演】虚拟仿真技术的发展为煤炭矿井的安全生产找到新的出口

煤炭矿井的安全生产一直是我国关注的重大事项，保证煤炭矿井的安全生产，减少人员伤亡等不可逆的损失成为重中之重。虚拟仿真技术的发展为煤炭矿井的安全生产找到了新的出口。依托虚拟仿真技术，对煤炭矿井进行实时的生产监测，对矿井…

阅读更多...

PTA 道路管制

PTA 道路管制

乌拉乌拉国有n个城市和m条道路，城市编号为1∼n。由于乌拉乌拉国每一个城市都在创城（创建文明城市），因此，城市之间的道路通行施行道路交通管制： 已知从城市ui到城市vi的道路，需要时间ti。…

阅读更多...

华为昇腾asend

华为昇腾asend

昇腾Ascend C编程语言 Ascend C原生支持C/C编程规范，通过多层接口抽象、并行编程范式、孪生调试等技术，极大提高了算子的开发效率，帮助AI 参考文章手把手教你在昇腾平台上搭建PyTorch训练环境 - 哔哩哔哩 (bilibili.com)https://www.bilibi…

阅读更多...

科普 | Runes 预挖矿概念

科普 | Runes 预挖矿概念

作者：Jacky X/推：zxl2102492 关于 Runes 协议的前世今生，可以点击阅读这篇文章 👇 《简述 Runes 协议、发展历程及最新的「公开铭刻」发行机制的拓展讨论》什么是传统预挖矿概念这轮比特币生态爆发之前，预挖矿&…

阅读更多...

2024 MCM数学建模美赛2024年A题复盘，思路与经验分享：资源可用性与性别比例 | 性别比例变化是否对生态系统中的其他生物如寄生虫提供优势（五）

2024 MCM数学建模美赛2024年A题复盘，思路与经验分享：资源可用性与性别比例 | 性别比例变化是否对生态系统中的其他生物如寄生虫提供优势（五）

审题第四问让我们探究性别比例变化是否对生态系统中的其他生物如寄生虫提供优势。这里我们可以把问题简化一下，只探究性别比例会不会对寄生虫提供优势。因为考虑太多生物，会使模型更复杂，我这个水平处理不了这么复杂的问题，是我…

阅读更多...

『大模型笔记』常见的分布式并行策略(分布式训练)

『大模型笔记』常见的分布式并行策略(分布式训练)

常见的分布式并行策略(分布式训练) 文章目录一. 为什么分布式训练越来越流行二. 常见的并行策略2.1 数据并行2.2 模型并行2.3 流水并行2.4 混合并行二. 参考文献一. 为什么分布式训练越来越流行近年来，深度学习被广泛应用到各个领域，包括计算机视觉、语言理解、语音识别、广…

阅读更多...

Healix Protocol 的 HLX 通证预售：医疗领域的未来展望

Healix Protocol 的 HLX 通证预售：医疗领域的未来展望

Healix Protocol推出 HLX 通证预售，将带来医疗领域的重要变革。通过其区块链技术，Healix Protocol致力于重新定义医疗服务的可及性与负担性，成为医疗行业的希望之光。该项目旨在增强透明度、可及性和效率，推动医疗体系向更加公平和…

阅读更多...

ripro子主题wori-child集成后台美化包（适用于设计素材站+资源下载站等）

ripro子主题wori-child集成后台美化包（适用于设计素材站+资源下载站等）

新内容如下 1、子主题独立运行,彻底摆脱覆盖原主题文件 2、下载信息插件升级优化 3、细节优化 V1.0更新内容如下 1、同步暗黑美化、手机端美化 2、新增菜单合成幻灯片（后台自行设置） 3、新增公告统计 （后台自行设置） 4、新增…

阅读更多...

C/C++ 不要使用 boost::asio::ip::address::from_string 函数来转换字符串为IP地址

C/C++ 不要使用 boost::asio::ip::address::from_string 函数来转换字符串为IP地址

如本文标题所示，不要使用 boost::asio::ip::address::from_string 函数来转换字符串为IP地址，它可能导致崩溃。这是因为 boost::asio::ip::address::from_string 函数实现并不安全有问题，在 Android 平台NDK优化编译的情况下，100…

阅读更多...

【小沐学AI】智谱AI大模型的一点点学习（Python）

【小沐学AI】智谱AI大模型的一点点学习（Python）

文章目录 1、简介1.1 大模型排行榜 2、智谱AI2.1 GLM2.1.1 模型简介2.1.2 开源代码2.1.2.1 GLM-130B 2.2 ChatGLM2.2.1 模型简介2.2.2 开源代码2.2.2.1 ChatGLM2.2.2.2 ChatGLM22.2.2.3 ChatGLM3 2.3 CodeGeeX2.3.1 模型简介2.3.2 开源代码 2.4 CogView2.4.1 模型简介2.4.2 开源…

阅读更多...

最新文章