【Python爬虫】爬取名人名言页面并进行简单的数据清洗(入门级)

目录

资源链接

一、网站选择

二、数据爬取要求

三、数据清洗要求

四、实现代码

1.数据采集

2.数据清洗


资源链接

下面有笔者所放的源码下载链接,读者可自行下载:

链接:https://pan.baidu.com/s/1YmTdlnbSJLvLrrx92zz6Qg 
提取码:wkk6

一、网站选择

scrapy官方提供的网站:Quotes to Scrape

二、数据爬取要求

使用requests库,获取1-10页的名人名言页面,获取名人名言和作者两项信息,结果存放到“名人名言.csv”文件中,并将文件保存在data目录下,如果目录不存在,则先创建目录.

三、数据清洗要求

读取“名人名言.csv”,数据列名为“名言”和“姓名”,删除数据项为空的数据,删除重复数据,增加“时间”列,数据为“2023-06”,结果存放到“清洗结果.csv”中,保存在data目录。

四、实现代码

1.数据采集

import requests  # 导入用于发送HTTP请求的库
from bs4 import BeautifulSoup  # 导入用于解析HTML的库
import csv  # 导入用于处理CSV文件的库
import os  # 导入用于进行操作系统相关操作的库# 定义函数 get_html,用于获取网页内容
def get_html(url, time=10):try:# 发送HTTP GET请求re = requests.get(url, timeout=time)# 设置编码re.encoding = re.apparent_encoding# 如果请求返回状态码不是200,抛出异常re.raise_for_status()return re.text  # 返回网页内容except Exception as error:print(error)  # 输出错误信息# 定义函数 parser,用于解析HTML内容并提取数据
def parser(html):soup = BeautifulSoup(html, "lxml")  # 使用BeautifulSoup解析HTMLout_list = []  # 初始化存储结果的列表# 遍历所有符合条件的元素for row in soup.select(".quote"):text = row.select_one(".text").get_text(strip=True)  # 提取名言文本author = row.select_one(".author").get_text(strip=True)  # 提取作者名字out_list.append([text, author])  # 将结果添加到列表return out_list  # 返回结果列表# 定义函数 save_csv,用于将数据保存到CSV文件中
def save_csv(item, path):directory = os.path.dirname(path)  # 获取文件目录路径if not os.path.exists(directory):  # 如果目录不存在os.makedirs(directory)  # 创建目录# 以追加模式(a+)打开CSV文件with open(path, 'a+', newline='', encoding='utf-8') as f:csv_write = csv.writer(f)  # 创建CSV写入对象csv_write.writerows(item)  # 写入数据# 主程序
if __name__ == "__main__":# 遍历前10页for i in range(1, 11):url = "http://quotes.toscrape.com/page/{0}/".format(i)  # 构造URLhtml = get_html(url)  # 获取HTML内容out_list = parser(html)  # 解析HTML并提取数据save_csv(out_list, "data/名人名言.csv")  # 保存数据到CSV文件print("名人名言已保存到:data/名人名言.csv")  # 输出提示信息

 代码解释:

从一个名言网站 http://quotes.toscrape.com/ 爬取名言数据,并保存到本地的 CSV 文件中:

  1. 导入必要的库

    • requests 用于发送HTTP请求
    • BeautifulSoup 用于解析HTML
    • csv 用于处理CSV文件
    • os 用于处理文件和目录
  2. 定义 get_html 函数

    • 接受一个URL和超时时间参数,发送GET请求获取网页内容
    • 请求成功则返回网页内容,否则打印错误信息
  3. 定义 parser 函数

    • 接受HTML内容,使用BeautifulSoup解析HTML
    • 从HTML中提取包含名言和作者信息的元素,存储在一个列表中并返回
  4. 定义 save_csv 函数

    • 接受要保存的数据和目标文件路径
    • 检查并创建存储目录(如果不存在)
    • 以追加模式打开CSV文件,将数据写入文件
  5. 主程序执行部分

    • 遍历前10页,构造每个页面的URL
    • 获取每个页面的HTML内容,解析并提取数据
    • 将提取的数据保存到指定的CSV文件中
  6. 输出提示信息

    程序结束后,输出提示信息,告知数据已保存到特定位置

2.数据清洗

import pandas as pd  # 导入用于数据处理的Pandas库# 定义函数 clean_data,用于清洗数据
def clean_data(input_path, output_path):# 读取CSV文件并指定列名为"名言"和"姓名",不使用文件的头部信息作为列名df = pd.read_csv(input_path, names=["名言", "姓名"], header=None, encoding='utf-8')# 删除包含缺失值的行df.dropna(inplace=True)# 删除重复的行df.drop_duplicates(inplace=True)# 添加新列"时间",赋值为固定时间"2023-06"df["时间"] = "2023-06"# 将处理后的数据保存到CSV文件中,不保存索引信息df.to_csv(output_path, index=False, encoding='utf-8')# 主程序执行部分
if __name__ == "__main__":input_file = "data/名人名言.csv"  # 输入文件路径output_file = "data/清洗结果.csv"  # 输出文件路径clean_data(input_file, output_file)  # 调用clean_data函数进行数据清洗print("清洗后的数据已保存到:data/清洗结果.csv")  # 输出提示信息

 代码解释:

对输入的CSV文件进行处理后保存为新的CSV文件。

  1. 导入必要的库

    pandas 用于数据处理
  2. 定义 clean_data 函数

    • 该函数接受输入文件路径和输出文件路径作为参数
    • 使用Pandas读取CSV文件,指定列名为"名言"和"姓名",不使用文件头部信息作为列名
    • 删除包含缺失值的行和重复行
    • 添加新列"时间",所有行的值都设为"2023-06"
    • 将清洗后的数据保存到输出文件中,不保存索引信息
  3. 主程序执行部分

    • 指定输入文件和输出文件的路径
    • 调用 clean_data 函数,对数据进行清洗操作
    • 输出提示信息,告知清洗后的数据已保存到特定位置

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/31839.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python酷库之旅-第三方库openpyxl(03)

目录 一、 openpyxl库的由来 1、背景 2、起源 3、发展 4、特点 4-1、支持.xlsx格式 4-2、读写Excel文件 4-3、操作单元格 4-4、创建和修改工作表 4-5、样式设置 4-6、图表和公式 4-7、支持数字和日期格式 二、openpyxl库的优缺点 1、优点 1-1、支持现代Excel格式…

DDA直线算法

理论部分 假设给定直线段的起点坐标 ( x 0 , y 0 ) (x_0,y_0) (x0​,y0​)和终点坐标 ( x 1 , y 1 ) (x_1,y_1) (x1​,y1​),则该直线的直线方程为: y = k x + b y=kx + b y=kx+b 其中 k = y 1 − y 2 x 2 − x 1 , b = y 0 − k x 0 k=\frac{y_1-y_2}{x_2-x_1},b=y_0-kx_0 k…

tdlib自定义Telegram客户端电报客户端

之前做过多个电报机器人 最近闲来无事,顺手了解了下tdlib,打算使用dart做一个pc和移动端的tg客户端,顺便解决官方无法下载某些视频图片文件的问题. 前期踩了不少坑,花了3天时间完成了pc端的基本功能 效果展示

P5714 【深基3.例7】肥胖问题

1. 题目链接 https://www.luogu.com.cn/problem/P5714 P5714 【深基3.例7】肥胖问题 2. 题目描述 题目描述:BMI计算:m / (h * h),m是体重(kg),h是身高(m) 小于18.5:体重国轻,Underweight 小于等于18.5且小于24&#…

电脑文件夹怎么加密?文件夹加密的5种方法

在数字化时代,信息安全显得尤为重要。对于个人电脑用户来说,文件夹加密是一种有效保护隐私和数据安全的方法。本文将介绍五种文件夹加密的方法,帮助您更好地保护自己的重要文件。 如何设置文件夹密码方法一:利用Windows系统自带的…

shardingsphere调优日记

文章目录 一、总括二、连接数调优二、CPU线程的利用率三、服务器内存的利用率 一、总括 调优的几个方面 连接数调优,包含shardingsphere和mysql的连接数。shardingsphere的globle.yaml中线程调优。(充分利用CPU)shardingsphere中的内存调优…

节能减排如何替电子行业巨头降低成本

尖端科技与环境之间的矛盾,已经不再是科幻小说家笔下的虚构。 先进芯片制造从熔化硅开始,到使用大功率激光进行光刻,再到创造和维护真空状态,以及持续清洁工作,每一个环节都需要大量的电力支持。据统计,半…

体验一下 Claude 3.5 Sonnet

体验一下 Claude 3.5 Sonnet 0. 引言1. Artifacts - 使用 Claude 的新方式2. 体验一下 Claude 3.5 Sonnet 0. 引言 2024年6月21日,Anthropic 推出 Claude 3.5 Sonnet,这是即将推出的 Claude 3.5 型号系列中的第一个版本。 Claude 3.5 Sonnet 提高了行业…

南昌代理记账报税的详细说明

随着社会经济的发展和企业运营的需要,越来越多的企业开始寻找专业的会计服务,我们特别为您提供南昌代理记账报税的相关信息。 https://www.9733.cn/news/detail/166.html 代理记账的主要功能 1、代理记账为企业提供专业化的财务咨询服务。 2、及时准确…

前端调用api发请求常用的请求头content- type的类型和常用场景

Content-Type 是一个非常重要的HTTP头,它定义了发送给服务器或客户端的数据的MIME类型。这对于服务器和客户端正确解析和处理数据至关重要。下面是一些常见的 Content-Type 值及其用途和区别。 常见的 Content-Type 值 text/plain • 用途: 纯文本,无格…

信息检索(43):SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking

SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking 摘要1 引言2 相关工作3 方法3.1 SparTerm3.2 SPLADE:稀疏词汇和扩展模型 4 实验5 结论 发布时间(2021) 标题:稀疏词汇 扩展模型 摘要 稀疏的优点&#xf…

实现可扩展的电商返利平台:技术选型与挑战

实现可扩展的电商返利平台:技术选型与挑战 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿! 在当今数字化和电商兴盛的时代,返利平台成为…

[程序员] 外企工作的英语重要性

作为一名程序员,英语的必备性是不可或缺,尤其是在一个外企! 因为在工作中,英语是非常重要的一门基础技术,所有的产品代码/第三方开源软件都是英语书写,包括代码逻辑,变量/函数/类定义&#xff…

Python酷库之旅-第三方库openpyxl(02)

目录 一、 openpyxl库的由来 1、背景 2、起源 3、发展 4、特点 4-1、支持.xlsx格式 4-2、读写Excel文件 4-3、操作单元格 4-4、创建和修改工作表 4-5、样式设置 4-6、图表和公式 4-7、支持数字和日期格式 二、openpyxl库的优缺点 1、优点 1-1、支持现代Excel格式…

C#程序的递归方法调用

一个方法可以自我调用。这就是所谓的 递归。下面的实例使用递归函数计算一个数的阶乘: using System;namespace CalculatorApplication {class NumberManipulator{public int factorial(int num){/* 局部变量定义 */int result;if (num 1){return 1;}else{result …

RabbitMQ实践——最大长度队列

大纲 抛弃消息创建最大长度队列绑定实验 转存死信创建死信队列创建可重写Routing key的最大长度队列创建绑定关系实验 在一些业务场景中,我们只需要保存最近的若干条消息,这个时候我们就可以使用“最大长度队列”来满足这个需求。该队列在收到消息后&…

Python打印奇偶数

1 问题 怎么通过键盘输入一个数字,若该数字位各个位上的数字和为奇数,则将该数各位数倒叙打印;若该数字各个位数之和为偶数,则直接打印该数字。 2 方法 (1)先输入一个数字,用int()函数将其取整 …

SpringCloud微服务框架的原理及应用详解(三)

本系列文章简介: 随着云计算、大数据和物联网等技术的飞速发展,企业应用系统的规模和复杂度不断增加,传统的单体架构已经难以满足快速迭代、高并发、高可用性等现代业务需求。在这样的背景下,微服务架构应运而生,成为了…

在Windows上用MinGW编译OpenCV项目运行全流程

一、准备软件 OpenCV源码CMake工具MinGW工具链(需要选用 posix 线程版本:原因见此) 二、操作步骤 官网提供了VC16构建版本的二进制包,但是没有给出GCC编译的版本。所以如果使用MinGW进行构建,那就只能从源码开始构建…

make与makefile

目录 一、make的默认目标文件与自动推导 二、不能连续make的原因 执行原理 touch .PHONY伪目标 make指令不回显 makefile多文件管理 简写依赖方法 三、回车与换行 四、缓冲区 一、make的默认目标文件与自动推导 假设这是一个makefile文件,make的时候默认生…