网络爬虫丨基于scrapy+mysql爬取博客信息并保存到数据库中

文章目录

  • 写在前面
  • 实验描述
    • 实验框架
    • 实验需求
  • 实验内容
    • 1.安装依赖库
    • 2.创建Scrapy项目
    • 3.配置系统设置
    • 4.配置管道文件
    • 5.连接数据库
    • 6.分析要爬取的内容
    • 7.编写爬虫文件
  • 运行结果
  • 写在后面

写在前面

本期内容:基于scrapy+mysql爬取博客信息并保存到数据库中

实验需求

  • anaconda丨pycharm
  • python3.11.4
  • scrapy
  • mysql

项目下载地址:https://download.csdn.net/download/m0_68111267/88740730

实验描述

本次实验实现了:使用Scrapy框架爬取博客专栏的目录信息并保存到MySQL数据库中,实验主要涉及到Python的爬虫技术以及MySQL的基本操作,需要有一定的基础。

实验框架

  • Scrapy

1

实验需求

  • Scrapy: Scrapy是一个基于Python的开源网络爬虫框架,用于快速、高效地获取网页数据。它具有强大的抓取能力,支持多线程和分布式爬虫,能够并行爬取多个网页。Scrapy提供了方便的API和丰富的功能,可以自定义爬虫规则和处理流程,支持数据的持久化存储和导出。它还提供了可视化的调试工具和强大的反爬虫策略,可以帮助开发者更轻松地构建和管理网络爬虫。Scrapy是一个成熟、稳定和广泛应用的爬虫框架,被广泛用于数据抓取、搜索引擎和大数据分析等领域。
  • MySQL: MySQL是一个开源的关系型数据库管理系统,由Oracle Corporation开发和维护。它具有高性能、可靠性和稳定性,能够在各种不同规模的应用中存储和管理大量的数据。MySQL使用SQL语言进行数据操作和查询,支持多用户并发操作和事务处理,提供了丰富的功能和灵活的配置选项。它可以在多种操作系统上运行,并且与多种编程语言和开发工具兼容。MySQL被广泛应用于Web应用、企业级应用和大数据分析等领域。

实验内容

1.安装依赖库

本次实验需要安装scrapy库,如果没有scrapy库的话可以运行下面的命令进行安装哦~

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy

2.创建Scrapy项目

  1. 在终端输入以下命令可以创建一个scrapy项目:
scrapy startproject myblog
  1. 项目框架如下:(此时你们应该没有"db.py"和"sp_blogs.py"文件)

2

  • spiders:spiders 文件夹是 Scrapy 框架中存放爬虫代码的目录。在 spiders 文件夹中,会包含一个或多个 Python 文件,每个 Python 文件代表一个独立的爬虫。每个爬虫文件都需要继承自 Scrapy 的 Spider 类,并定义爬虫的名称、起始 URL、解析页面的方法等。在爬虫文件中,还可以定义一些其他的属性和方法,来实现对网页的抓取和解析。Scrapy 框架通过读取 spiders 文件夹中的爬虫文件来识别和启动爬虫。在运行爬虫时,可以指定要运行的爬虫名称,Scrapy 将会找到对应的爬虫文件并执行相应的代码。spiders 文件夹是 Scrapy 爬虫的核心部分,开发者可以根据需要在该文件夹下创建多个爬虫文件,以支持同时抓取和解析多个网站。
  • items.py:items.py文件是Scrapy框架中用于定义数据模型的文件,用于指定爬取的数据结构。它定义了爬虫需要爬取和保存的数据字段,类似于数据库表的结构,方便数据的提取和存储。在items.py文件中,使用Python的类来定义数据模型,每个类的属性对应一个需要爬取和保存的字段。
  • middlewares.py:middlewares.py文件是Scrapy框架中用于处理请求和响应的中间件文件。中间件是Scrapy框架的一个重要组成部分,用于对请求进行预处理、对响应进行处理或者是处理异常情况。middlewares.py文件中定义了多个中间件类,每个中间件类都有特定的功能,例如设置请求头、代理设置、处理重定向等。通过在settings.py中配置中间件的顺序,Scrapy框架会按照顺序依次使用不同的中间件对请求和响应进行处理。
  • pipelines.py:pipelines.py文件是Scrapy框架中用于处理数据的管道文件。在Scrapy中,管道是一个用于处理爬取到的数据的组件,可以对数据进行清洗、验证、存储或者是发送到其他系统。pipelines.py文件中定义了多个管道类,每个管道类都有特定的功能,例如将数据存储到数据库、写入文件、发送邮件等。通过在settings.py中配置管道的优先级,Scrapy框架会按照优先级顺序依次使用不同的管道对爬取到的数据进行处理。
  • settings.py:settings.py 文件是 Scrapy 框架中的配置文件,用于管理和配置爬虫的各种设置选项。在 settings.py 文件中,可以设置爬虫的名称、启用或禁用的中间件、管道、下载器、并发请求数、延迟、日志级别等。settings.py 文件包含了许多可配置的选项,可以根据实际需求进行调整。通过修改 settings.py 文件,可以改变爬虫的行为,并对其进行个性化定制。此外,settings.py 文件还提供了一些默认的全局配置选项,这些选项可以决定爬虫的运行方式和输出结果。
  1. 在终端输入以下命令创建爬虫文件
scrapy genspider sp_blogs "https://want595.blog.csdn.net/category_12039968_1.html"

该命令将使用Scrapy生成一个名为"sp_blogs"的爬虫,并将爬虫的起始URL设置为"https://want595.blog.csdn.net/category_12039968_1.html"。(本次实验需要爬取的就是这个专栏的目录)

输入完这个命令后,在spiders的目录下就会出现"sp_blogs.py"这个文件啦~

3.配置系统设置

打开"settings.py"文件,配置系统设置:

3
4
5

4.配置管道文件

"pipelines.py"文件,主要用于编写代码处理爬取的数据,例如存放到文件中,数据库中等等

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interface
import pymysql
from twisted.enterprise import adbapiclass MyblogPipeline:def __init__(self, dbpool):self.dbpool = dbpool@classmethoddef from_settings(cls, settings):dbparams = dict(host=settings['MYSQL_HOST'],  # 读取settings中的配置db=settings['MYSQL_DBNAME'],user=settings['MYSQL_USER'],passwd=settings['MYSQL_PASSWD'],charset='utf8',  # 编码要加上,否则可能出现中文乱码问题cursorclass=pymysql.cursors.DictCursor,use_unicode=False,)dbpool = adbapi.ConnectionPool('pymysql', **dbparams)  # **表示将字典扩展为关键字参数,相当于host=xxx,db=yyy....return cls(dbpool)  # 相当于dbpool付给了这个类,self中可以得到# pipeline默认调用def process_item(self, item, spider):query = self.dbpool.runInteraction(self.insert, item)  # 调用插入的方法query.addErrback(self.error, item, spider)  # 调用异常处理方法return item# 写入数据库中def insert(self, db, item):# print item['name']sql = "insert ignore into blogs(title,url) values(%s,%s)"params = (item["name"], item["url"])db.execute(sql, params)# 错误处理方法def error(self, failue, item, spider):print(failue)

该代码是一个Twisted框架下的MySQL数据库存储的Pipeline。Twisted是一个事件驱动的网络框架,使用异步的方式处理网络请求。

该代码中的MyblogPipeline类继承自object类,并且实现了__init__from_settingsprocess_iteminserterror方法。

  • __init__方法初始化了一个数据库连接池dbpool,并将其赋值给self.dbpool

  • from_settings方法从配置文件中读取数据库的相关配置信息,并利用这些信息创建一个数据库连接池dbpool

  • process_item方法是Pipeline默认调用的方法,用于处理item并存储到数据库中。在该方法中,首先调用self.dbpool.runInteraction()方法创建一个操作数据库的事务,并调用self.insert方法将item插入到数据库中。然后,通过addErrback方法添加了一个异常处理方法self.error

  • insert方法接收两个参数,一个是数据库连接对象db,一个是item。在该方法中,定义了一个SQL语句和参数,并通过db.execute()方法执行了数据库插入操作。

  • error方法用于处理插入数据库时的异常情况,将异常信息打印出来。

总体而言,该代码实现了将爬取的数据存储到MySQL数据库中的功能。

5.连接数据库

新建一个"db.py"文件,输入以下代码连接到本地数据库,运行后创建一个表,用于保存等会爬取的数据。

import pymysql
from scrapy.utils.project import get_project_settings  # 导入seetings配置class DBHelper:def __init__(self):self.settings = get_project_settings()  # 获取settings配置,设置需要的信息self.host = self.settings['MYSQL_HOST']self.port = self.settings['MYSQL_PORT']self.user = self.settings['MYSQL_USER']self.passwd = self.settings['MYSQL_PASSWD']self.db = self.settings['MYSQL_DBNAME']# 连接到具体的数据库(settings中设置的MYSQL_DBNAME)def connectDatabase(self):conn = pymysql.connect(host=self.host,port=self.port,user=self.user,passwd=self.passwd,db=self.db,charset='utf8')  # 要指定编码,否则中文可能乱码return conn# 创建表def createTable(self, sql):conn = self.connectDatabase()cur = conn.cursor()try:cur.execute(sql)cur.close()conn.close()print("创建表成功!")except:print("创建表失败!")pass# 插入数据def insert(self, sql, *params):  # 注意这里params要加*,因为传递过来的是元组,*表示参数个数不定conn = self.connectDatabase()cur = conn.cursor();cur.execute(sql, params)conn.commit()  # 注意要commitcur.close()conn.close()if __name__ == "__main__":dbHelper = DBHelper()sql = "create table pictures(id int primary key auto_increment,name varchar(50) unique,url varchar(200))"dbHelper.createTable(sql)

这段代码是一个用于操作MySQL数据库的助手类。它使用了Scrapy框架的get_project_settings函数来获取配置信息,然后根据配置信息连接到数据库。

在初始化方法中,它获取到了MySQL数据库的主机地址、端口号、用户名、密码和数据库名,并保存在实例变量中。

  • connectDatabase方法用于连接到具体的数据库,并返回一个数据库连接对象。

  • createTable方法用于创建表,它接受一个SQL语句作为参数,使用数据库连接对象执行SQL语句来创建表。

  • insert方法用于插入数据,它接受一个SQL语句和参数作为参数,使用数据库连接对象执行SQL语句来插入数据。

最后在主函数中,创建了一个DBHelper对象,并调用createTable方法来创建一个名为pictures的表。

6.分析要爬取的内容

本实验要爬取的是博客专栏的目录信息:

7
8

7.编写爬虫文件

编写"spiders"目录下的"sp_blogs.py"文件,实现博客信息的爬取:

import scrapy
from scrapy import Selector, cmdlineclass MyblogItem(scrapy.Item):name = scrapy.Field()url = scrapy.Field()class SpBlogsSpider(scrapy.Spider):name = "sp_blogs"allowed_domains = ["want595.blog.csdn.net"]……请下载后查看完整代码哦

这段代码是一个基于Scrapy框架的爬虫,用于爬取一个博客网站的文章标题和链接。

首先定义了一个MyblogItem类,它继承自scrapy.Item,并定义了两个字段nameurl,用于保存文章的标题和链接。

然后定义了一个SpBlogsSpider类,它继承自scrapy.Spider,表示一个具体的爬虫。在SpBlogsSpider类中,指定了爬虫的名字为sp_blogs,指定了允许爬取的域名为want595.blog.csdn.net,并指定了要爬取的起始URL。起始URL使用了一个循环生成器,生成了多个URL,用于爬取多页的数据。

parse方法是默认的回调方法,在爬取网页的响应返回后自动被调用。在parse方法中,使用Selector对象对响应进行了解析,提取出了文章的标题和链接,并将它们保存到MyblogItem对象中,然后通过yield返回给引擎。

最后,通过调用cmdline.execute函数来执行爬虫。执行时会根据给定的参数调用对应的爬虫。在这里,使用'scrapy crawl sp_blogs'参数来执行sp_blogs爬虫。(也可以在终端项目的根目录下运行scrapy crawl sp_blogs命令来执行爬虫。)

运行结果

爬取的博客信息如下:

9

写在后面

我是一只有趣的兔子,感谢你的喜欢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/621853.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第二十八周:文献阅读笔记(弱监督学习)+ pytorch学习

第二十八周:文献阅读笔记(弱监督学习) 摘要Abstract1. 弱监督学习1.1. 文献摘要1.2. 引言1.3. 不完全监督1.3.1. 主动学习与半监督学习1.3.2. 通过人工干预1.3.3. 无需人工干预 1.4. 不确切的监督1.5. 不准确的监督1.6. 弱监督学习的创新点 2…

【读书笔记】《重构_改善既有代码的设计》重构的方法论

重构的方法论 标题:【读书笔记】【读书笔记】《重构_改善既有代码的设计》重构的方法论 时间:2024.01.14 作者:耿鬼不会笑 重构是什么? 什么是重构: “重构”这个词既可以用作名词也可以用作动词。 重构(名词&…

HandlerInterceptor拦截器 postHandle执行addHeader无效,postHandle执行setStatus无效的解决方案

问题描述 想在postHandle方法里执行addHeader方法来补充一些Header信息(如分页信息),但是最后执行却未如期显示 拦截器源码 import com.zhangziwa.practisesvr.utils.response.ResponseContext; import jakarta.servlet.http.HttpServletR…

动态内存管理4大函数的进阶

𝙉𝙞𝙘𝙚!!👏🏻‧✧̣̥̇‧✦👏🏻‧✧̣̥̇‧✦ 👏🏻‧✧̣̥̇:Solitary-walk ⸝⋆ ━━━┓ - 个性标签 - :来于“云”的“羽球人”。…

用C语言实现哈希表HashMap

代码仓库地址 1. 功能说明 自定义初始容量和负载因子;当键值对的个数与容量比值超过负载因子时,自动扩容;借鉴Java8的HashMap部分扩容逻辑,定义了单独的桶结构体用于记录hash值,以及2倍扩容,减少了hash运算…

Python二级:二叉树问题求解

一、题源 在Python二级考试中前10道基础题是必考题,虽然没有什么卵用,但是你得分不达标,还不让你过,没有办法只好硬着头皮去刷题了。这10道题中有一个二叉树题比较难,现摘录如下,同时给出gpt-4的解答&…

ruoyi后台管理系统部署-3-安装redis

centos7安装redis 1. yum 安装 查看是否安装了redis yum installed list | grep redis ps -ef | grep redis安装epel 仓库(仓库是软件包下载的,类似maven,nuget) yum install epel-release搜索 redis 包 yum search redis安装…

逸学Docker【java工程师基础】1.认识docker并且安装

场景问题 在实际开发过程中我们有这样的场景问题 在开发阶段的环境配置到了其他人项目人员那里就不能运行了,尽管配置规格相同,但是在较多的不同的环境情况下还是可能会有错误。 开发:程序员:你那边可以运行了吗 测试&#xf…

爬虫补环境jsdom、proxy、Selenium案例:某条

声明: 该文章为学习使用,严禁用于商业用途和非法用途,违者后果自负,由此产生的一切后果均与作者无关 一、简介 爬虫逆向补环境的目的是为了模拟正常用户的行为,使爬虫看起来更像是一个真实的用户在浏览网站。这样可以…

前端基础知识整理汇总(下)

react 生命周期 React v16.0前的生命周期 初始化(initialization)阶段 此阶段只有一个生命周期方法:constructor。 constructor() 用来做一些组件的初始化工作,如定义this.state的初始内容。如果不初始化 state 或不进行方法绑定,则不需…

编程艺术之Unix哲学

Unix 哲学不算是一种正规设计方法,它并不打算从计算机科学的理论高度来产生理论上完美的软件。那些毫无动力、松松垮垮而且薪水微薄的程序员们,能在短短期限内,如神灵附体般开发出稳定而新颖的软件——这只不过是经理人永远的梦呓罢了。 1 Un…

isis实验

根据要求制作大概: 使用isis配置路由器: 配置好物理接口地址后配置isis 为实现r1访问r5的环回走r6,需要在r6上制作路由泄露: 在r5上产生r1的路由明细: 全网可达:

华为 HarmonyOS 页面跳转

HarmonyOS 页面跳转 1.新建页面2.添加跳转方法3.实现跳转效果 1.新建页面 我们新建2个页面(page),一个Hello World页面,一个Hello HarmonyOS页面,注意修改红色框内容,保持一致 2.添加跳转方法 导入导入router模块,页…

Rust-内存安全

堆和栈 一个进程在执行的时候,它所占用的内存的虚拟地址空间一般被分割成好几个区域,我们称为“段”(Segment)。常见的几个段如下。 代码段。编译后的机器码存在的区域。一般这个段是只读的。bss段。存放未初始化的全局变量和静态变量的区域。数据段。…

MATLAB Deep learning

文章目录 Chapter 1: Machine Learning存在的问题过拟合Overfitting解决过拟合 regularization and validationregularization 正则化validation 验证 机器学习的类型有监督学习分类Classification回归Regression 无监督学习聚类 强化学习 Chapter 2: Neural NetworkChapter 3:…

(BUUCTF)ycb_2020_easy_heap (glibc2.31的off-by-null + orw)

文章目录 前置知识整体思路高版本的off-by-nullorw exp 前置知识 未初始化内存导致的地址泄露 高版本下的off-by-null利用 glibc2.31下的orw做法 整体思路 非常综合的一道题目,和ciscn之前做过的一道silverwolf很相似,本道题目的glibc2.31的环境也让…

Django教程第6章 | web开发实战-文件上传(导入文件、上传图片)

专栏系列&#xff1a;Django学习教程 导入文件 目标&#xff1a;导入部门清单excel&#xff0c;解析excel数据存储到数据库。 1.准备要导入的excel文件 2.编写模板HTML <div class"panel panel-default"><!-- Default panel contents --><div class…

Embedding Watermarks into Deep Neural Networks

将水印嵌入深度神经网络 ABSTRACT 最近在深度神经网络领域取得了显著的进展。分享深度神经网络的训练模型对于这些系统的快速研究课并发进展至关重要。与此同时&#xff0c;保护共享训练模型的权利也变得十分必要。为此我们提议使用数字水印技术来保护知识产权&#xff0c;并…

vue3-模板引用

//1.调用ref函数 -> ref对象 const h1Ref ref(null) const comRef ref(null) //组件挂载完毕之后才能获取 onMounted(()>{console.log(h1Ref.value);console.log(comRef.value); })<div class"father"><!-- 通过ref标识绑定ref对象 --><h2 re…

【工具栏】SequenceDiagram插件的使用(根据代码生成时序图)

1. 安装 2.使用 进入代码页面&#xff0c;点击鼠标右键 选择方法 根据方法中的代码生成时序图