Python学习之路-爬虫进阶:爬虫框架

Python学习之路-爬虫进阶:爬虫框架

了解框架

什么是框架

框架是为了为解决一类问题而开发的程序,框架两个字可以分开理解,框:表示指定解决问题的边界,明确要解决的问题;架:表达的是能够提供一定的支撑性和可扩展性;从而实现解决这类问题达到快速开发的目的。

为什么要实现一个框架

现在网络上现成的开源第三方框架非常多,为什么还需要自己实现一个框架?

  1. 现成开源第三方框架的局限性:

    现成开源第三方框架是为了尽可能满足大部分的需求,不可能做到面面俱到,以及第三方框架的调试相对复杂

  2. 解决特定的工作需求:

    工作中会有很多特殊的需求,会经常使用某种套路去实现这些需求,那么为了提高效率可以专门把这种套路封装成一个框架

    比如专门针对电商网站、新闻资讯写一个爬虫框架;再比如针对断点续爬、增量抓取等需求写一个框架

  3. 提高自己的技术能力:

    不一定需要亲自造轮子,但是应该知道如何造轮子

如何完成一个框架

现在我们明确了框架是什么以及为什么要实现一个框架,那么到底应该如何实现一个框架呢,我们的idea从哪里来呢?

  1. 经验丰富的程序员:

    直接根据以往经验和业务的需求进行框架原型设计,并用语言去实现

  2. 经验一般的程序员:

    通常应该是先学习别人的框架如何实现的,先学习别人优秀的比较好的实现思路和方案

那么同样的,对于我们:
我们可以结合目前学习过的爬虫知识和爬虫框架,了解他们的设计思路,在这个基础上进行模仿和改进,从而实现一个框架

框架设计思路分析

学习Scrapy,提取它的设计思想

爬虫的流程

爬虫框架解决的问题是爬虫问题,先来看看爬虫的基本流程:

  1. 构建请求信息(url、method、headers、params、data)
  2. 发起HTTP/HTTPS请求,获取HTTP/HTTPS响应
  3. 解析响应,分析响应数据的数据结构或者页面结构
    • 提取数据
    • 提取请求的地址
  4. 对数据进行存储/对新的请求地址重复前面的步骤

无论什么爬虫框架,其核心都离不开上面几个步骤

scrapy爬虫流程分析
  1. 三个内置对象:

     请求对象(Request)响应对象(Response)数据对象(Item)
    
  2. 五个核心组件:

     爬虫组件构建请求信息(初始的),也就是生成请求对象(Request)解析响应对象,返回数据对象(Item)或者新的请求对象(Request)调度器组件缓存请求对象(Request),并为下载器提供请求对象,实现请求的调度对请求对象进行去重判断下载器组件根据请求对象(Request),发起HTTP、HTTPS网络请求,拿到HTTP、HTTPS响应,构建响应对象(Response)并返回管道组件负责处理数据对象(Item)引擎组件负责驱动各大组件,通过调用各自对外提供的API接口,实现它们之间的交互和协作提供整个框架的启动入口
    
  3. 两个中间件:

     爬虫中间件对请求对象和数据对象进行预处理下载器中间件对请求对象和响应对象进行预处理
    

那么对应的,我们也可以在自己的框架是实现这样几个模块和对象

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/682950.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FreeRTOS 队列管理

概览 基于 FreeRTOS 的应用程序由一组独立的任务构成——每个任务都是具有独立权 限的小程序。这些独立的任务之间很可能会通过相互通信以提供有用的系统功能。 FreeRTOS 中所有的通信与同步机制都是基于队列实现的。 本章期望让读者了解以下事情   如何创建一个队列   …

Starknet 的 JavaScript 库:Starknet.js、get-starknet和starknet-react

文章目录 Starknet 的 JavaScript 库Starknet.jsget-starknetstarknet-reactStarknet 的 JavaScript 库Starknet.js 官方:https://www.starknetjs.com/ Starknet.js 是一个与 Starknet 交互的 JavaScript 库,通常以脚本或去中心化形式进行交互应用程序。 Starknet.js 的灵感…

有限合伙协议书(模板)下

第六章 合伙事务的执行 第十七条 有限合伙人不执行合伙事务,对外不具有代表权。有限合伙企业由普通合伙人执行合伙事务。 第十八条 经全体合伙人一致同意可以委托一个普通合伙人(也可以委托数个普通合伙人)对外代表合伙企业,执…

【PyTorch】PyTorch中张量(Tensor)统计操作

PyTorch深度学习总结 第五章 PyTorch中张量(Tensor)统计操作 文章目录 PyTorch深度学习总结前言一、最值查找二、特殊值查询 前言 上文介绍了PyTorch中张量(Tensor)的计算操作,本文将介绍张量的统计操作。 一、最值查找 函数描述torch.max()找出张量中的最大值to…

Hive调优——count distinct去重优化

离线数仓开发过程中经常会对数据去重后聚合统计,而对于大数据量来说,count(distinct ) 操作消耗资源且查询性能很慢,以下是调优的方式。 解决方案一:group by 替代 原sql 如下: #7日、14日的app点击的用户数&#x…

C#面:<%# %>和<% %>有什么区别?

<%# %>和<% %>是ASP.NET中的两种不同的代码块标记。 <%# %> 是数据绑定表达式标记&#xff0c;用于在页面中绑定数据。它通常用于数据绑定控件&#xff08;如GridView、Repeater等&#xff09;&#xff0c;用于将数据源中的值绑定到控件的属性或者显示在页…

算法学习——LeetCode力扣回溯篇1

算法学习——LeetCode力扣回溯篇1 77. 组合 77. 组合 - 力扣&#xff08;LeetCode&#xff09; 描述 任何顺序 返回答案。 示例 示例 1&#xff1a; 输入&#xff1a;n 4, k 2 输出&#xff1a; [ [2,4], [3,4], [2,3], [1,2], [1,3], [1,4], ] 示例 2&#xff1a; 输…

[缓存] - 3.金融交易系统缓存架构设计

1. 交易数据特点 1.1 数据量极大 交易系统的数据量特大&#xff0c;主要来自以下几种类型的数据。 1.1.1 行情 行情是交易系统最为重要的数据&#xff0c;交易就是在不断变化的行情中寻找时机来实现盈利的。海量的行情主要分成两种&#xff0c;一种是tick数据&#xff08;也…

C#系列-C#EF框架实现事务处理(31)

在C#中使用Entity Framework (EF)框架实现事务处理主要涉及使用DbContext的Database.BeginTransaction方法来创建一个数据库事务&#xff0c;并确保在事务中的所有操作都成功执行后提交事务&#xff0c;或者在发生异常时回滚事务。 下面是一个使用EF Core进行事务处理的简单示…

年后面试,最好不要有这几种心态

大家好&#xff0c;我是老三&#xff0c;大家新年好&#xff0c;我在朋友圈看到有朋友已经在大张旗鼓地“内卷”&#xff0c;为年后的面试做准备。 成功的面试常常是源于实力运气&#xff0c;失败的面试可能会有各种各样的原因&#xff0c;知识点的盲区、和面试官不对眼、经验…

【机器学习案例4】为机器学习算法编码分类数据【含源码】

目录 编码分类数据 序数编码 标签编码 一次性编码 目标编码 目标编码的优点 目标编码的缺点 在现实生活中,收集的原始数据很少采用我们可以直接用于机器学习模型的格式,即数值型数据。因此,需要进行一些预处理,以便以正确的格式呈现数据、选择信息丰富的数据或降低其…

【C++函数探幽】内联函数inline

&#x1f4d9; 作者简介 &#xff1a;RO-BERRY &#x1f4d7; 学习方向&#xff1a;致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 &#x1f4d2; 日后方向 : 偏向于CPP开发以及大数据方向&#xff0c;欢迎各位关注&#xff0c;谢谢各位的支持 目录 1. 前言2.概念3.特性…

GPT-4带来的思想火花

GPT-4能够以其强大的生成能力和广泛的知识储备激发出众多思想火花。它能够在不同的情境下生成新颖的观点、独特的见解和富有创意的解决方案&#xff0c;这不仅有助于用户突破思维定势&#xff0c;还能促进知识与信息在不同领域的交叉融合。 对于研究者而言&#xff0c;GPT-4可能…

B2088 计算书费

题目描述 下面是一个图书的单价表&#xff1a; 计算概论 28.9 元/本数据结构与算法 32.7 元/本数字逻辑 45.6元/本C程序设计教程 78 元/本人工智能 35 元/本计算机体系结构 86.2 元/本编译原理 27.8元/本操作系统 43 元/本计算机网络 56 元/本JAVA程序设计 65 元/本 依次给定…

浅谈业务场景中缓存的使用

业务场景中缓存的使用 一、背景二、缓存分类1.本地缓存2.分布式缓存 三、缓存读写模式1.读请求2.写请求 四、缓存穿透1.缓存空对象2.请求校验3.请求来源限制4.布隆过滤器 五、缓存击穿1.改变过期时间2.串行访问数据库 六、缓存雪崩1.避免集中过期2.提前更新缓存 七、缓存与数据…

Day52- 单调栈part03

一、柱状图中最大的矩形 题目一&#xff1a;84. 柱状图中最大的矩形 84. 柱状图中最大的矩形 给定 n 个非负整数&#xff0c;用来表示柱状图中各个柱子的高度。每个柱子彼此相邻&#xff0c;且宽度为 1 。 求在该柱状图中&#xff0c;能够勾勒出来的矩形的最大面积 栈中保…

【MATLAB】鲸鱼算法优化混合核极限学习机(WOA-HKELM)回归预测算法

有意向获取代码&#xff0c;请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 鲸鱼算法优化混合核极限学习机&#xff08;WOA-HKELM&#xff09;回归预测算法是一种结合鲸鱼优化算法和混合核极限学习机的混合算法。其原理主要包含以下几个步骤&#xff1a; 初始化&am…

UniApp学习之旅:从入门到快速上手

随着移动互联网的迅猛发展&#xff0c;跨平台应用开发成为了开发者们的热门选择。UniApp&#xff0c;作为一款使用Vue.js开发所有前端应用的框架&#xff0c;因其简单、高效、易上手的特性&#xff0c;受到了广大开发者的青睐。本文将带你走进UniApp的世界&#xff0c;从基础学…

【leetcode】深搜、暴搜、回溯、剪枝(C++)2

深搜、暴搜、回溯、剪枝&#xff08;C&#xff09;2 一、括号生成1、题目描述2、代码3、解析 二、组合1、题目描述2、代码3、解析 三、目标和1、题目描述2、代码3、解析 四、组合总和1、题目描述2、代码3、解析 五、字母大小写全排列1、题目描述2、代码3、解析 六、优美的排列1…

Spring Cloud Gateway:使用RestController动态更新路由

相关类介绍 动态路由&#xff08;自己控制&#xff0c;非注册中心控制&#xff09;涉及两个很重要的Bean&#xff1a; RouteDefinitionWriter&#xff1a;用于添加、修改、删除路由规则。RouteDefinitionLocator&#xff1a;用于查询路由规则。 以及一个相关事件&#xff1a…