爬虫工作量由小到大的思维转变---<第十二章 Scrapy之sql存储与爬虫高效性的平衡艺术>

前言:

(本文仅属于技术性探讨,不属于教文)

刚好,前阵子团队还在闲聊这个问题呢。你知道吗,在数据收集这个行当里,怎么存数据这问题就跟“先有鸡还是先有蓝”一样,没完没了的循环往复。老规矩,咱们先搞清楚我们的“鸡”是啥,然后再刨根问底到底该怎么孵这个“蛋”。


说到底,爬虫这货其实就和拉货的卡车司机没两样。要做的事儿其实就是把货物——这里指的是数据——从A地搬到B地,一路上还得保证数据这货不掉链子。听着挺简单的吧?但实际上,这过程中牵扯的细节和难点也不比开大卡车简单多少。


每次拉一车数据回来,心里最闹心的就是这些数据怎么处理。先清洗再存,感觉就像是把货物过一道质检;直接存,又怕到时候取起来麻烦;加点逻辑处理,又担心效率慢上不少。这得取舍之间,痛苦无比啊。


但是,时间不等人,特别是爬虫这一行,快是王道。你在那儿犹豫,咱们对手可是横着刷数据走了。

正文:

------在这种压力下,你得优先考虑的是效率和完整性。如果处理得慢腾腾的,效率就没了;数据弄丢了,完整性也跟着没了。那怎么办?得找个两全其美的方案。

如今最火的爬虫框架Scrapy,抓数据挺利索,但到了处理item,特别是存储环节,就开起了倒车。它在pipeline里处理数据是同步的,跟它那异步抓取的节奏严重不符。一旦数据一多,特别是涉及多张表,你那存储的效率就得打大大的折扣。


这不,我就被这事儿给卡住过。拉回来的数据多得吓人,想着要是按Scrapy的节奏来,这存储效率能低到家了。用同步的方式慢吞吞地存,那爬虫的速度优势不就成了纸老虎吗?深思熟虑后,决定,把握住快和标准这两个关键词。


我摸索出了一套新的方案:用aiomysql这样的异步数据库连接库。别看这异步两字,它可真是里面的玄机所在。它让我们在存储item时也能走上异步的快车道。咱们pipeline虽是单线程,但利用aiomysql可以同时进行多个数据写入操作,大大提升了数据存储的效率。


可能你会问,那这样改来改去,值得吗?我告诉你,太值了!那速度就像火箭,嗖嗖的。尤其是对于我们这种数据量巨大、必须跟时间赛跑的项目来说,秒就是金钱,效率就是生命。再说了,技术不就是用来解决问题的吗?既然有更优的选择,岂不是傻子不用?


不过,这技术上的升级只是解决问题的一部分。这其中还牵扯到了一个更深层次的话题——数据库的设计和优化。没错,咱们将数据从网页上抓下来,整得利利索索存到数据库里是第一步。但别忘了,设计一个既能承受高并发又高效利用资源的数据库结构才是咱笔挺爬虫后续要面对的大挑战。


说到库的结构,得变着法儿想。表设计得规范、关系搭配得和谐、索引建得当,这可都是技术活儿。要知道,一次次的查询和更新可能对数据库的性能影响特别大。咱们得利用各种数据库性能优化技术,比如缓存策略、慢查询优化、读写分离,甚至是对热点数据的分布式存储。这样一来,这批爬下来的宝贵货物能被妥善地利用起来,为下个环节——数据分析和挖掘打下坚实的基础。


其实,技术上的这些操作和提升,都是为了事情能往前走。咱们像是在铺路,让收集来的数据能够存储得当,又能供未来的分析师们发掘价值。毕竟,数据本身没意义,意义在于咱们如何去使用这数据。


最终,这一切的一切,从爬虫硬拉数据,到高效存库,再到数据的进一步提炼和分析,都是串起来的,一个依赖于另一个。在这个过程中,任何一个环节的弱点,都可能成为数据流转的瓶颈。咱这爬虫工程师可不仅仅是个普通的司机,咱们更是个协调者,要确保这每一步都在最佳状态。


这就是爬虫和数据库存储的千丝万缕的联系,硬件、软件、技术和策略,它们共同为了一个目标而打拼——让数据变得有价值。没了这些,那些网上的数据就像散落一地的珍珠,得不到妥善的收集和整理,它们的光彩也就照不到哪儿去了。


所以,下次你在写爬虫的时候,别只想着怎么把数据抓下来,也要多想想后面这些事儿。越是早打算,到后头越是省心。这个行业的精髓就在于此——预见未来,在现在的基础上找到答案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/229499.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

reactive数据不响应

我们知道,reactive函数用于创建对象等复杂数据的响应式代理对象,当该对象的属性发生变化时,会自动触发视图更新。 但在Vue 3中,当我们使用reactive创建的对象或数组进行赋值时,尽管能够完成正常的赋值操作&#xff0c…

Linux 系统开机启动流程

可能没有完全理解,后期整理完Linux的内容,应该理解会深入一些,试着用更简洁的方式和图形来记录,以及一些概念的完善 2023-12-14 一、开机流程 BIOS MBR/GPT 加载 BIOS 的硬件信息与进行自检,并依据设定取得第一个可…

TrustZone之调试、跟踪和分析

接下来,我们将查看系统中的调试和跟踪组件,如下图所示: 现代Arm系统包括支持调试和性能分析的广泛功能。在TrustZone中,我们必须确保这些功能不能被用来危害系统的安全性。 关于调试功能,考虑开发新的SoC。不同的开发人员被信任调试系统的不同部分。芯片公司的工程…

第十九章 : Spring Boot 集成RabbitMQ(三)

第十九章 : Spring Boot 集成RabbitMQ(三) 前言 本章节重点:RabbitMQ消息确认机制的代码示例:生产者消息确认机制、Return消息机制、消费端ACK和Nack机制3种消息确认模式。 Springboot 版本 2.3.2.RELEASE ,RabbitMQ 3.9.11,Erlang 24.2消息确认的场景 使用RabbitMQ很…

SearchWP WordPress高级网站内容搜索插件(包含所有专业扩展)

点击阅读SearchWP WordPress高级网站内容搜索插件(包含所有专业扩展)原文 SearchWP WordPress高级网站内容搜索插件是一个非常强大的工具,可以显着增强您网站的搜索功能。通过向网站访问者提供高度相关和精确的搜索结果,它可以有效地简化他们的搜索过程…

C语言使用posix正则表达式库

在C语言中&#xff0c;你可以使用 POSIX 正则表达式库&#xff08;regex.h&#xff09;来进行正则表达式的模式匹配。POSIX 正则表达式库提供了一组函数来编译、执行和释放正则表达式。 下面是使用 POSIX 正则表达式库的基本步骤&#xff1a; 包含头文件 <regex.h>&…

项目管理软件助力科研项目管理

作为一名研究人员&#xff0c;你可能会觉得你的成功取决于你的研究有多创新和你工作有多努力。实际上&#xff0c;创新和勤奋很重要&#xff0c;但聪明地工作也很重要。如果你是那种在早上打开电子邮件并开始自上而下的工作的人&#xff0c;你可能很快就会发现你的电子邮件多得…

论文降重宝同义词替换功能的优势与特点 PaperBERT

大家好&#xff0c;今天来聊聊论文降重宝同义词替换功能的优势与特点&#xff0c;希望能给大家提供一点参考。 以下是针对论文重复率高的情况&#xff0c;提供一些修改建议和技巧&#xff0c;可以借助此类工具&#xff1a; 标题&#xff1a;论文降重宝同义词替换功能的优势与特…

C# WPF上位机开发(函数运行时间分析)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 上位机除了基本功能和稳定性之外&#xff0c;还有一个要注意的就是运行效率的问题。如果我们想提高软件的运行效率&#xff0c;单位时间做更多的工…

GoLand couldn‘t start listener: listen tcp 198.18.0.45:53638

项目场景&#xff1a; 使用Goland以Debug的方式运行&#xff0c;无法启动 问题描述 GoLand couldnt start listener: listen tcp 198.18.0.45:53638按照提示去查看端口发现并没有占用清除Goland缓存重启没有用下载安装Delve还是无法启动 原因分析&#xff1a; debug的过程中…

1.新入手的32位单片机资源和资料总览

前言&#xff1a; 学了将近1年的linux驱动和uboot&#xff0c;感觉反馈不足&#xff0c;主要是一直在学各种框架&#xff0c;而且也遇到了门槛&#xff0c;比如驱动部分&#xff0c;还不能随心所欲地编程&#xff0c;原因是有些外设的原理还不够深刻、有些复杂的底层驱动的代码…

Spring Boot 测试容器支持中文文档

本文为官方文档直译版本。原文链接 Spring Boot 测试容器支持中文文档 引言在开发时使用测试容器开发时贡献动态属性导入测试容器声明类在开发时将 DevTools 与 Testcontainers 结合使用 引言 除了在集成测试中使用 Testcontainers 外&#xff0c;在开发过程中也可以使用它们。…

计算机网络:数据链路层(VLAN)

今天又学到一个知识&#xff0c;加油&#xff01; 目录 一、传统局域网的局限&#xff08;促进VLAN的诞生&#xff09; 二、VLAN简介 三、VLAN的实现 总结 一、传统局域网的局限&#xff08;促进VLAN的诞生&#xff09; 缺乏流量隔离:即使把组流量局域化道一个单一交换机中…

Python Django 连接 PostgreSQL 操作实例

更多Python学习内容&#xff1a;ipengtao.com 大家好&#xff0c;我是彭涛&#xff0c;今天为大家分享 Python Django 连接 PostgreSQL 操作实例&#xff0c;全文3500字&#xff0c;阅读大约10分钟 在Web开发中&#xff0c;使用Django连接到PostgreSQL数据库是一种常见的选择。…

06 Rust 枚举类

简单使用 enum Person {Good,Bad }let p1 Person::Good;为枚举成员添加属性 #[derive(Debug)] enum Person {Good(String), // 元组的方式描述属性Bad { name: String }, // 结构体方式描述属性, 可为属性命名 }fn main() {let p1 Person::Good("Jim"…

svn 安装

安装系统 ubuntu 22 安装命令&#xff1a; sudo apt-get install subversion 创建第一个工程&#xff1a; 创建版本库、项目 1、先创建svn根目录文件夹 sudo mkdir /home/svn 2、创建项目的目录文件夹 sudo mkdir /home/svn/demo_0 svnadmin create /home/svn/demo_0 配置&a…

Elasticsearch面试题

文章目录 为什么要使用 Elasticsearch&#xff1f;Elasticsearch 的 master 选举流程&#xff1f;Elasticsearch 集群脑裂问题&#xff1f;Elasticsearch 索引文档的流程&#xff1f;Elasticsearch 更新和删除文档的流程&#xff1f;GC 方面&#xff0c;在使用 Elasticsearch 时…

nodejs+vue+微信小程序+python+PHP邮件过滤系统的设计与实现-计算机毕业设计推荐

邮件过滤系统根据权限类型进行分类&#xff0c;主要可分为用户和管理员二大模块。 管理员模块主要根据管理员对整个系统的管理进行设计&#xff0c;提高了管理的效率和规范[11]。邮件过滤系统综合网络空间开发设计要求。该系统主要设计并完成了管理过程中的用户登录、个人信息修…

6.鸿蒙app_hap_DevEco如何真机调试模式_app安装在手机中

真机调试 手机》设置》关于手机》HarmonyOS版本》软件版本&#xff0c;连续单击10次启动开发者模式 然后&#xff1a;设置》系统和更新》开发人员选项》打开USB调试功能。 电脑USB连接手机&#xff0c;手机USB连接类型&#xff0c;传文件&#xff08;不要选择仅充电&#xf…

机器学习的数据管理

.机器学习的数据管理注意事项 机器学习的生命周期包括如下部分 (1).业务的理解&#xff0c;机器学习问题框架 (2).数据理解和收集 (3).模型的训练和评估 (4)模型部署 (5).模型监控 (6).业务衡量 数据管理和机器学习的生命周期的2&#xff0c;3&#xff0c;4个阶段有关。…