从0到1构建智能分布式大数据爬虫系统

文章目录

  • 1. 写在前面
  • 2. 数据获取挑战
  • 3. 基础架构
  • 4. 爬取管理
  • 5. 数据采集
  • 6. 增量与去重设计

【作者主页】:吴秋霖
【作者介绍】:Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作!
【作者推荐】:对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》,对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与开发实战》
还有未来会持续更新的验证码突防、APP逆向、Python领域等一系列文章

1. 写在前面

  随笔写一下,最近比较忙。这里我还是拿开源情报或者舆情项目来展开描述,因为现在有自研爬虫系统的企业基本上所涉及的数据源第一个比较多,第二个则是数据更新及时性高。爬虫业务单一少的基本也到不上平台级,爬虫写完基本挂到容器里面就完了,有的甚至可能容器都用不上!

舆情项目中数据采集是一个极其关键的部分!核心技术则是爬虫技术的构建,这里说的不是指简单的一些爬虫脚本程序,数据源肯定是很多的,每天几乎覆盖的源或多或少都在变化,数据源状态或者页面结构变化

这里我画了一个基础且常见的爬虫平台架构:

在这里插入图片描述

2. 数据获取挑战

  数据需求范围广,难以全面采集!很多产品需要数据的赋能。对数据的需求往往需要采集全网或特定领域的数据,在有限的时间和成本内,批量深度爬取,尤其目前国内的一些渠道数据获取采集的难度越来越大

数据获取时间长,难以保证时效性!如果在短时间内需要的数据量庞大,并且及时性高!导致爬取到数据的时间过长,难以将数据实时的流转并供给业务分析应用。数据产生的时间过长,导致数据的时效价值被严重降低

数据源防护技术加大采集数据的难度!越来越多的网站具有大数据防护技术,并不断更新增强反爬策略,以及各国加大对隐私信息的保护,这些措施都在不断加大数据采集的难度

3. 基础架构

  既然是分布式系统,那么爬虫肯定是比较多的,这些爬虫的任务必须分配到多台机器上执行。所以这些爬虫程序如何部署?部署在哪?当然是容器里面,为了更加便捷的部署、拓展与管理、Kubernetes+Docker将会成为分布式爬虫采集系统中基础架构承载底座!

在这里插入图片描述

4. 爬取管理

  • 爬虫状态:爬虫分布式在很多台服务器上,不知道在哪个服务器上的哪个爬虫程序出了问题是很痛苦的事情,甚至抓取数据量猛增导致服务器挂掉都不知道。所以,需要能对服务器监控,对服务器上每一个爬虫程序进行监控。监控每个爬虫运行是否正常,监控每个运行爬虫的服务器是否正常

  • 采集状态:抓取的站点时常发生变化,我们就需要知道每个目标采集的站点抓取的数据是否都正常的采集下来了,通过给每个爬虫编上采集任务编号,展示在web界面上,就可以直观的看见数据采集下来的效果。通过邮件告警和每天发送邮件统计数据,可以实时对采集状态进行监控

  • 任务调度:任务调度模块实现数据爬取任务的分布式任务调度,包括添加、执行、监控、停止、删除爬虫的这些功能。系统能够自动根据任务优先级和资源状态进行任务分配和任务调整,在数据爬取任务发,可以看看我之前写的关于Scrapyd爬虫部署的文章:Scrapyd核心源码剖析及爬虫项目实战部署

  • 资源管理:资源管理是对某些站点的账号资源、IP 资源和采集节点等与采集相关的资源信息的集中管理

  • 状态监测:状态监测模块提供对网页页面改版、网页反爬策略、节点运行状态和数据产量等进行告警的功能,并以通知的方式实时推送到web前端,可以看看之前我写的这篇告警设计文章:【爬虫系统设计系列】好的爬虫系统一定要这样去设计告警功能)

5. 数据采集

  • 模板配置:例如新闻这类的网站源,页面的结构基本都是一样的,列表到详情页。可以采用模板配置的方案交给XPATH工程师,模板爬虫功能设计可以参考我的这篇文章【爬虫系统设计系列】模板爬虫的动态配置策略设计与实现

  • 可视化采集:爬取难度低的这类网站可以通过可视化配置的方式,所见即所得通过点击页面生成爬虫工程的方式。感兴趣的可以去看看开源可视化爬虫项目:可视化爬虫-Portia

  • 人工配置:这类网站一般难度较高、需要定制化开发、更新频率高!

  • 智能解析:像新闻、小说、应用市场这些页面特征相似的网站可以采用通用抽取算法!

在这里插入图片描述

6. 增量与去重设计

  这一部分可以说是非常重要也是经常接触的,除了一次性爬虫外几乎都要添加去重的功能,有的则需要定期或实时增量爬取

  • 增量设计:可以根据时间,记录最新更新的时间,这个是比较常见的,或者说咱们对页面的内容计算哈希值,将哈希值与上次爬取时存储的哈希值进行比较,不同则更新!

  • 去重设计:可以根据URL、数据内容计算指纹!可以使用Bloom或者是Set具体根据实际的业务场景跟数据体量去做一个技术选型

  好了,到这里又到了跟大家说再见的时候了。创作不易,帮忙点个赞再走吧。你的支持是我创作的动力,希望能带给大家更多优质的文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/201538.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

win10的系统下实现SUSTechPOINTS环境搭建

** win10的 标题系统下实现SUSTechPOINTS环境搭建 ** 参考文档: doc/install_from_source.md 张金来/SUSTechPOINTS - Gitee.com 在win10的系统下搭建**SUSTechPOINTS环境 1 克隆代码 git clone https://github.com/naurril/SUSTechPOINTS2 安装环境 2.1 创…

【EtherCAT详解】基于Wireshark的EtherCAT帧结构解析

写在前面 EtherCAT的报文比较繁琐,且一些参考书籍错误较多,且晦涩难懂,对于初学者,很难快速的入门。本文适用于有一定基础的研究者,如对报文有一些研究、对canopen协议有一定了解、并且对TwinCAT有了解的研究者。当然,对于初学者来说,也是很好的引导,少走很多弯路。本…

css 字体添加外轮廓

color: #ffeb3b; -webkit-text-stroke: 10px transparent; background: linear-gradient(90deg,#5d3d02f5,#5d3d02f5,#5d3d02f5,#5d3d02f5,#5d3d02f5,#5d3d02f5,#5d3d02f5) top left / 100% 100%; -webkit-background-clip: text;

语义分割网络-FCN全卷积网络

全卷积神经网络FCN整体概述 FCN是首个端对端针对像素级预测的全卷积网络。FCN会用到分类网络作为backbone FCN的网络结构类比分类网络 分类网络经过卷积操作后,接全连接层,最后一个全连接层输出长度与分类类别数量相同,最后经过softmax得到术…

springMVC实验(五)——数据校验

【知识要点】 数据校验的概念 在软件开发过程中,数据校验是非常重要的环节,用于确保数据的有效性和完整性 。数据校验分为客户端验证和服务端验证,客户端验证是确保人机交互过程中用户操作表单过程中的误操作,由JavaScript代码完…

优化用户直播体验:第三方美颜SDK的前沿技术

当下,用户对于直播体验的要求日益提高,其中之一的重要方面就是实时美颜效果。第三方美颜SDK为直播平台和应用提供了强大的美颜功能,极大地改善了用户的直播观感。 一、背景与发展 过去,直播中的美颜往往依赖于主播或用户自行调整…

【深度学习】深度学习框架的环境配置

目录 1. 配置cuda环境 1.1. 安装cuda和cudnn 1.1.1. 显卡驱动配置 1.1.2. 下载安装cuda 1.1.3. 下载cudnn,将解压后文件复制到cuda目录下 1.2. 验证是否安装成功 2. 配置conda环境 2.1. 安装anaconda 2.2. conda换源 2.3. 创建conda环境 2.4. pip换源 3…

Linux虚假唤醒

为什么会有虚假唤醒一说。Linux内核这么强大,怎么会出现这样的情况?一直以来也很困惑,看了下文链接中的介绍后,豁然开朗。 从计算机设计的角度,如果一层解决不了,那就再多加一层。推算到这里,就…

常见的环境变量用于设置系统的路径查找

常见的环境变量用于设置系统的路径查找 echo $PATH 常见的环境变量用于设置系统的路径查找 在 Linux 中,有一些常见的环境变量用于设置系统的路径查找。以下是一些常见的环境变量和它们的作用: $PATH: 用于设置可执行文件的查找路径。 expo…

【EI征稿中#先投稿,先送审#】第三届网络安全、人工智能与数字经济国际学术会议(CSAIDE 2024)

第三届网络安全、人工智能与数字经济国际学术会议(CSAIDE 2024) 2024 3rd International Conference on Cyber Security, Artificial Intelligence and Digital Economy 第二届网络安全、人工智能与数字经济国际学术会议(CSAIDE 2023&…

深度学习火车票识别系统 计算机竞赛

文章目录 0 前言1 课题意义课题难点: 2 实现方法2.1 图像预处理2.2 字符分割2.3 字符识别部分实现代码 3 实现效果4 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 图像识别 火车票识别系统 该项目较为新颖,适…

网络运维神器:H3C高级命令使用全攻略

哈喽大家好,欢迎来到虚拟化时代君(XNHCYL)。 “ 大家好,我是虚拟化时代君,一位潜心于互联网的技术宅男。这里每天为你分享各种你感兴趣的技术、教程、软件、资源、福利……(每天更新不间断,福…

【算法系列篇】递归、搜索与回溯(一)

文章目录 什么是递归、搜索与回溯算法1. 汉诺塔1.1 题目要求1.2 做题思路1.3 代码实现 2. 合并两个有序链表2.1 题目要求2.2 做题思路2.3 代码实现 3. 反转链表3.2 题目要求3.2 做题思路3.3 代码实现 什么是递归、搜索与回溯算法 递归算法是一种通过重复将问题分解为同类的子问…

【一天一坑系列】Mysql中INSERT IGNORE INTO插入时去重无效,插入了重复数据

1、问题描述 今天刚好有一个需求,需要插入数据时去重。所以第一下就想到了insert ignore into方法,但是使用过程中,发现虽然设置了唯一键,但插入时还是出现了重复插入的情况。 具体信息如下,表的约束设置如下&…

从Excel中找sheet

pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 …

win11安装(未完待续)

学习补丁 test.bat 运行后需要重启 slmgr /ipk W269N-WFGWX-YVC9B-4J6C9-T83GX slmgr /skms kms.03k.org slmgr /ato 文件扩展名 主题 性能设置 开始按钮靠左 任务栏对齐方式-靠左 必备软件 f.lux redshift 360管家 驱动精灵 edge c*lash&#xff08;v2*ray不支持w…

【开题报告】基于SpringBoot的社区老人健康跟踪管理系统设计与实现

1.研究背景 基于Spring Boot的社区老人健康跟踪管理系统的研究背景主要包含了以下几个方面&#xff1a; &#xff08;1&#xff09;人口老龄化趋势 随着社会的发展&#xff0c;我国老年人口比例逐渐增加&#xff0c;老年人口的健康管理成为一个重要议题。随之而来的是对老年…

微信小程序中对于蓝牙通讯数据处理常用的工具函数

一、十六进制转字符串 export const hexToStr function(hex, encoding) {var trimedStr hex.trim();var rawStr trimedStr.substr(0, 2).toLowerCase() "0x" ? trimedStr.substr(2) : trimedStr;var len rawStr.length;var curCharCode;var resultStr [];for…

显示屏 LM3033(ST7920主控)

简介 这是常用的单色液晶 LCD 显示屏。 型号为 LM3033DFW&#xff08;深圳拓普微&#xff09;5V 单电源供电&#xff08;3.3V不可以&#xff0c;对比度会降低到看不清&#xff09;支持并口&#xff08;8080时序&#xff09;和串行通讯&#xff08;SPI&#xff09;带字库 框图…

git stash 对当前分支修改的内容进行暂存

我们在开发的时候往往会遇到这种情况, 在一个分支开发,写了不少内容,但是突然来了一个紧急的需求需要切换分支,去做这个需求,但是当前的分支又因为没有开发完成,不想形成一条无效的commit记录,这时我们就到暂存上场了 git stash 暂存 // 切分支之前 对当前分支修改的内容进行暂…