scrapyd及gerapy的使用及docker-compse部署

一、scrapyd的介绍

scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许你通过JSON API(也即是web api)来部署爬虫项目和控制爬虫运行,scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行它们

  1. scrapyd的安装
scrapyd服务端: pip install scrapyd
scrapyd客户端: pip install scrapyd-client
  1. 启动scrapyd服务

在scrapy项目路径下 启动scrapyd的命令:sudo scrapyd 或 scrapyd。启动之后就可以打开本地运行的scrapyd,浏览器中访问本地6800端口可以查看scrapyd的监控界面
在这里插入图片描述
在这里插入图片描述

  • 点击Job可以查看任务监控
    在这里插入图片描述
  1. 通过scrapyd部署scrapy项目
  • 配置需要部署的项目:编辑需要部署的项目的scrapy.cfg文件(需要将哪一个爬虫部署到scrapyd中,就配置该项目的该文件)

在这里插入图片描述

  • 部署项目到scrapyd

同样在scrapy项目路径下执行:

scrapyd-deploy 部署名(配置文件中设置的名称) -p 项目名称
以上面配置文件为例子:scrapyd-deploy Baidu -p my_spider 

在这里插入图片描述

  1. 管理项目

启动项目:

curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_name

这里就可以看到使用web api调度有多么麻烦了,于是引入下面的gerapy

二、gerapy

  1. 什么是gerapy

Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发,Gerapy 可以帮助我们:​

  1. 更方便地控制爬虫运行
  2. 更直观地查看爬虫状态
  3. 更实时地查看爬取结果
  4. 更简单地实现项目部署
  5. 更统一地实现主机管理

通俗的解释:Gerapy 的最主要的目标是将 Scrapyd 的命令行操作转化为直观的 Web 点击操作。它提供了一个可视化的 Web 界面,让用户通过界面轻松地进行 Scrapy 项目的管理、监控和部署,而不必直接使用 Scrapyd 的命令行

  1. Gerapy的安装
  • 执行如下命令,等待安装完毕
​ pip3 install gerapy
  • 验证gerapy是否安装成功

​ 在终端中执行 gerapy 会出现如下信息

Usage:​ gerapy init [--folder=]​ gerapy migrate​ gerapy createsuperuser​ gerapy runserver []`
  1. Gerapy配置启动
  • 新建一个项目:gerapy init

​ 执行完该命令之后会在当前目录下生成一个gerapy文件夹,进入该文件夹,会找到一个名为projects的文件夹

在这里插入图片描述

对数据库进行初始化(在gerapy目录中操作),执行如下命令

​ gerapy migrate

​ 对数据库初始化之后会生成一个SQLite数据库,数据库保存主机配置信息和部署版本等​
在这里插入图片描述

  1. 启动 gerapy服务:​ gerapy runserver

​此时启动gerapy服务的这台机器的8000端口上开启了Gerapy服务,在浏览器中输入http://localhost:8000就能进入Gerapy管理界面,在管理界面就可以进行主机管理和界面管理
在这里插入图片描述

  1. 通过Gerapy配置管理scrapy项目
  • 添加主机
    在这里插入图片描述
    需要添加 IP、端口,以及名称,点击创建即可完成添加,点击返回即可看到当前添加的 Scrapyd 服务列表,创建成功后,我们可以在列表中查看已经添加的服务

  • 执行爬虫,就点击调度.然后运行. (前提是: 我们配置的scrapyd中,已经发布了爬虫.)

在这里插入图片描述
在这里插入图片描述

  • 配置Projects.我们可以将scarpy项目直接放到 /gerapy/projects下

在这里插入图片描述
在这里插入图片描述
点击部署点击部署按钮进行打包和部署,在右下角我们可以输入打包时的描述信息,类似于 Git 的 commit 信息,然后点击打包按钮,即可发现 Gerapy 会提示打包成功,同时在左侧显示打包的结果和打包名称。

在这里插入图片描述
在这里插入图片描述

  • 选择一个站点,点击右侧部署,将该项目部署到该站点上

在这里插入图片描述
来到clients界面,找到部署该项目的节点,点击调度
在这里插入图片描述
在这里插入图片描述

三、基于docker-compose的方式

docker-compose的优势就不说了,直接贴文件,应该有人需要的:

version: '3'services:scrapyd:container_name: scrapydimage: germey/scrapyd:latest#network_mode: "host"ports:- "6800:6800"volumes:- /opt/docker/scrapyd_gerapy/scrapyd/app:/apprestart: alwaysgerapy:container_name: gerapyimage: germey/gerapy:latest#environment:# - GERAPY_PORT=8001(有大佬知道如何覆盖镜像里的默认端口麻烦告知一下)#network_mode: "host"ports:- "8001:8000"volumes:- /opt/docker/scrapyd_gerapy/gerapy:/app/gerapydepends_on:- scrapydrestart: always

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/191392.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从“芯”到云,看亚马逊云科技如何让未来“平等”发生

文章目录 业界最全面算力选择,有效解决多样性需求多年自研芯片积累,带来性能与性价比双重优势全球基础设施与独特的业务模式,让创新不受限 “科幻作家威廉吉布森说‘未来已至,只是还没有均匀分布’。”2023年6月底,当亚…

抖音短视频账号矩阵系统开发新规则

一、抖音官方平台开发新规: 1.代发布管理应用api接口无法在做新的应用申请 仅针对企事业单位开放,目前要想开发新的抖音矩阵系统,就需要在原有的技术算法上进行新一步的调整。 能力介绍 网站应用开发者可以申请开通【代替用户发布内容到抖…

Unity Meta Quest 一体机开发(八):【手势追踪】实现 Hand Grab 扔物体功能

文章目录 📕教程说明📕设置刚体和碰撞体📕给物体添加 Physics Grabbable 脚本📕给手部添加 Hand Velocity Calculator 物体 此教程相关的详细教案,文档,思维导图和工程文件会放入 Seed XR 社区。这是一个高…

【实战教程】PHP如何轻松对接腾讯云COS,实现文件上传下载?

腾讯云提供了一系列丰富的云服务,其中包括对象存储(Cloud Object Storage,简称COS),它是一种高可靠性、可扩展性强的云存储服务。本文将介绍如何使用PHP对接腾讯云COS存储服务,实现文件的上传和下载功能。 …

【Unity入门】声音组件AudioSource简介及实现声音的近大远小

AudioSource组件 将需要播放声音的物体挂载Audio Listener组件,实现声音的播放 AudioSource组件属性 (1)AudioClip(音频剪辑):指定播放的音频文件。 (2)Output(音频输…

hbase Master is initializing

问题如下: ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializingat org.apache.hadoop.hbase.master.HMaster.checkInitialized(HMaster.java:2452)at org.…

栈实现队列,力扣

题目地址: 232. 用栈实现队列 - 力扣(LeetCode) 难度:简单 今天刷栈实现队列,大家有兴趣可以点上看看题目要求,试着做一下。 题目: 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支…

一篇带你串通数据结构

文章目录 导论数据结构的定义数据结构在计算机科学中的重要性为什么学习数据结构很重要 1、基本概念1.1、数据、数据元素和数据项的概念1.2、数据对象与数据结构的关系1.3、逻辑结构与物理结构 2、线性结构2.1、数组2.2、链表2.3、栈2.4、队列 3、非线性结构3.1、树3.2、图 4、…

prometheus|云原生|kubernetes内部安装prometheus

架构说明: prometheus是云原生系统内的事实上的监控标准,而kubernetes集群内部自然还是需要就地取材的部署prometheus服务了 那么,prometheus-server部署的方式其实是非常多的,比如,kubesphere集成方式,h…

Linux ____04、文件内容查看(命令),网络配置(命令),软硬链接(命令)

文件内容查看,软硬链接 一、文件内容查看1、cat 由第一行开始显示文件内容,用来读文章,或者读取配置文件啊,都使用cat名2、tac 从最后一行开始显示,可以看出 tac 是 cat 的倒着写!3、显示的时候&#xff0c…

CGAL的三维曲面网格生成

1、介绍 此程序包提供了一个函数模板,用于计算三角网格,以近似表面。 网格化算法要求仅通过一个能够判断给定线段、直线或射线是否与曲面相交,并且如果相交则计算交点的oracle来了解待网格化的表面。这一特性使该软件包具有足够的通用性&…

子集(回溯、图解)

78. 子集 - 力扣(LeetCode) 题目描述 给你一个整数数组 nums ,数组中的元素 互不相同 。返回该数组所有可能的子集(幂集)。 解集 不能 包含重复的子集。你可以按 任意顺序 返回解集。 样例输入 示例 1:…

深入理解同源限制:网络安全的守护者(下)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

VMware安装Debian12.2作为服务器(无桌面)

[TOC]VMware安装Debian12.2作为服务器(无桌面) 下载Debian系统 官方网站:https://www.debian.org/index.zh-cn.html 创建新的虚拟机 打开VMware Workstation,点击创建新的虚拟机 向导虚拟机类型选择 一般我会选择典型&…

C#网络编程(System.Net命名空间和System.Net.Sockets命名空间)

目录 一、System.Net命名空间 1.Dns类 (1)示例源码 (2)生成效果 2.IPAddress类 (1)示例源码 (2)生成效果 3.IPEndPoint类 (1) 示例源码 &#xff0…

Unity Image - 镜像

1、为什么要使用镜像 在游戏开发过程中,我们经常会为了节省 美术图片资源大小,美术会将两边相同的图片进行切一半来处理。如下所示一个按钮 需要 400 * 236,然而美术只需要切一张 74*236的大小就可以了。这样一来图集就可以容纳更多的图片。…

基于spring boot电子商务系统

一、 系统总体结构设计 (一) 功能结构图 图1-1 后台管理子系统 图1-2 电子商务子系统功能结构图 (二) 项目结构目录截图(例如下图) 图 1-3 系统目录图 (三) 系统依赖截图 图 1-2 所有依赖截图 (四) 配置文件 1、 全局配置文件 2、 其他配置文…

Leetcode226. 翻转二叉树

文章目录 题目介绍题目分析解题思路边界条件:节点为空时返回空子问题:交换左右子节点 整体代码 题目介绍 题目分析 题目要求我们将树中每个节点的左右子节点全部交换,最后返回交换后的树的根节点。 解题思路 这题是比较常见的递归,直接找边…

Simple_SSTI_1-WEB-bugku-解题步骤

——CTF解题专栏—— 声明:文章由作者weoptions学习或练习过程中的步骤及思路,非正式答案,仅供学习和参考。 题目信息: 题目:Simple_SSTI_1 作者:valecalida 提示:无 场景: 解题…

蓝桥杯day03——二进制间距

1.题目 给定一个正整数 n,找到并返回 n 的二进制表示中两个 相邻 1 之间的 最长距离 。如果不存在两个相邻的 1,返回 0 。 如果只有 0 将两个 1 分隔开(可能不存在 0 ),则认为这两个 1 彼此 相邻 。两个 1 之间的距离…