爬虫工作量由小到大的思维转变---<第四十四章 Scrapyd 用gerapy管理多台机器爬虫>

前言:

之前讲过关于如何在gerapy中部署本地爬虫,

爬虫工作量由小到大的思维转变---<第三十四章 Scrapy 的部署scrapyd+Gerapy>_gerapy如何登录-CSDN博客

爬虫工作量由小到大的思维转变---<第三十五章 Scrapy 的scrapyd+Gerapy 部署爬虫项目>_scrapy 部署到gerapy-CSDN博客

这次讲讲,如何把不同服务器上的爬虫部署到gerapy上面!!!

正文:

要让 Gerapy 管理两台电脑上的爬虫,需要保证 Gerapy 能够访问这两台电脑上运行的 Scrapyd 服务。默认情况下,Scrapyd 绑定在 127.0.0.1 上,这意味着它只监听来自本地机器的请求。要使其能够接受远程机器(如 Gerapy 所在机器)的请求,需要修改 Scrapyd 的配置以便它绑定在一个外部可访问的 IP 地址或 0.0.0.0(意味着监听所有可用的网络接口)。

​​​​​​​

步骤:

1.修改 Scrapyd 配置文件

(默认位置在 /etc/scrapyd/scrapyd.conf,如果不存在,可能需要在 Scrapyd 安装目录下手动创建一个)。

在单独的项目文件夹里

1.虚拟环境里的scrapy.conf文件需要自己手动创建!
2.相关配置信息,如下:
[scrapyd]
# 配置部分开始eggs_dir    = eggs
# eggs目录用于存储上传的Scrapy项目的egg包(Python的二进制分发格式)。
# 这些egg包是通过Scrapyd的API上传的,Scrapyd会从中运行Scrapy爬虫。logs_dir    = logs
# 日志目录用于存储Scrapyd运行爬虫的日志文件。items_dir   = items
# 存放爬取项目产生的数据文件(items)的目录。
# 这个目录通常在使用Scrapy的Feed exports时指定文件路径时使用。jobs_to_keep = 5
# 指定Scrapyd服务在其数据库中保留已完成工作的数量。
# 当完成新的爬虫作业时,超出此数量的最旧记录将从数据库中删除。dbs_dir     = dbs
# 存储Scrapyd使用的SQLite数据库的目录。
# 这些数据库包含了作业的状态信息和其他元数据。bind_address = 192.168.2.1
# 绑定地址,指定Scrapyd监听的网络接口。
# 设为0.0.0.0表示监听所有网络接口,允许从任何机器访问Scrapyd服务。http_port   = 6800
# 指定Scrapyd服务监听的HTTP端口号。
# 通过这个端口可以访问Scrapyd的Web界面和API。
3.保存的scrapyd.conf的文件位置:

放在与venv文件夹同级的地方,图例:

2.在 [scrapyd] 部分中,找到 bind_address 配置项,

将其修改为以下任一选项:

使其绑定在特定的外部 IP 地址上,如电脑 A 或 B 的 IP 地址。例如,对于电脑 A,可以设置为:bind_address = 192.168.2.1

或者,使其绑定在所有地址上:bind_address = 0.0.0.0

3.保存配置文件并重启 Scrapyd 服务以应用更改。

    1.重启scrapyd:

                1.找到 Scrapyd 进程ID:
tasklist | findstr scrapyd

               2.使用从上一步得到的进程ID,替换 <PID>:

taskkill /PID <PID> /F
图例:

        2.启动scrapyd

                cmd进入到里面,

E:\项目文件夹> venv\Scripts\activate  # 激活虚拟环境
(venv) E:\项目文件夹> scrapyd          # 启动 Scrapyd

可能会遇上的问题:

Failed to load application: 'gbk' codec can't decode byte 0x80 in position 27: illegal multibyte sequence

解决:
方法1:

设置python的编码格式(默认)为utf8

在启动虚拟环境后,

(venv) E:\项目名>set PYTHONUTF8=1(venv) E:\项目名>scrapyd
2024-02-03T23:27:30+0800 [-] Loading E:\football\venv\Lib\site-packages\scrapyd\txapp.py...
2024-02-03T23:27:30+0800 [-] Basic authentication disabled as either `username` or `password` is unset
2024-02-03T23:27:30+0800 [-] Scrapyd web console available at http://192.168.2.6:6800/
2024-02-03T23:27:30+0800 [-] Loaded.
2024-02-03T23:27:30+0800 [twisted.application.app.AppLogger#info] twistd 22.10.0 (E:\football\venv\Scripts\python.exe 3.11.2) starting up.
2024-02-03T23:27:30+0800 [twisted.application.app.AppLogger#info] reactor class: twisted.internet.selectreactor.SelectReactor.
2024-02-03T23:27:30+0800 [-] Site starting on 6800
2024-02-03T23:27:30+0800 [twisted.web.server.Site#info] Starting factory <twisted.web.server.Site object at 0x00000248EC65C810>
2024-02-03T23:27:30+0800 [Launcher] Scrapyd 1.4.3 started: max_proc=96, runner='scrapyd.runner'
2024-02-03T23:27:41+0800 [twisted.python.log#info] "192.168.2.6" - - [03/Feb/2024:15:27:40 +0000] "GET / HTTP/1.1" 200 725 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
2024-02-03T23:27:41+0800 [twisted.python.log#info] "192.168.2.6" - - [03/Feb/2024:15:27:40 +0000] "GET /favicon.ico HTTP/1.1" 404 167 "http://192.168.2.6:6800/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
2024-02-03T23:28:08+0800 [twisted.python.log#info] "192.168.2.6" - - [03/Feb/2024:15:28:07 +0000] "GET / HTTP/1.1" 200 725 "-" "python-requests/2.31.0"
2024-02-03T23:28:09+0800 [twisted.python.log#info] "192.168.2.6" - - [03/Feb/2024:15:28:09 +0000] "GET / HTTP/1.1" 200 725 "-" "python-requests/2.31.0"
2024-02-03T23:28:41+0800 [twisted.web.http.HTTPChannel#info] Timing out client: IPv4Address(type='TCP', host='192.168.2.6', port=10328)
2024-02-03T23:28:41+0800 [twisted.web.http.HTTPChannel#info] Timing out client: IPv4Address(type='TCP', host='192.168.2.6', port=10327)
方法2:​​​​​​​

4.在 Gerapy 的设置中,配置两台电脑上的 Scrapyd 服务地址。

这通常是通过添加或修改 Gerapy 的项目设置或直接通过其界面来完成的。需要输入电脑 A 和 B 的 IP 地址及端口号,如 http://192.168.2.1:6800http://192.168.2.2:6800

这样配置完成后,Gerapy 就应该能够管理这两台电脑上的爬虫了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/669527.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot:配置相关知识点

SpringBoot&#xff1a;多环境配置 配置知识点demo&#xff1a;点击查看LearnSpringBoot02 点击查看更多的SpringBoot教程 一、SpringBootApplication SpringBootApplication 来标注一个主程序类&#xff0c;说明这是一个Spring Boot应用&#xff0c;运行这个类的main方法来…

睿尔曼超轻量仿人机械臂-- RM65-B手眼标定使用说明

一、前言 机器人的视觉系统分为固定场景视觉系统和运动的「手-眼」视觉系统。相机与机器人手臂末端&#xff0c;构成手眼视觉系统。根据相机在机器人安装位置的不同&#xff0c;手眼视觉系统分为Eye-in-Hand系统&#xff08;眼在手上&#xff09;和Eye-to-Hand系统&#xff08…

Javascript | 打印菱形

Javascript打印菱形&#xff0c;在校大学生可以拿来糊弄作业&#xff08;笑&#xff09; var str ; for (var i 1; i < 9; i) {if (i < 5) {for (var k1 1; k1 < 5 - i; k1) {str ;}} else {for (var k2 1; k2 < i - 5; k2) {str ;}}if (i < 5) {for (…

Curl 使用指南(进阶版)

使用Curl可以轻松GET资源、发送POST请求、定制HTTP头。高级技巧如代理、Cookie、证书 一、Curl 的基本用法 curl [options] [URL]options &#xff1a;指定 Curl 的行为的选项 URL &#xff1a;要访问的资源的地址 支持一下&#xff1a; Python Gui图形化开发 MySQL使用教程 …

开源软件:推动技术创新的引擎

目录 前言1 低成本、可协作性和透明度的特点1.1 社区化开发模式的催生1.2 成本效益的体现1.3 透明度的增强 2 开放协议的关键作用2.1 保障知识产权的开源协议2.2 灵活性与自由的MIT协议2.3 广泛应用的Apache协议 3 安全风险的审慎考虑3.1 潜在的恶意代码威胁3.2 定期安全审查的…

C++中RTTI实现原理

目录 1.引言 2.typeid 2.1.虚函数表&#xff08;vtable&#xff09; 2.2.类型信息&#xff08;type_info&#xff09; 3.dynamic_cast 4.缺陷 5.一些库/软件提供的RTTI实现 5.1. CATIA的RTTI 5.2. QT的RTTI 5.3. FreeCAD的RTTI 6.实例 7.总结 1.引言 RTTI是Runtime…

信任与创新 | 回顾通付盾的2023!

-END- 数信云&#xff0c;基于区块链与人工智能的数据安全应用与服务平台

【Spring】Spring 启示录

一、OCP 开闭原则 核⼼&#xff1a;在扩展系统功能时不需要修改原先写好的代码&#xff0c;就是符合OCP原则的&#xff0c;反之修改了原先写好的代码&#xff0c;则违背了OCP原则的 若在扩展系统功能时修改原先稳定运⾏程序&#xff0c;原先的所有程序都需要进⾏重新测试&…

N-143基于springboot博客系统

开发工具&#xff1a;IDEA 服务器&#xff1a;Tomcat9.0&#xff0c; jdk1.8 项目构建&#xff1a;maven 数据库&#xff1a;mysql5.7 前端技术&#xff1a;AdminLTEHTML 服务端技术&#xff1a;springbootmybatis-plusthymeleaf 本项目分前台和后台&#xff0c;主要有普…

FM波的调制与解调

一、实验原理 1.FM的调制 产生调频信号有两种方法&#xff0c;直接调频法和间接调频法。间接调频法就是可以通过调相间接实现调频的方法。但电路较复杂&#xff0c;频移小&#xff0c;且寄生调幅较大&#xff0c;通常需多次倍频使频移增加。对调频器的基本要求是调频频移大&am…

大数据Doris(六十三):基于Doris的有道精品课数据中台建设实践

文章目录 基于Doris的有道精品课数据中台建设实践 一、背景

【Java程序设计】【C00245】基于Springboot的家政服务管理平台(有论文)

基于Springboot的家政服务管理平台&#xff08;有论文&#xff09; 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的家政服务管理平台 本系统分为前台模块、管理员功能模块、用户功能模块以及服务人员功能模块。 前台模块&#xff1a;系统首页的…

Spring IOC 之深入分析 Aware 接口

&#x1f3ac;作者简介&#xff1a;大家好&#xff0c;我是小徐&#x1f947;☁️博客首页&#xff1a;CSDN主页小徐的博客&#x1f304;每日一句&#xff1a;好学而不勤非真好学者 &#x1f4dc; 欢迎大家关注&#xff01; ❤️ &#xfeff;AbstractAutowireCapableBeanFacto…

力扣分式化简

题目描述&#xff1a; 有一个同学在学习分式。他需要将一个连分数化成最简分数&#xff0c;你能帮助他吗&#xff1f; 连分数是形如上图的分式。在本题中&#xff0c;所有系数都是大于等于0的整数。 输入的cont代表连分数的系数&#xff08;cont[0]代表上图的a0&#xff0c;以…

Java学习-枚举类和泛型

1.枚举 什么是枚举类&#xff1f;格式是什么&#xff1f;&#xff1f; 枚举类的特点&#xff1a; 抽象枚举的注意点&#xff1a; 枚举的使用场景&#xff1a; 示例&#xff1a;枚举类对象作为参数传递 2.泛型 对泛型的认识&#xff1a; 自定义泛型类&#xff1a; 格式&#xff…

MySQL-运维-读写分离

一、介绍 二、一主一从读写分离 三、双主双从 1、介绍 2、准备 3、搭建 四、双主双从读写分离

“极简壁纸“爬虫JS逆向·实战

文章目录 声明目标分析确定目标目标检索 代码补全完整代码 爬虫逻辑完整代码 运行结果 声明 本教程只用于交流学习&#xff0c;不可用于商业用途&#xff0c;不可对目标网站进行破坏性请求&#xff0c;请遵守相关法律法规。 目标分析 确定目标 获取图片下载链接 目标检索…

OpenGL 入门(九)—Material(材质)和 光照贴图

文章目录 材质设置材质光的属性脚本实现 光照贴图漫反射贴图高光反射贴图 材质 材质本质是一个数据集&#xff0c;主要功能就是给渲染器提供数据和光照算法。 如果我们想要在OpenGL中模拟多种类型的物体&#xff0c;我们必须针对每种表面定义不同的材质(Material)属性。 我们…

【实训】自动运维ansible实训(网络管理与维护综合实训)

来自即将退役学长的分享&#xff0c;祝学弟学妹以后发大财&#xff01; 一 实训目的及意义 1.1 实训目的 1、熟悉自动化运维工具&#xff1a;实训旨在让学员熟悉 Ansible 这一自动化运维工具。通过实际操作&#xff0c;学员可以了解 Ansible 的基本概念、工作原理和使用方法…

Obsidian使用ddnsto穿透nas的webdav功能实现跨平台同步

之前一直用坚果云的webdav功能做obsidian的跨平台同步&#xff08;Windows&#xff0c;Ubuntu&#xff0c;iOS&#xff09;&#xff0c;但是今天在新的工作机上部署obsidian时&#xff0c;发现一次同步的文件数量超过了坚果云的限制&#xff08;付费用户好像是500次&#xff09…