1.Gerapy 是什么?
Gerapy 是一款基于 Python 3 的分布式爬虫管理框架,它旨在简化和优化分布式爬虫的部署、管理和监控过程。
2.作用与功能?
2.1分布式管理: Gerapy 允许用户在多台机器上部署和管理Scrapy爬虫,实现爬虫任务的分布式处理,提高数据抓取效率和系统稳定性。
2.2Web界面操作: 提供了一个直观的Web界面,用户可以通过浏览器进行项目部署、爬虫任务的启动、停止、监控以及结果查看,无需直接操作命令行,使得管理更加简便。
2.3项目部署简化: 简化了Scrapy项目的部署流程,用户可以直接通过Gerapy的界面上传项目代码,并进行打包部署,减少了手动配置服务器的工作量。
2.4实时监控与日志查看: 实时展示爬虫运行状态和日志信息,便于快速定位和解决问题。
2.5任务调度与队列管理: 利用Scrapy-Redis实现任务的分布式调度,支持优先级设定,管理爬虫任务队列。
2.6代码编辑与版本控制: 在某些版本或配置中,可能支持在线编辑爬虫代码,便于快速迭代和测试。
2.7主机与爬虫实例管理: 统一管理多台主机上的Scrapyd服务,轻松添加、移除或查看各个主机上的爬虫实例。
3.安装过程:
3.1安装gerapy
pip install gerapy
3.2校验gerapy 是否安装成功
gerapy
3.3初始化gerapy
gerapy init
生成的文件夹
3.4进入scrapyd,执行gerapy数据化的初始化,建立相关的数据库表。
F:\gerapy>cd gerapy
F:\gerapy\gerapy>gerapy migrate
3.5开启服务:gerapy runserver
F:\gerapy\gerapy>gerapy runserver
访问:http://127.0.0.1:8000/#/login 需要有账号密码
3.6设置账号密码并重启gerapy:
F:\gerapy\gerapy>
F:\gerapy\gerapy>gerapy createsuperuser
Username (leave blank to use 'admin'): admin
Email address: xxxxxxxxxx
Password:
Password (again):
The password is too similar to the username.
This password is too short. It must contain at least 8 characters.
This password is too common.
Bypass password validation and create user anyway? [y/N]: y
Superuser created successfully.
效果:
补充:
添加主机管理,填写对应的信息(这里需要配合 scrapyd 使用)
scrapy 配置可参考:https://blog.csdn.net/weixin_42883164/article/details/138574304
执行效果
任务管理