手写myscrapy(八)

项目地址:https://gitee.com/wyu_001/myscrapy
接下来接着说明如何多线程运行多个爬虫脚本:
项目的根目录下有个batch.py文件,这个就是批量运行多个爬虫的脚本,这里使用了线程池,同时运行spider下的多个爬虫类,也可以在setting.py文件中设置运行的爬虫文件:

#batch
#批量运行默认情况下运行spider下继承myspider类的子类
#批量运行脚本参数定义,一次并发线程数BATCH_THREADS =10#batch run files in list
#自定义运行spider下脚本文件
BATCH_FILES =['dxyqueryhospital.py','haodfqueryhospital.py']

下面是batch.py脚本代码:

import inspect
from os import listdir,getcwd
from os.path import isfile,join
import importlibfrom config.setting import BATCH_THREADS
from config.setting import BATCH_FILESfrom concurrent.futures import ThreadPoolExecutor,as_completedcrawls=[]lib_dir = "spider"
file_path = join(getcwd(),lib_dir)
crawl_files = [ f for f in listdir(file_path) if isfile(join(file_path,f))]crawls_sets = set(crawl_files)
batch_sets = set(BATCH_FILES)if len(batch_sets):crawl_files = list(crawls_sets.intersection(batch_sets))for file in crawl_files:if file != "__init__.py" :file = f'.{file.split(".")[0]}'moudle = importlib.import_module(file,lib_dir)for name ,obj in inspect.getmembers(moudle,inspect.isclass):if obj.__base__.__name__ == "MySpider":crawls.append(obj())thread_num = 0tasks = []with ThreadPoolExecutor(max_workers= BATCH_THREADS) as tp:while(len(crawls)):task = tp.submit(crawls.pop().start_request)tasks.append(task)thread_num += 1if thread_num >= BATCH_THREADS :for future in as_completed(tasks):finish = future.result()thread_num  = 0for future in as_completed(tasks):finish = future.result()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/703653.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

编程笔记 Golang基础 038 并发与原子变量

编程笔记 Golang基础 038 并发与原子变量 一、原子操作(Atomic Operation)二、原子变量三、应用示例 在 Go 语言(Golang)的并发编程中,原子变量是用于确保多线程安全的重要工具。当多个 Goroutine 并发访问和修改同一变…

【HMAC-SHA1算法以及工作原理】

曾梦想执剑走天涯,我是程序猿【AK】 目录 简述概要知识图谱总结 简述概要 连接HMAC-SHA1工作原理以及工具代码 知识图谱 HMAC(Hash-based Message Authentication Code,基于散列的消息认证码)是一种结合了密钥和消息的认证方法…

刚拿到的《HarmonyOS应用开发者高级认证》,全网整理的题目,将近300题,100%通过

刚拿到《HarmonyOS应用开发者高级认证》,现在把题目和答案分享一下,这些题目是我根据其他网站整理的,宁滥勿缺,有个别题目是重复的,抽半天时间看一下,应该是稳过的。当然建议还是先跟着文档学一下鸿蒙或者看…

Centos 7.5 上nginx设置开机自启动

nginx的安装目录 : /usr/local/nginx 一、没有设置开机自启动前,需要执行/usr/local/nginx/sbin/nginx 启动 二、接下来,我们设置开机自启动,就不用手动启动nginx了 1、cd /usr/lib/systemd/system/ 2、vi nginx.service [un…

如何在Win系统搭建Oracle数据库并实现远程访问【内网穿透】

文章目录 前言1. 数据库搭建2. 内网穿透2.1 安装cpolar内网穿透2.2 创建隧道映射 3. 公网远程访问4. 配置固定TCP端口地址4.1 保留一个固定的公网TCP端口地址4.2 配置固定公网TCP端口地址4.3 测试使用固定TCP端口地址远程Oracle 前言 Oracle,是甲骨文公司的一款关系…

TensorRT及CUDA自学笔记007 运行时库及矩阵加法demo

TensorRT及CUDA自学笔记007 运行时库及矩阵加法demo Runtime 运行时库 明天再补充,先去准备面试了 矩阵加法demo cudaMalloc和cudaMemcpy 它们和c的malloc和memcpy功能一致,只是操作的不是host端的内存空间,而是device端的”显存空间“ …

【深入理解设计模式】适配器设计模式

适配器设计模式 适配器设计模式是一种结构型设计模式,用于将一个类的接口转换成客户端所期望的另一个接口,从而使得原本由于接口不兼容而不能一起工作的类能够一起工作。适配器模式通常用于以下场景: 现有接口与需求不匹配:当需要…

Linux安装Mysql(超详细,亲测)

文章中的全部内容自己都有亲身实践,都是有效的,像常见登录错误中,那种错误的密码修改方式自己以前就浪费了很多事件,还有设置Mysql远程登录这些也是,所以我把这些操作整理了一下,让大家在安装和使用Mysql的…

YOLOv6代码解读[02] configs/hub/yolov6l_finetune.py文件解读

文章目录 模型配置文件骨干网络 CSPBepBackbone颈部网络 CSPRepBiFPNNeck检测头 EffiDeHead构建模型Model 模型配置文件 # YOLOv6l model model dict(typeYOLOv6l,pretrainedweights/yolov6l.pt,depth_multiple1.0,width_multiple1.0,backbonedict(typeCSPBepBackbone,num_re…

多线程基础说明【基础篇】

目录 🌭1.相关概念 🍿2.创建和启动线程 🥞3.线程安全 🧈4.死锁 🥓5.线程通信的方法 1.相关概念 1.1程序 为完成特定任务,用某种语言编写的一组指令的集合。即指一段静态的代码,静态对象…

都2024年了,软件测试面试都问什么?

1、最熟悉的 selenium 操作? 基本上 selenium 提供的一下几大类操作都能够灵活使用,比如说:八大元素定位方式、三大等待方式、用户点击、输入等常见操作、 还有窗口切换、iframe 切换操作,比如说 actionchains 文件上传、JS操作 等…

网站开发--详解Servlet

💕"Echo"💕 作者:Mylvzi 文章主要内容:网站开发–详解Servlet 一.基本介绍 tomcat是Java中开发服务器的重要的一个工具,任何开发的服务器都要部署在tomcat之上,可以说tomcat是所有服务器的底座,为了更好的操作http,to…

Pom文件中的scope到是什么作用

在 Maven 的 pom.xml 文件中&#xff0c;<scope> 标签用于定义依赖项的作用域。作用域决定了依赖项的生命周期、可见性和使用范围。<scope> 标签的常用值包括&#xff1a; 1. **compile**&#xff08;默认值&#xff09;&#xff1a;编译依赖在所有 classpath 中都…

golang学习3,golang 项目中配置gin的web框架

1.go 初始化 mod文件 go mod init gin-ranking 2.gin的crm框架 go get -u github.com/gin-gonic/gin 3.go.mod爆红解决

【Redis】redis通用命令

redis连接命令 要在 redis 服务上执行命令需要一个 redis 客户端。Redis 客户端在我们之前安装redis 的src目录下&#xff0c;具体为/usr/local/redis/src。注意此redis实例没有设置密码&#xff0c;如果设置了密码需要先使用命令AUTH执行验证或者开始在命令行中通过-a指定。 …

前后端分离Vue+node.js在线学习考试系统gqw7o

与其它应用程序相比&#xff0c;在线学习平台的设计主要面向于学校&#xff0c;旨在为管理员和学生、教师、院系提供一个在线学习平台。学生、教师、院系可以通过系统及时查看公告信息等。 在线学习平台是在Windows操作系统下的应用平台。为防止出现兼容性及稳定性问题&#xf…

B站项目-基于Pytorch的ResNet垃圾图片分类

基于Pytorch的ResNet垃圾图片分类 数据集预处理 画图片的宽高分布散点图 import osimport matplotlib.pyplot as plt import PIL.Image as Imagedef plot_resolution(dataset_root_path):image_size_list []#存放图片尺寸for root, dirs, files in os.walk(dataset_root_pa…

装配制造业的MES系统种的物料齐套技术

装配是制造企业涉及产品生产加工最为普遍的一种模式&#xff0c;包括汽车、电子、电器、电气等行业。经研究表明&#xff0c;装配在整个产品制造总成本中所占比例超过了50%&#xff0c;所占用的总生产时间比例在40%-60%&#xff0c;直接影响着产品质量和成本。装配制造非常强调…

树-王道-复试

树 1.度&#xff1a; 树中孩子节点个数&#xff0c;所有结点的度最大值为 树的度 2.有序树&#xff1a; 逻辑上看&#xff0c;树中结点的各子树从左至右是有次序的&#xff0c;不能互换。 **3.**树的根节点没有前驱&#xff0c;其他节点只有一个前驱 **4.**所有节点可有零个或…

Leetcoder Day23| 回溯part03:组合+分割

语言&#xff1a;Java/Go 39. 组合总和 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target &#xff0c;找出 candidates 中可以使数字和为目标数 target 的所有不同组合 &#xff0c;并以列表形式返回。你可以按任意顺序返回这些组合。 candidates 中的同一个…