爬虫-通过几个例子来说明并发以及多线程

并发

什么是并发?并发,在操作系统中,是指一个时间段中有几个程序都处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理机上运行,但任一个时刻点上只有一个程序在处理机上运行。

嗯,字认识,但是连在一起就有点够呛,哈哈,开个玩笑。

我们通过几个例子来较为深刻的理解一下:

第一个例子

我们用requests 成功请求一个网页,实际上requests做了三件事:

  1. 根据链接、参数登组合成一个请求
  2. 把这个请求发往要爬取的网站,等待网站响应
  3. 网站响应后,把结果包装成一个响应对象方便我们使用

 从上面的图中我们可以看出,步骤2花费的时间是最长的,取决于被爬虫网站的性能,这个时间可能达到几十到几百毫秒。相比之下,步骤1、3可能只需要1毫秒左右的时间,比上面这张图的对比还要夸张。

针对这个程序:步骤2也可以代表程序是空闲的,因为在等待网站的响应,因此代码真正运行的时间很短。

第二个例子

我们连续用requests请求三个网页A、B、C,执行效果如下

 这个相当于把三个请求串行起来执行,他们之间是互相依赖的,A执行完B执行然后C执行,时间上肯定是叠加的。

第三个例子

第一个例子中,顺序必须是1-2-3,因为他们之间是强依赖,但是在第二个例子中,步骤为什么必须是A1-A2-A3-B1-B2-B3-C1-C2-C3呢?B1和A3之间是没有依赖关系的。这个时候我们的并发出现了,步骤如下:

 这张图是什么意思呢?其实就是:在「爬取网页 A」这个过程进行到步骤 2 的时候,程序空闲下来了,这时我们让「爬取网页 B」的步骤 1 开始执行;同样的,「爬取网页 B」的步骤 1 执行完,程序又空闲下来,于是我们安排「爬取网页 C」开始执行。

可以看到,仅仅是利用爬虫等待的时间,爬虫的效率就提升了数倍,当爬取的数据更大的时候,爬虫的效率是不是更加的显著。

并发和多线程

并发的结果看起来确实很好,但是前面例子三的步骤看起来很复杂,我们实际编写代码的时候难道要考虑计算机将事情 A 做得怎么样了,有没有空闲?如果空闲就去做事情 B?想想都头大。

这个时候多线程就派上用场了,这个可是操作系统赋予的最强能力之一。

操作系统提供了两个东西:进程和线程,利用他们两个我们可以轻易的实现并发,而不用去考虑上面头大的问题。

我们来看两个代码

import time
import requests# 假设我们要爬取 30 个网页
urls = ["https://wpblog.x0y1.com/?p=34"] * 30
session = requests.Session()start = time.time()results = []
for url in urls:r = session.get(url)results.append(r.text)end = time.time()
print("花费", end-start, "秒")

然后我们把这个代码用多线程形式改写一下

import time
import requests
from concurrent import futures# 假设我们要爬取 30 个网页
urls = ["https://wpblog.x0y1.com/?p=34"] * 30
executor = futures.ThreadPoolExecutor(max_workers=5)
session = requests.Session()start = time.time()fs = []
for url in urls:f = executor.submit(session.get, url)fs.append(f)futures.wait(fs)
result = [f.result().text for f in fs]
end = time.time()
print("花费", end-start, "秒")

大家可以在自己电脑上运行下,下面的运行时间比上面的运行时间缩短好几倍。

代码详解

针对上面改写的代码,我们做个详细的分析解读:

初始化一个线程池

# 导入 concurrent.futures 这个包
from concurrent import futures# 初始化一个线程池,最大的同时任务数是 5
executor = futures.ThreadPoolExecutor(max_workers=5)

concurrent是python自带的库,这库具有线程池和进程池、管理并行编程任务、处理非确定性的执行流程、进程、线程同步等功能。

线程 池限制了最多同时运行的线程数。比如说我们初始化一个最大任务数为5的线程池,这样使我们提交了100个任务到这个池子里,同时运行的也只有5个,因此代码中max_workers=5的作用就是这个。

提交任务到线程池

fs = []
for url in urls:# 提交任务到线程池f = executor.submit(session.get, url)fs.append(f)

executor是我们刚刚初始化的线程池,调用了executor的submit()方法往里面提交任务。第一个参数session.get是提交要运行的函数,第二个url是提交的函数运行时的参数。

executor.submit()方法会返回一个返回值,其是一个future对象,我们把他赋值给变量f。

future对象是什么

future 这个单词的原意是 未来。在并发编程的领域,future 对象这个东西通常保存着函数调用完成时的结果。

我们结合实例再试着理解一遍。

比如在上面我们告诉线程池,要调用 session.get 方法,参数为 url。如果线程池还没满,程序就启动一个线程开始执行它;如果线程池满了,就等待有任务完成被挪出线程池,再把这个任务放到那个线程上运行。

但是我们不知道 session.get(url) 在多久之后被完成,那我们要的结果保存在什么地方呢?答案就是 future 对象。如果某一个任务已经完成,那么通过这个任务被提交时返回给我们的 future 对象,就可以拿到这个任务的结果。

等待代码全部完成

# 等待这些任务全部完成
futures.wait(fs)

fs 是保存了上面所有任务的 future 对象的列表,futures.wait() 方法可以等待直到 fs 里面所有的 future 对象都有结果为止。

获取所有任务的结果

# 获取任务的结果
result = [f.result().text for f in fs]

fs是保存了上面所有任务的future对象的列表,我们遍历所有任务的future对象,调用future对象的result()方法,就能得到任务的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/877002.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

滞回比较器工作原理,应用,TINA仿真

滞回比较器 滞回比较器的主要应用是增加滞回控制,让其对微小的变化不那么敏感,增强抗干扰能力,避免由噪声引起的不稳定状态,通常用于噪声环境下的阈值检测以及信号调理。根据不同需求,滞回比较器还可以设计成开漏极输出…

Redis的使用场景——热点数据缓存

热点数据缓存 Redis的使用场景——热点数据的缓存 1.1 什么是缓存 为了把一些经常访问的数据,放入缓存中以减少对数据库的访问效率,从而减少数据库的压力,提高程序的性能。【在内存中存储】 1.2 缓存的原理 查询缓存中是否存在对应的数据如…

[240728] Wikidata 介绍 | 微软与 Lumen 合作提升人工智能算力

目录 Wikidata 介绍微软与 Lumen 合作提升人工智能算力 Wikidata 介绍 中文: 文言: 粤语: 来源: https://www.wikidata.org/wiki/Wikidata:Introduction/zh 微软与 Lumen 合作提升人工智能算力 为了满足人工智能工作负载不断增长的需求&am…

从零开始写 Docker(十九)---增加 cgroup v2 支持

本文为从零开始写 Docker 系列第十九篇,添加对 cgroup v2 的支持。 完整代码见:https://github.com/lixd/mydocker 欢迎 Star 推荐阅读以下文章对 docker 基本实现有一个大致认识: 核心原理:深入理解 Docker 核心原理&#xff1a…

微软蓝屏”事件暴露了网络安全哪些问题?

📢博客主页:https://blog.csdn.net/2301_779549673 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! 📢本文由 JohnKi 原创,首发于 CSDN🙉 📢未来很长&#…

cadence SPB17.4 - allegro - 设置不同网络之间的距离规则

文章目录 cadence SPB17.4 - allegro - 设置不同网络之间的距离规则概述笔记END cadence SPB17.4 - allegro - 设置不同网络之间的距离规则 概述 插座进来的管脚,可能带来高压(有可能用户接错,或者出现浪涌,或者做ESD静电测试&a…

SpringBoot热部署重启关闭(DevTools)

一、DevTools依赖 1、DevTools简介 在Spring Boot项目中,spring-boot-devtools模块提供了多种开发时的便利功能,其中最显著的是restart和livereload特性,它们分别用于应用代码的热重启和前端资源的即时重载。 devtools依赖: &l…

如何在调整节拍时间的过程中保持生产流程的稳定性?

在快节奏的工业生产领域,节拍时间(Takt Time)——即完成一个完整产品所需的标准时间,是维持生产效率和流程稳定性的关键指标。然而,市场需求的波动、技术升级或是生产线的微调,都可能要求我们对节拍时间进行…

Redis-主从模式

目录 前言 一.主从节点介绍 二.配置redis主从结构 二.主从复制 四.拓扑结构 五.数据同步 全量复制(Full Sync Replication) 局部复制(Partial Replication) Redis的学习专栏:http://t.csdnimg.cn/a8cvV 前言 …

docker安装phpMyAdmin

直接安装phpMyAdmin需要有php环境,比较麻烦,总结了使用docker安装方法,并提供docker镜像。 1.docker镜像 见我上传的docker镜像:https://download.csdn.net/download/taotao_guiwang/89595177 2.安装 1).加载镜像 docker load …

AC/DC和DC/DC开关电源的传导和辐射原理

电磁干扰(EMI)始终是开关电源(AC/DC和DC/DC转换器)的潜在问题。如今的电源有很好的电磁发射和抗干扰的能力。但为了满足特定的应用要求,仍要有正确的滤波电路以确保满足标准的要求。 基于AC/DC和DC/DC电源模块的很佳EM…

CentOS7使用yum安装MySQL

废话不多说,直接上干货 1、CentOS7的yum源中默认是没有mysql的,我们先下载mysql的repo源 wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm 2、安装mysql-community-release-el7-5.noarch.rpm包 sudo rpm -ivh mysql-community-r…

商城购物系统

下载在最后 技术栈: ssmmysqljsp 展示: 下载地址: CSDN现在上传有问题,有兴趣的朋友先收藏.正常了贴上下载地址 备注:

Hbase简介和快速入门

一 Hbase简介 1 HBase定义 Apache HBase™ 是以hdfs为数据存储的,一种分布式、可扩展的NoSQL数据库。 2 HBase数据模型 HBase的设计理念依据Google的BigTable论文,论文中对于数据模型的首句介绍。Bigtable 是一个稀疏的、分布式的、持久的多维排序map…

Idea常用快捷键:设置自动导包

Idea设置自动导包 【File】→【Setting】(或使用快捷键【Crlt Shift S】)打开Setting设置。点击【Editor】→【General】→【Auto Import】。勾选自定导包的选项,并确定,如下: Addunambiguousimportsonthefly:添加明确的导入 …

长上下文语言模型与RAPTOR 方法

在科技领域的前沿,长上下文语言模型(Long Context LLMs)和新兴检索方法如RAPTOR 正在引发广泛关注。本文将围绕这些技术展开讨论,并探讨它们在实际应用中的创新性和科技性。 长上下文语言模型的崛起 近几周来,随着新型…

基于springboot+vue+uniapp的戏曲文化苑小程序

开发语言:Java框架:springbootuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包&#…

Java两表查询的方法(一对一,一对多,多对多)

一、配置环境&#xff1a; 首先我们需要Maven环境; 源码&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"…

yandex图标点选验证码YOLOV8识别案例

注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路 如有侵犯,请联系作者下架 某yandex图标点选验证码如下: 使用过yolov8的小伙伴可能都知道,这种直接打个标注,基本上就可以了,至于问题图片由于不能很好的切割做分类,所以干脆也做成目标…

基于图卷积神经网络(GCN)的高光谱图像分类详细教程(含python代码)

目录 一、背景 二、基于卷积神经网络的代码实现 1、安装依赖库 2、建立图卷积神经网络 3、建立数据的边 4、训练模型 5、可视化 三、项目代码 一、背景 图卷积神经网络&#xff08;Graph Convolutional Networks, GCNs&#xff09;在高光谱图像分类中是一种有效的方法…