Python并发之道:解锁`concurrent.futures`模块的秘密

引言

concurrent.futures模块是Python标准库的一部分,它提供了高层次的接口来执行异步操作。与传统的多线程或多进程编程相比,使用concurrent.futures可以更加简单、高效地管理并行任务。无论是对于初学者还是有经验的开发者来说,掌握这个模块都将极大地提高你处理并发任务的能力。

基础语法介绍

核心概念

在开始之前,我们需要了解几个关键的概念:

  • Executor(执行器):负责管理和执行提交的任务。
  • Future(未来):表示一个尚未完成的任务的结果。可以通过调用.result()方法来获取结果。
  • submit():向执行器提交一个函数以供执行。
  • map()as_completed():前者用于批量提交任务,并按顺序返回结果;后者则可以随时检查任务状态,适用于那些对结果顺序没有要求的情况。

基本语法规则

from concurrent import futuresdef some_function(x):# 函数体return resultwith futures.ThreadPoolExecutor(max_workers=5) as executor:future = executor.submit(some_function, argument)print(future.result())

这里创建了一个线程池,其中max_workers参数定义了同时运行的最大线程数量。通过executor.submit()方法提交任务后,我们可以使用.result()方法等待任务完成并获取其结果。

基础实例

假设我们现在有一个需求:需要计算多个大文件的哈希值。手动处理不仅耗时,而且容易出错。这时,concurrent.futures就能派上用场了。

import hashlib
from concurrent import futuresdef calculate_hash(filename):"""计算给定文件的SHA256哈希值"""sha256 = hashlib.sha256()with open(filename, 'rb') as f:while True:chunk = f.read(4096)if not chunk:breaksha256.update(chunk)return sha256.hexdigest()filenames = ['file1.txt', 'file2.txt', 'file3.txt']with futures.ThreadPoolExecutor() as executor:results = list(executor.map(calculate_hash, filenames))print(results)

这段代码展示了如何使用ThreadPoolExecutor并发地计算多个文件的哈希值。通过executor.map()方法,我们可以轻松实现并行处理,极大地提高了计算速度。

进阶实例

在实际工作中,我们可能会遇到更复杂的情况,比如需要根据每个任务的状态做出不同的响应。这时候,as_completed()函数就显得尤为重要了。

from time import sleepdef task_with_delay(seconds):sleep(seconds)return secondstasks = [3, 1, 2]with futures.ThreadPoolExecutor() as executor:all_futures = {executor.submit(task_with_delay, t): t for t in tasks}for future in futures.as_completed(all_futures):print(f"Task took {all_futures[future]} seconds")

此示例中,我们创建了一系列带有不同延迟的任务。通过futures.as_completed(),可以实时监控各个任务的进度,并在每个任务完成后立即打印相关信息。

实战案例

接下来,让我们看看一个真实的场景——使用concurrent.futures模块来优化一个Web爬虫的性能。假设我们需要从多个网站抓取数据,但每个网站都有自己的访问限制,如果频繁请求可能会导致IP被封禁。此时,合理安排并发请求的数量就显得尤为关键了。

import requests
from concurrent import futuresdef fetch_url(url):try:response = requests.get(url, timeout=5)response.raise_for_status()return len(response.text)except Exception as e:print(f"Failed to fetch {url}: {e}")return Noneurls = ["http://example.com", "http://example.org", "http://example.net"]with futures.ThreadPoolExecutor(max_workers=5) as executor:results = list(executor.map(fetch_url, urls))for url, size in zip(urls, results):print(f"{url} is {size} bytes long")

在这个例子中,我们限制了最大并发数为5,这样即使面对严格的访问限制也能保证不会因为请求过于密集而导致问题。同时,通过使用executor.map(),我们可以确保所有URL都被有效地处理,并且结果会按照原始URL的顺序返回。

扩展讨论

虽然concurrent.futures模块已经非常强大,但在某些特定情况下,可能还需要考虑其他并发模型,比如基于事件循环的异步编程(如asyncio)。此外,在处理长时间运行的任务或资源密集型操作时,还应该注意线程和进程之间的权衡。例如,当执行大量CPU密集型工作时,通常推荐使用ProcessPoolExecutor代替ThreadPoolExecutor,因为前者可以绕过全局解释器锁(GIL),从而更好地利用多核处理器的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/55259.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

传统操作系统和分布式操作系统的区别

分布式操作系统和传统操作系统之间的区别,根植于它们各自的设计哲学和目标。要理解这些差异,需要从操作系统的基本定义、结构、功能以及它们在不同计算环境中的表现进行分析。每种系统都试图解决特定的计算挑战,因此在不同的使用场景下具有各…

C++的6种构造函数

在 C 中,构造函数是一种特殊的成员函数,用于初始化类对象。在对象创建时自动调用,构造函数的主要作用是分配资源、初始化数据成员等。根据不同的功能和使用场景,C 提供了多种类型的构造函数: 1. 默认构造函数 (Defaul…

【MySQL】视图、用户和权限管理

目录 视图创建视图数据修改影响删除视图视图优点 用户和权限管理查看当前的数据库拥有用户信息创建用户修改密码删除用户权限授权回收权限 视图 视图就是相当于创建一个表,将查询到的结果集给存储起来。像使用复杂的多表查询查询到的结果集就不可以对结果集操作。而…

揭秘网络钓鱼:如何识破并防范这场数字时代的诈骗游戏

网络钓鱼是一种网络攻击,它利用伪装的电子邮件欺骗收件人提供信息、下载恶意软件或采取其他期望的行动。 网络钓鱼是网络害虫,自20世纪90年代初从暗网出现以来,至今仍危害全球。根据SlashNext的报告,2023年平均每天有31,000次网络…

SpringCloud 2023 LoadBalancer介绍、使用、获取服务列表原理、负载均衡算法

目录 1. 介绍2. 使用3 获取服务列表原理4. 负载均衡算法 1. 介绍 功能: 提供客户端的负载均衡算法,将请求均摊到多个服务器上。属于客户端负载均衡(Nginx属于服务端负载均衡),会将服务列表缓存到JVM本地,然后客户端自己选择请求服务器支持S…

头戴式耳机性价比排名怎样?头戴式耳机性价比之王推荐!

在音频设备日益普及的今天,头戴式耳机因其出色的音质和舒适的佩戴体验,成为了许多音乐爱好者和游戏玩家的首选。然而,很多人比较关心的是头戴式耳机性价比排名怎样?依据这一排名来进行选购,今天就给大家带来头戴式耳机…

使用TiDB企业版Lightning导入ORC文件到TiDB

作者: 数据源的TiDB学习之路 原文来源: https://tidb.net/blog/818f84f0 TiDB Lightning 是用于从静态文件导入 TB 级数据到 TiDB 集群的工具,常用于 TiDB 集群的初始化数据导入。在开源社区版本中,TiDB Lightning 支持以下文件…

python并发编程实战

python并发编程有三种 多线程Thread多进程Process多协程Coroutine cpu密集型计算 cpu密集型也叫计算密集型,是指I/O在很短的时间就可以完成,cpu需要大量的计算处理,特点是cpu占用率相当高 例如:压缩解压缩、加密解密、正则表达…

你知道吗?这四种关机重启情况,有更好解决办法

一、太长不看: 给4G模组VBAT断电关机,模组关机前未能及时退出当前基站,会有什么影响呢? 基站会误以为设备还在线,下次开机仍会拿着上次驻网信息去连基站。基站一看,上次链接还在——认为你是非法设备&…

天线工作原理:【图文讲解】

在信息传输过程中,我们习惯了PCB线路,线揽等,这些有线连接传输方式,而天线这个无线的传输方式相对不是那么好理解。但它确实在实际应用中,占据了很重要的位置。你有多久没有用有线电话了?(20年前…

gateway--网关

在微服务架构中,Gateway(网关)是一个至关重要的组件,它扮演着多种关键角色,包括路由、负载均衡、安全控制、监控和日志记录等。 Gateway网关的作用 统一访问入口: Gateway作为微服务的统一入口&#xff0c…

MySQL - 运维篇

一、日志 1. 错误日志 2. 二进制日志 3. 查询日志 记录了所有的增删改查语句以及DDL语句 4. 慢查询日志 二、主从复制 1. 概述 2. 原理 3. 搭建 三、分库分表 1. 介绍 2. Mycat概述 3. Mycat入门 4. Mycat配置 5. Mycat分片 6. Mycat管理及监控 四、读写分离 1. 介绍 2. 一…

B3621 枚举元组

1.递归的具体过程&#xff0c;一个dfs1&#xff0c;产生3个dfs2&#xff0c;一个dfs2产生3个dfs3&#xff0c;一共输出9个&#xff08;用n2&#xff0c;k3举例&#xff09; 2.要记得使用return 结束当前递归 #include<bits/stdc.h> using namespace std; int n, k, a[10…

Codeforces Round 976 (Div. 2) and Divide By Zero 9.0(A~E)

A - Find Minimum Operations 思路 对 n n n进行 m m m进制分解&#xff0c;所有位上相加就是答案&#xff08;参考 m 2 m2 m2时&#xff09; 代码 // Problem: A. Find Minimum Operations // Contest: Codeforces - Codeforces Round 976 (Div. 2) and Divide By Zero 9…

大数据实时数仓Hologres(三):存储格式介绍

文章目录 存储格式介绍 一、格式 二、使用建议 三、技术原理 1、列存 2、行存 3、行列共存 四、使用示例 存储格式介绍 一、格式 在Hologres中支持行存、列存和行列共存三种存储格式&#xff0c;不同的存储格式适用于不同的场景。在建表时通过设置orientation属性指…

云计算 Cloud Computing

文章目录 1、云计算2、背景3、云计算的特点4、云计算的类型&#xff1a;按提供的服务划分5、云计算的类型&#xff1a;按部署的形式划分 1、云计算 定义&#xff1a; 云计算是一种按使用量付费的模式&#xff0c;这种模式提供可用的、便捷的、按需的网络访问&#xff0c;进入可…

Java中的五种I/O模型详解

一、阻塞I/O&#xff08;Blocking I/O&#xff09; 1.1 概念 阻塞I/O是最传统的I/O模型。在该模型中&#xff0c;当一个线程执行I/O操作时&#xff0c;如果没有数据可读或可写&#xff0c;线程将会被阻塞&#xff0c;直到I/O操作完成。 1.2 工作原理 当线程调用读取或写入数…

解决nginx+tomcat宕机完美解决方案

问题描述&#xff1a;公司项目太老了&#xff0c;还是tomcat项目&#xff0c;部署两台tomcat,做了nginx负载。最近发现每到上午10&#xff0c;下午3点&#xff0c;tomcat就宕机了&#xff0c;死活找不到原因&#xff0c;客户影响超期差&#xff0c;实在让人头疼。 解决思路&am…

今日指数项目实现个股日K线详情功能

个股日K线详情功能 一. 什么是个股日K线 1.日K线就是将股票交易流水按天分组&#xff0c;然后统计出每天的交易数据&#xff0c;内容包含&#xff1a;日期、股票编码、名称、最高价、最低价、开盘价、收盘价、前收盘价、交易量&#xff1b; 2.需要注意的是这里的收盘价就是指…

MySQL:进阶巩固-存储过程

目录 一、存储过程的概述二、存储过程的基本使用2.1 创建存储过程2.2 使用存储过程2.3 查询指定数据库的存储过程以及状态信息2.4 查看某个存储过程的定义2.5 删除存储过程2.6 案例 三、存储过程的变量设置3.1 系统变量3.2 用户自定义变量3.3 局部变量 四、IF判断五、参数六、C…