深入探究Python多进程编程:Multiprocessing模块基础与实战【第98篇—Multiprocessing模块】

深入探究Python多进程编程:Multiprocessing模块基础与实战

在Python编程中,多进程处理是一项关键的技术,特别是在需要处理大规模数据或执行耗时任务时。为了充分利用多核处理器的优势,Python提供了multiprocessing模块,使得并行编程变得更加容易。本文将深入探讨multiprocessing模块的基础知识,并通过实际代码示例演示其在解决实际问题中的应用。

image-20240224234012221

多进程编程基础

在了解multiprocessing模块之前,我们先来了解一下进程的基本概念。进程是计算机中运行的程序的实例,它拥有独立的内存空间和系统资源。相比于多线程,多进程更容易实现并行处理,因为每个进程都有自己的解释器和全局解释器锁(GIL)。

multiprocessing模块提供了Process类,用于创建和管理进程。以下是一个简单的示例,演示如何使用Process创建并启动两个进程:

from multiprocessing import Process
import osdef print_process_info():print(f"Process ID: {os.getpid()}")print(f"Parent Process ID: {os.getppid()}")if __name__ == "__main__":# 创建两个进程process1 = Process(target=print_process_info)process2 = Process(target=print_process_info)# 启动进程process1.start()process2.start()# 等待两个进程结束process1.join()process2.join()

在这个例子中,我们定义了一个简单的函数print_process_info,该函数用于输出当前进程的ID和父进程的ID。然后,我们创建了两个Process对象,分别代表两个进程,并使用start()方法启动它们。最后,使用join()方法等待两个进程执行完毕。

实战:使用多进程进行数据处理

现在,让我们通过一个实际的例子来展示multiprocessing模块在数据处理中的应用。假设我们有一个需要处理的大型数据集,我们希望通过多进程并行处理来提高处理速度。

from multiprocessing import Pooldef process_data(data_chunk):# 在这里进行数据处理,这里仅作为示例,实际中需要根据具体需求进行修改processed_data = [item * 2 for item in data_chunk]return processed_dataif __name__ == "__main__":# 模拟一个大型数据集data = list(range(1000000))# 定义进程池,指定进程数量num_processes = 4with Pool(num_processes) as pool:# 将数据分割成多个子集,每个子集交给一个进程处理data_chunks = [data[i:i + len(data) // num_processes] for i in range(0, len(data), len(data) // num_processes)]# 使用进程池并行处理数据processed_results = pool.map(process_data, data_chunks)# 合并处理后的结果final_result = [item for sublist in processed_results for item in sublist]# 打印处理后的数据print(final_result[:10])

在这个例子中,我们使用Pool类创建了一个进程池,指定了进程的数量。然后,我们将大型数据集分割成多个子集,每个子集由一个进程处理。使用pool.map()方法并行处理这些子集,最后合并各个进程的处理结果。

代码解析

  • Pool类:进程池的创建和管理类,通过指定进程数量,可以实现并行处理。
  • map()方法:类似于内置函数map(),但是在多进程环境中运行。它将一个可迭代对象分割成多个部分,每个部分由一个进程处理。

通过上述代码解析,我们可以看到multiprocessing模块的核心概念是创建进程、使用进程池并行处理数据。这使得在处理大规模数据时,能够充分利用多核处理器的性能,提高程序的执行效率。

总结起来,multiprocessing模块为Python程序员提供了一种简便而强大的多进程处理方式,通过灵活运用这些工具,我们能够更好地解决涉及大规模数据处理或计算密集型任务的问题。

进程间通信与共享数据

在多进程编程中,不同进程之间通常是相互独立的,但有时候我们需要让它们进行通信或共享数据。multiprocessing模块提供了多种方式来实现进程间通信:

1. 队列(Queue)

队列是多进程之间安全地传递数据的一种方式。以下是一个简单的例子:

from multiprocessing import Process, Queuedef producer(queue):for item in range(5):queue.put(item)def consumer(queue):while True:item = queue.get()if item is None:breakprint(f"Consumed: {item}")if __name__ == "__main__":shared_queue = Queue()# 创建生产者和消费者进程producer_process = Process(target=producer, args=(shared_queue,))consumer_process = Process(target=consumer, args=(shared_queue,))# 启动进程producer_process.start()consumer_process.start()# 等待生产者生产完数据producer_process.join()# 告诉消费者不再有数据shared_queue.put(None)# 等待消费者消费完数据consumer_process.join()
2. 共享内存(Value、Array)

有时候我们需要在多个进程之间共享数据,multiprocessing模块提供了ValueArray来实现这一目的:

from multiprocessing import Process, Value, Arraydef update_shared_data(shared_value, shared_array):shared_value.value += 1for i in range(len(shared_array)):shared_array[i] *= 2if __name__ == "__main__":shared_value = Value('i', 0)  # 整数shared_array = Array('d', [1.0, 2.0, 3.0, 4.0])  # 双精度浮点数组update_process = Process(target=update_shared_data, args=(shared_value, shared_array))update_process.start()update_process.join()print(f"Updated Value: {shared_value.value}")print(f"Updated Array: {list(shared_array)}")

异常处理与资源管理

在多进程编程中,异常处理和资源管理尤为重要。我们需要确保进程在执行过程中的异常能够被捕获,并在进程结束时释放资源。使用tryexcept块以及finally块来实现异常处理和资源管理。

from multiprocessing import Process, Queuedef process_with_exception(queue):try:# 进程执行的代码result = 1 / 0  # 触发一个异常queue.put(result)except Exception as e:# 捕获异常,并将异常信息放入队列queue.put(e)finally:# 释放资源等清理工作print("Clean up and release resources.")if __name__ == "__main__":shared_queue = Queue()process = Process(target=process_with_exception, args=(shared_queue,))process.start()process.join()# 从队列获取进程执行的结果或异常信息result_or_exception = shared_queue.get()print(f"Result or Exception: {result_or_exception}")

性能优化与注意事项

在使用multiprocessing模块进行多进程编程时,为了充分发挥其优势,我们需要注意一些性能优化的技巧和注意事项。

1. 进程池的重用

进程池(Pool)的创建和销毁是有开销的,为了避免频繁创建进程池,可以考虑在程序的生命周期内重用进程池。这可以通过将进程池的创建放在程序的初始化部分,并在程序结束时关闭进程池来实现。

from multiprocessing import Pooldef process_data(data_chunk):# 数据处理逻辑if __name__ == "__main__":num_processes = 4with Pool(num_processes) as pool:# 在整个程序生命周期内重用进程池data_chunks = [...]results = pool.map(process_data, data_chunks)# 进程池会在程序结束时自动关闭
2. 避免过多的进程创建

尽管多进程可以提高程序的并行性,但过多的进程创建也会导致系统资源的消耗和性能下降。在确定进程数量时,需要根据系统的核心数和任务的性质进行合理的选择。可以通过os.cpu_count()获取系统的核心数,并根据具体情况调整进程数量。

import os
from multiprocessing import Pooldef process_data(data_chunk):# 数据处理逻辑if __name__ == "__main__":num_processes = min(os.cpu_count(), 8)  # 最多使用8个核心with Pool(num_processes) as pool:# 进程池的使用逻辑
3. 注意数据的序列化与反序列化开销

在多进程编程中,数据需要在进程之间传递,而这涉及到数据的序列化和反序列化。不同的数据类型和序列化方式会对性能产生影响,因此在选择数据传递方式时需要注意。对于大型数据集,可以考虑使用multiprocessing模块中的Manager类来创建共享的数据结构,以避免不必要的数据复制。

from multiprocessing import Manager, Pooldef process_data(shared_data):# 在多进程中直接使用共享的数据结构if __name__ == "__main__":with Manager() as manager:shared_data = manager.list([...])  # 使用Manager创建共享的列表num_processes = 4with Pool(num_processes) as pool:pool.map(process_data, [shared_data] * num_processes)

跨平台兼容性

multiprocessing模块在大多数平台上都能正常运行,但在一些特殊的情况下可能会遇到一些问题。特别是在Windows系统上,由于其进程创建的机制不同,一些全局变量和共享资源的使用可能需要格外小心。建议在跨平台开发中进行充分的测试和调试,确保程序在不同平台上都能正常运行。

安全性与锁

多进程编程涉及到多个进程同时访问共享资源的情况,因此需要考虑安全性和避免竞争条件。multiprocessing模块提供了锁(Lock)等同步原语,可以用来确保在多个进程之间安全地访问共享资源。

from multiprocessing import Lock, Processshared_value = 0
lock = Lock()def update_shared_value():global shared_valuefor _ in range(100000):with lock:shared_value += 1if __name__ == "__main__":processes = [Process(target=update_shared_value) for _ in range(4)]for process in processes:process.start()for process in processes:process.join()print(f"Final Shared Value: {shared_value}")

在上述例子中,通过Lock确保了对shared_value的安全访问。每个进程在执行更新操作时,都需要先获取锁,更新完成后释放锁,以防止多个进程同时修改共享资源导致的问题。

调试和日志记录

在多进程编程中,由于多个进程同时运行,调试可能会变得更加复杂。为了更好地定位问题,可以使用logging模块来记录日志,以及适当的调试工具。同时,了解进程间通信的机制,以便在有需要时获取进程的状态信息。

import logging
from multiprocessing import Processdef worker_function():logging.info("Worker process is starting.")# 进程执行的代码logging.info("Worker process is finishing.")if __name__ == "__main__":logging.basicConfig(level=logging.INFO)process = Process(target=worker_function)process.start()process.join()

在上述例子中,我们使用了logging模块记录了进程的启动和结束信息。通过适当设置日志级别,可以灵活控制记录的信息量。

异步与多进程

在一些特定的场景中,异步编程可能比多进程更为适用。异步编程通过单线程实现并发,可以有效提高程序的性能。在Python中,asyncio库提供了异步编程的支持。但需要注意,异步编程适用于I/O密集型任务,而多进程适用于计算密集型任务。

import asyncioasync def async_worker():# 异步任务await asyncio.sleep(1)print("Async worker finished.")if __name__ == "__main__":asyncio.run(async_worker())

避免全局变量的滥用

全局变量在多进程编程中可能引发一些问题,尤其是在涉及到进程间通信时。由于每个进程拥有独立的地址空间,全局变量的修改在不同进程中并不互相影响。在需要共享数据时,应使用multiprocessing模块提供的共享数据结构。

from multiprocessing import Value, Processshared_value = Value('i', 0)def update_shared_value():global shared_valuewith shared_value.get_lock():shared_value.value += 1if __name__ == "__main__":processes = [Process(target=update_shared_value) for _ in range(4)]for process in processes:process.start()for process in processes:process.join()print(f"Final Shared Value: {shared_value.value}")

在上述例子中,通过Valueget_lock()方法获取锁,确保对共享数据的安全访问。

子进程的异常处理

当子进程发生异常时,可以通过Processexitcode属性获取其退出码。一般而言,非0的退出码表示进程异常退出。

from multiprocessing import Process
import timedef process_with_exception():time.sleep(1)raise Exception("Something went wrong!")if __name__ == "__main__":process = Process(target=process_with_exception)process.start()process.join()if process.exitcode == 0:print("Process executed successfully.")else:print(f"Process exited with code {process.exitcode}")

总结:

本文深入探讨了Python中多进程编程的基础知识,以及如何使用multiprocessing模块解决实际问题。通过详细的代码示例,读者了解了如何创建和管理进程、利用进程池进行数据处理、实现进程间通信和共享数据。同时,介绍了性能优化、跨平台兼容性、异常处理与资源管理等方面的注意事项,帮助读者更好地应用多进程编程。

文章强调了进程池的重用、避免过多的进程创建、注意数据的序列化与反序列化开销等性能优化技巧。跨平台兼容性、安全性与锁的考虑以及调试和日志记录等内容也被详细讨论。此外,文章还提及了异步编程与多进程的比较,以及在多进程编程中避免全局变量滥用的重要性。

最后,通过总结子进程的异常处理等关键点,强调了在多进程编程中需要注意的一些细节。通过合理运用文章中提到的知识点,读者可以更高效地应对多进程编程中的挑战,提高程序性能和可维护性。希望本文能够帮助读者更深入地理解和应用Python中的多进程编程技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/701060.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu20.04和Windows11下配置StarCraft II环境

1.Ubuntu20.04 根据下面这篇博客就可以顺利安装: 强化学习实战(九) Linux下配置星际争霸Ⅱ环境https://blog.csdn.net/weixin_39059031/article/details/117247635?spm1001.2014.3001.5506 Ubuntu下显示游戏界面目前还没有解决掉。 大家可以根据以下链接看看能…

高速DRAM的training

随着每一代接口(Interface)和存储(memory)的频率和速率的提高,信号采样以及传输变得越来越困难,因为数据眼(data eyes)越来越小。 为了帮助高速 I/O 握手,接口和存储支持越来越多的Training Modes,系统设计人员必须将这些Trainin…

联想开天昭阳N4620Z笔记本如何恢复出厂麒麟操作系统(图解)

联想开天昭阳N4620Z笔记本简单参数: 中央处理器:KX-6640MA G2 内存:8GB 固态硬盘:512GB SSD 显示器:14.0”FHD 电池:4Cell 操作系统:麒麟KOS中文RTM(试用版) 此款笔…

黑马JavaWeb开发跟学(一)Web前端开发HTML、CSS基础

黑马JavaWeb开发一.Web前端开发HTML、CSS基础 引子、Web开发介绍传统路线本课程全新路线本课程适用人群课程收获一、什么是web开发二、网站的工作流程三、网站的开发模式四、网站的开发技术 前端开发基础一、前端开发二、HTML & CSS2.1 HTML快速入门2.1.1 操作第一步第二步…

​Sqli-labs靶场第9关详解[Sqli-labs-less-9]

Sqli-labs-Less-9 前言: SQL注入的三个条件: ①参数可控;(从参数输入就知道参数可控) ②参数过滤不彻底导致恶意代码被执行;(需要在测试过程中判断) ③参数带入数据库执行。&#…

Linux---进程间通信(下)

1、System V 共享内存 原理如下图 系统调用接口介绍 int shmget(key_t key, size_t size, int shmflg) 功能:用来创建共享内存 参数 key:这个共享内存段名字,内核用key来标识共享内存size:共享内存大小shmflg:由九个权…

AMRT3D数字孪生引擎详解

AMRT 3D数字孪生引擎介绍 AMRT3D引擎是一款融合了眸瑞科技的AMRT格式与轻量化处理技术为基础,以降本增效为目标,支持多端发布的一站式纯国产自研的CS架构项目开发引擎。 引擎包括场景搭建、UI拼搭、零代码交互事件、光影特效组件、GIS/BIM组件、实时数据…

矩阵的导数运算(理解分子布局、分母布局)

矩阵的导数运算(理解分子布局、分母布局) 1、分子布局和分母布局 请思考这样一个问题,一个维度为m的向量y对一个标量x的求导,那么结果也是一个m维的向量,那么这个结果向量是行向量,还是列向量呢? 答案是&#xff1a…

Spring及工厂模式概述

文章目录 Spring 身世什么是 Spring什么是设计模式工厂设计模式什么是工厂设计模式简单的工厂设计模式通用的工厂设计 总结 在 Spring 框架出现之前,Java 开发者使用的主要是传统的 Java EE(Java Enterprise Edition)平台。Java EE 是一套用于…

《Docker 简易速速上手小册》第3章 Dockerfile 与镜像构建(2024 最新版)

文章目录 3.1 编写 Dockerfile3.1.1 重点基础知识3.1.2 重点案例:创建简单 Python 应用的 Docker 镜像3.1.3 拓展案例 1:Dockerfile 优化3.1.4 拓展案例 2:多阶段构建 3.2 构建流程深入解析3.2.1 重点基础知识3.2.2 重点案例:构建…

港科夜闻|香港科大计划建立北部都会区卫星校园完善科大创新带,发展未来创新科技 未来医药发展及跨学科教育...

关注并星标 每周阅读港科夜闻 建立新视野 开启新思维 1、香港科大计划建立北部都会区卫星校园完善“科大创新带”,发展未来创新科技、未来医药发展及跨学科教育。香港科大校长叶玉如教授在2月22日的媒体会议上表示,香港科大将在北部都会区建立卫星校园&a…

open3d KD-Tree K近邻点搜索

open3d KD-Tree K近邻点搜索 一、算法原理1.KD-Tree 介绍2.原理 二、代码三、结果1.原点云2.k近邻点搜索后的点云 四、相关数据 一、算法原理 1.KD-Tree 介绍 kd 树或 k 维树是计算机科学中使用的一种数据结构,用于在具有 k 维的空间中组织一定数量的点。它是一个…

【Spring MVC】处理器映射器:AbstractHandlerMethodMapping源码分析

目录 一、继承体系 二、HandlerMapping 三、AbstractHandlerMapping 四、AbstractHandlerMethodMapping 4.1 成员属性 4.1.1 MappingRegistry内部类 4.2 AbstractHandlerMethodMapping的初始化 4.3 getHandlerInternal()方法:根据当前的请求url,…

从git上clone项目到本地后启动时的一种报错

当我们从git上拉项目到本地之后,先install,但启动时可能会出现报错,例如上面这种报错,这时候我们需要把package.json里的vite改一下,例如改成2.6.13,之后删掉node_modules,重新install,再启动一下,就好了。…

OT 安全解决方案:探索技术

IT 和 OT 安全的融合:更好的防御方法 OT 安全解决方案下一个时代: 为了应对不断升级的威胁形势,组织认识到迫切需要采用统一的信息技术 (IT) 和运营技术 (OT) 安全方法。IT 和 OT 安全的融合代表了一种范式转变,承认这些传统孤立领…

音频smmu问题之smmu学习

一、音频smmu 内存访问问题 在工作中,遇到一个smmu问题,主要log信息如下: arm-smmu 15000000.apps-smmu: Unhandled arm-smmu context fault from soc:spf_core_platform:qcom,msm-audio-ion! arm-smmu 15000000.apps-smmu: FAR 0x0000000…

什么是负载均衡集群?

目录 1、集群是什么? 2、负载均衡集群技术 3、负载均衡集群技术的实现 4、实现效果如图 5、负载均衡分类 6、四层负载均衡(基于IP端口的负载均衡) 7、七层的负载均衡(基于虚拟的URL或主机IP的负载均衡) 8、四层负载与七层…

(3)(3.6) 用于OpenTX的Yaapu遥测脚本

文章目录 前言 1 安装和操作 2 参数说明 前言 这是一个开源 LUA 脚本,用于在使用 OpenTX 2.2.3 的 Horus X10、X12、Jumper T16、T18、Radiomaster TX16S、Taranis X9D、X9E、QX7 和 Jumper T12 无线电设备上显示 FrSky 的直通遥测数据(FrSky passthrough telem…

Linux配置jdk、tomcat、mysql离线安装与启动

目录 1.jdk安装 2.tomcat的安装(开机自启动) 3.MySQL的安装 4.连接项目 1.jdk安装 上传jdk安装包 jdk-8u151-linux-x64.tar.gz 进入opt目录,将安装包拖进去 解压安装包 这里需要解压到usr/local目录下,在这里我新建一个文件夹…

【Vue3】学习computed计算属性

💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢…