使用Ray轻松进行Python分布式计算

大家好,在实际研究中,即使是具有多个CPU核心的单处理器计算机,也会给人一种能够同时运行多个任务的错觉。当我们拥有多个处理器时,就可以真正以并行的方式执行计算,本文将简要介绍Python分布式计算。

1.并行计算与分布式计算的区别

并行计算在现代计算中非常有用,几乎是必需的,目的是实现最大性能。开发者将运行时间较长的计算任务分成较小的块,并将其分配给不同的处理器,这种策略使开发者能够在相同的时间内进行更多的计算。对于构建基于GUI的应用程序,总是需要对系统进行并行设计,以便一个线程可以保持可用状态以更新GUI并响应用户输入。

并行计算和分布式计算的区别在于,对于并行计算,多个处理器位于同一主板上。分布式计算则使用多台计算机同时解决问题,现代分布式系统能够在网络(局域网/广域网)上进行通信。分布式计算的优点在于其价格和可扩展性,如果开发者需要更多的计算能力,那么可以很轻松地添加更多的计算机。

从根本上讲,并行计算和分布式计算的架构非常相似,主要区别在于分布式计算使用的是分布式内存空间,而不是共享内存空间。它具有能够为开发者的应用程序提供统一逻辑(而不是物理)内存空间的软件层,可以帮助开发者将为并行计算编写的代码应用于分布式计算。下面将介绍如何使用开源Python库Ray来帮助开发者进行并行和分布式计算,Ray将Pythonic函数和类转换为分布式设置中的任务和角色。

2.使用pip安装Ray

这将安装支持仪表板+集群启动器的Ray:

pip install 'ray[default]'

如果只想进行最小化安装:

pip install -U ray

3.使用Ray进行并行计算任务

接下来执行一个示例,该示例使用concurrent.futures,并将其与使用ray执行相同任务的运行进行比较。

import time
import concurrent.futuresStime = time.perf_counter()
tasks = []
sleepTimes = [0.1, 0.2, 0.1, 0.5, 0.7, 0.9, 0.5,0.4, 1.5, 1.3, 1.0, 0.3, 0.7, 0.6, 0.3, 0.8]
print(f"Total time of sleep: {sum(sleepTimes)} for {len(sleepTimes)} tasks")def my_awesome_function(sleepTime=0.1):time.sleep(sleepTime)return f"Sleep time {sleepTime}"all_results = []
with concurrent.futures.ProcessPoolExecutor() as executor:tasks = [executor.submit(my_awesome_function, sleep)for sleep in sleepTimes]for ff in concurrent.futures.as_completed(tasks):all_results.append(ff.result())print(f"Finished in {time.perf_counter()-Stime:.2f}")

这将返回:

$ python test_ray.py 
Total time of sleep: 9.9 for 16 tasks 
Finished in 1.65

这项工作在顺序执行时需要9.9秒完成,由于本文执行的是并行执行,因此在示例中只用了1.65秒就完成了这项工作。请注意,这个时间可能因为不同的计算机而有所不同。

现在使用Ray来完成同样的工作。本文首先使用ray.init()初始化Ray,然后装饰器ray.remote将Python函数转换为可以异步远程执行的函数。它会立即返回N个可以并行执行的函数副本。

import time
import rayimport concurrent.futuresStime = time.perf_counter()
tasks = []
sleepTimes = [0.1, 0.2, 0.1, 0.5, 0.7, 0.9, 0.5,0.4, 1.5, 1.3, 1.0, 0.3, 0.7, 0.6, 0.3, 0.8]
print(f"Total time of sleep: {sum(sleepTimes)} for {len(sleepTimes)} tasks")# 初始化Ray。
ray.init()@ray.remote #convert to a function that can be executed remotely and asynchronously
def my_awesome_function(sleepTime=0.1):time.sleep(sleepTime)return f"Sleep time {sleepTime}"tasks = []
for sleep in sleepTimes:tasks.append(my_awesome_function.remote(sleep))all_results = ray.get(tasks)
print(f"Finished in {time.perf_counter()-Stime:.2f}")

这将返回:

Total time of sleep: 9.9 for 16 tasks 
Finished in 3.18

由于存在开销导致一点延迟,但对于大型计算来说,这种延迟可以忽略不计。

4.大规模计算的聚合值

Ray可以轻松地用于聚合多个值,这对于构建需要跨多台机器进行计算的大型应用程序非常重要。对于大规模计算,Ray可以将聚合的运行时间从线性改为对数。

接下来看一个示例:

import time
import ray
import numpy as npStime = time.perf_counter()@ray.remote
def create_matrix(size):return np.random.normal(size=size)@ray.remote
def multiply_matrices(x, y):return np.dot(x, y)@ray.remote
def sum_matrices(x, y):return np.add(x, y)m1 = create_matrix.remote([1000, 1000])
m2 = create_matrix.remote([1000, 1000])
m3 = create_matrix.remote([1000, 1000])
m4 = create_matrix.remote([1000, 1000])m12 = multiply_matrices.remote(m1, m2)
m34 = multiply_matrices.remote(m3, m4)a12_34 =  sum_matrices.remote(m12, m34)## 结果
MM = ray.get(a12_34)print(f"Finished in {time.perf_counter()-Stime:.2f}")

在上面的示例中,本文首先创建了四个矩阵,将它们分为两组,对每组中的矩阵进行乘法运算,然后对每组的乘法结果进行求和。在这里,乘法运算是并行进行的,然后将结果聚合以获得求和结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/182845.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL事务日志

文章目录 1. redo日志 1. redo日志 口述:redo log 日志其实保证了ACID中的持久性,就是说当事务commit后,那么相应的修改呀更新这些操作其实都会记录到redo log中,其实这里的操作还是区别于redis中的aof中,它不是具体的…

文件中找TopK问题

目录 1.解题思路2.创建一个文件并在文件中写入数据3.为什么要建立小堆而不建立大堆?4.如何在现有的数据中建立适合的大堆?5.代码实现 1.解题思路 TopK问题即是在众多数据中找出前K大的值,则可以根据堆的性质来实现,但在使用堆之前…

Guacamole简介及centos7下搭建教程

简介 Guacamole是一款开源的远程桌面框架,它允许用户通过Web浏览器远程访问计算机资源。 官网地址:Apache Guacamole™ 官方文档:Installing Guacamole natively — Apache Guacamole Manual v1.5.3 架构 组件描述客户端浏览器用户通过支…

数据结构 / day02作业

1. 有若干个学校人员的信息,包括学生和教师。 其中学生的数据包括:姓名、性别、职业s/S、分数。 教师的数据包括:姓名、性别、职业t/T、职务。 1,定义指针指向堆区内存 2.循环输入 3.计算老师的个数 4.计算学生的平均值 5.循环输出 6释放堆区空间 #inc…

Jquery中的bind(),live(),delegate(),on()绑定事件方式

bind() 简要描述 bind()向匹配元素添加一个或多个事件处理器。 使用方式 $(selector).bind(event,data,function) event:必需项;添加到元素的一个或多个事件,例如 click,dblclick等; 单事件处理:例如 $(selector).bi…

不同类型的开源许可证

不同类型的开源许可证 什么是开源许可证 最简单的解释是,开源许可证是计算机软件和其他产品的许可证,允许在定义的条款和条件下使用、修改或共享源代码、蓝图或设计。开源并不意味着该软件可以根据需要使用、复制、修改和分发。根据开源许可证的类型&a…

gcp, loki, honeybadger 查看日志 语句

gcp, loki, honeybadger 查看日志 语句 GCP resource.type“cloudsql_database” AND logName:“projects/ebay-mag/logs/cloudsql.googleapis.com%2Fpostgres.log” AND ( textPayload:“[2823409]”) log_name“projects/ebay-mag/logs/cloudsql.googleapis.com%2Fpostgres…

代码随想录算法训练营第四十九天 | 121. 买卖股票的最佳时机,122.买卖股票的最佳时机II

目录 121. 买卖股票的最佳时机 122.买卖股票的最佳时机II 121. 买卖股票的最佳时机 题目链接:121. 买卖股票的最佳时机 比较好想到的是贪心算法,贪心选择价格更低的日子买入,价格更高的日子卖出。 class Solution { public:int maxProfit(vec…

ROS命令行工具

1、roscore 在使用ROS之前,首先要启动roscore进程。当我们在终端中运行这个命令时,系统就会启动ROS Master、参数服务器和日志节点。在这之后,就可以运行任何其他的ROS程序/节点了。所以可以在一个终端窗口运行roscore指令&#…

【unity实战】基于权重的随机事件(附项目源码)

文章目录 前言开始一、简单的使用二、完善各种事件1. 完善生成金币事件2. 完善生成敌人事件敌人3. 完善生成药水事件 最终效果参考源码完结 前言 随机功能和UnityEvent前面其实我们都已经做过了,但是随机UnityEvent事件要怎么使用呢?这里就来举一个例子…

【Linux驱动开发】编译Android12源码+

编译Android12源码 1. 简单描述2. 准备资料3. 编译Android12 1. 简单描述 基于讯为电子rk3568教程 2. 准备资料 rk_android12.0_sdk_20220720.tar.gz 3. 编译Android12 解压 tar -vxf rk_android12.0_sdk_20220720.tar.gz设置屏幕配置 rk_android12.0_sdk/kernel-4.19/ar…

关于src别名的配置之tsconfig.json配置

tsconfig.json {"compilerOptions": {"baseUrl": "./", // 解析非相对模块的基地址,默认是当前目录"paths": { //路径映射,相对于baseUrl"/*": ["src/*"] }} } ① "baseUrl": &…

力扣 226.反转二叉树

目录 1.解题思路2.代码实现 1.解题思路 该题思路很简单,就是利用递归,将每次的root结点的左右树相互交换即可,最后再返回root结点. 2.代码实现 struct TreeNode* invertTree(struct TreeNode* root) { if(rootNULL)return NULL;struct Tree…

由于找不到steam_api64.dll如何修复?steam_api64.dll丢失多种解决方法

steam_api64.dll文件介绍 steam_api64.dll是Steam平台的一个关键组件,主要用于支持Steam客户端和相关游戏的应用程序。这个文件缺失或损坏会导致Steam及相关游戏无法正常运行。它位于Steam安装目录的bin子文件夹中。 steam_api64.dll丢失的原因 系统误删&#xf…

专攻C++真题合集(1)

C语言作为一门广泛使用的编程语言,已经成为了许多IT领域从业者的必备技能之一。为了帮助大家更好地掌握C语言,本文将为大家提供一些专门的C真题。 1. 指针 题目一:请编写一个函数,函数名为swap,交换两个整数型变量的…

爬虫代理技术与构建本地代理池的实践

爬虫中代理的使用: 什么是代理 代理服务器 代理服务器的作用 就是用来转发请求和响应 在爬虫中为何需要使用代理? 隐藏真实IP地址:当进行爬取时,爬虫程序会发送大量的请求到目标网站。如果每个请求都使用相同的IP地址&#xff…

【C++】POCO学习总结(七):进程、管道、进程间同步、共享内存

【C】郭老二博文之:C目录 1、Poco::Process 进程 1.1 说明 Poco::Process的功能: 获取有关当前进程的一些信息开始一个新的进程终止另一个进程 1.2 用法 头文件:#include “Poco/Process.h” Poco::Process中的所有方法都是静态的。 常…

修复 MyBatis 中空值引起的 SQL 语法错误

修复 MyBatis 中空值引起的 SQL 语法错误 背景 最近在查看别人的项目代码时&#xff0c;遇到了一个问题&#xff1a;数据库中的数据为空。在调试过程中&#xff0c;发现问题出现在调用 MyBatis 中的方法&#xff1a;listByIds(Collection<? extends Serializable> idL…

[cmake] --- find_package

1 find_package的作用 find_package是CMake中用于查找并加载外部库的指令。它可以根据指定的参数在系统或用户指定的路径中查找库文件&#xff0c;并生成相应的变量供后续使用。 2 find_package基本语法 find_package(<PackageName> [version] [EXACT] [QUIET] [MODUL…

医学机器学习数据集介绍与使用 ABIDE Autism Brain Imaging Data Exchange I

ABIDE I 简介 自闭症脑成像数据交换I&#xff08;ABIDE I&#xff09;代表了第一个ABIDE倡议。作为基层工作&#xff0c;ABIDE I涉及17个国际站点&#xff0c;共享以前收集的静息态功能磁共振成像&#xff08;R-fMRI&#xff09;、解剖和表型数据集&#xff0c;这些数据集可供…