python向量化和c哪个快_在python中向量化6 for循环累积和

编辑3:

最终(我认为)版本,更清晰,更快速地融入max9111’s answer的创意.

import numpy as np

from numba import as nb

@nb.njit()

def func1_jit(a, b, c, d):

# Precompute

exp_min = 5 - (a + b + c + d)

exp_max = b

exp = 2. ** np.arange(exp_min, exp_max + 1)

fact_e = np.empty((a + b - 2))

fact_e[0] = 1

for ei in range(1, len(fact_e)):

fact_e[ei] = ei * fact_e[ei - 1]

# Loops

B = 0

for ai in range(0, a):

for bi in range(0, b):

for ci in range(0, c):

for di in range(0, d):

for ei in range(0, ai + bi):

for fi in range(0, ci + di):

B += exp[ei - fi - ai - ci - di + 1 - exp_min] * (ei * ei - 2 * (ei * fi) - 7 * di) * fact_e[ei]

return B

这已经比以前的任何选项都快得多,但我们仍然没有利用多个CPU.一种方法是在函数本身内,例如并行化外循环.这会在每次调用时增加一些开销来创建线程,因此对于小输入实际上有点慢,但对于更大的值应该明显更快:

import numpy as np

from numba import as nb

@nb.njit(parallel=True)

def func1_par(a, b, c, d):

# Precompute

exp_min = 5 - (a + b + c + d)

exp_max = b

exp = 2. ** np.arange(exp_min, exp_max + 1)

fact_e = np.empty((a + b - 2))

fact_e[0] = 1

for ei in range(1, len(fact_e)):

fact_e[ei] = ei * fact_e[ei - 1]

# Loops

B = np.empty((a,))

for ai in nb.prange(0, a):

Bi = 0

for bi in range(0, b):

for ci in range(0, c):

for di in range(0, d):

for ei in range(0, ai + bi):

for fi in range(0, ci + di):

Bi += exp[ei - fi - ai - ci - di + 1 - exp_min] * (ei * ei - 2 * (ei * fi) - 7 * di) * fact_e[ei]

B[ai] = Bi

return np.sum(B)

或者,如果您有许多要评估函数的点,也可以在该级别进行并行化.这里a_arr,b_arr,c_arr和d_arr是要评估函数的值的向量:

from numba import as nb

@nb.njit(parallel=True)

def func1_arr(a_arr, b_arr, c_arr, d_arr):

B_arr = np.empty((len(a_arr),))

for i in nb.prange(len(B_arr)):

B_arr[i] = func1_jit(a_arr[i], b_arr[i], c_arr[i], d_arr[i])

return B_arr

最佳配置取决于您的输入,使用模式,硬件等,因此您可以根据您的情况组合不同的想法.

编辑2:

实际上,忘记我之前说过的话.最好的是JIT编译算法,但是以更有效的方式.首先计算昂贵的部分(我采用指数和阶乘),然后将其传递给编译的循环函数:

import numpy as np

from numba import njit

def func1(a, b, c, d):

exp_min = 5 - (a + b + c + d)

exp_max = b

exp = 2. ** np.arange(exp_min, exp_max + 1)

ee = np.arange(a + b - 2)

fact_e = scipy.special.factorial(ee)

return func1_inner(a, b, c, d, exp_min, exp, fact_e)

@njit()

def func1_inner(a, b, c, d, exp_min, exp, fact_e):

B = 0

for ai in range(0, a):

for bi in range(0, b):

for ci in range(0, c):

for di in range(0, d):

for ei in range(0, ai + bi):

for fi in range(0, ci + di):

B += exp[ei - fi - ai - ci - di + 1 - exp_min] * (ei * ei - 2 * (ei * fi) - 7 * di) * fact_e[ei]

return B

在我的实验中,这是迄今为止最快的选项,并且只占用很少的额外内存(只有预先计算的值,输入上的大小为线性).

a, b, c, d = 4, 6, 3, 4

# The original function

%timeit func1_orig(a, b, c, d)

# 2.07 ms ± 33.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# The grid-evaluated function

%timeit func1_grid(a, b, c, d)

# 256 µs ± 25 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

# The precompuation + JIT-compiled function

%timeit func1_jit(a, b, c, d)

# 19.6 µs ± 3.25 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)

那么总是可以选择网格评估整个事情:

import numpy as np

import scipy.special

def func1(a, b, c, d):

ai, bi, ci, di, ei, fi = np.ogrid[:a, :b, :c, :d, :a + b - 2, :c + d - 2]

# Compute

B = (2.) ** (ei - fi - ai - ci - di + 1) * (ei ** 2 - 2 * (ei * fi) - 7 * di) * scipy.special.factorial(ei)

# Mask out of range elements for last two inner loops

m = (ei < ai + bi) & (fi < ci + di)

return np.sum(B * m)

print(func1(4, 6, 3, 4))

# 21769947.844726562

显而易见,随着参数的增加,其内存成本将快速增长.代码实际上执行的计算比必要的多,因为两个内部循环具有不同的迭代次数,因此(在此方法中)您必须使用最大的,然后删除您不需要的.希望是矢量化将弥补这一点.一个小的IPython基准:

a, b, c, d = 4, 6, 3, 4

# func1_orig is the original loop-based version

%timeit func1_orig(a, b, c, d)

# 2.9 ms ± 110 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# func1 here is the vectorized version

%timeit func1(a, b, c, d)

# 210 µs ± 6.34 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

编辑:

请注意,以前的方法也不是一个全有或全无的事情.您可以选择仅对某些循环进行网格评估.例如,两个最里面的循环可以像这样矢量化:

def func1(a, b, c, d):

B = 0

e = np.arange(a + b - 2).reshape((-1, 1))

f = np.arange(c + d - 2)

for ai in range(0, a):

for bi in range(0, b):

ei = e[:ai + bi]

for ci in range(0, c):

for di in range(0, d):

fi = f[:ci + di]

B += np.sum((2.) ** (ei - fi - ai - ci - di + 1) * (ei ** 2 - 2 * (ei * fi) - 7 * di) * scipy.special.factorial(ei))

return B

这仍然有循环,但它确实避免了额外的计算,并且内存要求低得多.哪一个最好取决于我猜的输入大小.在我的测试中,使用原始值(4,6,3,4),这甚至比原始函数慢;此外,对于这种情况,似乎在每个循环上为ei和fi创建新数组比在预先创建的循环上操作更快.但是,如果将输入乘以4(14,24,12,16),那么这比原始(约x5)快得多,尽管仍然比完全矢量化的(约x3)慢.另一方面,我可以计算输入的值,用十(40,60,30,40)来缩放这个(在~5分钟内)而不是前一个因为内存(我没有测试如何)它需要与原始功能一起使用).使用@ numba.jit有点帮助,虽然不是很大(由于阶乘函数不能使用nopython).您可以尝试使用或多或少的循环向量化,具体取决于输入的大小.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/433896.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Asterisk AGI脚本

AGI脚本用于开发复杂的IVR应用。AGI脚本与Asterisk之间通过两个标准的数据流交互&#xff0c;一是STDIN(标准输入)&#xff0c;二是STDOUT(标准输出)。从AGI脚本角度看&#xff0c;任何来自Asterisk的数据可以称之为STDIN&#xff0c;任何向Asterisk的输出可称之为STDOUT。也可…

java 内嵌调用_Java高级开发必会的50个性能优化的细节(珍藏版)

在JAVA程序中&#xff0c;性能问题的大部分原因并不在于JAVA语言&#xff0c;而是程序本身。养成良好的编码习惯非常重要&#xff0c;能够显著地提升程序性能。● 1. 尽量在合适的场合使用单例使用单例可以减轻加载的负担&#xff0c;缩短加载的时间&#xff0c;提高加载的效率…

SDL教程4——在VS2010中设置SDL扩展库

前几节我们了解到&#xff0c;SDL基本库只能加载普通的BMP图像&#xff0c;如果我们还想加载其它格式的图片&#xff0c;我们就需要用到SDL的扩展库&#xff0c;它可以帮助我们加载BMP, PNM, XPM, LBM, PCX, GIF, JPEG, TGA and PNG等格式图片。要下载SDL扩展帮助文档&#xff…

Asterisk realtime 之SIP用户动态写入mysql 数据库

asterisk 配置默认是文本方式由文件管理&#xff0c;但是对于SIP用户&#xff0c;队列坐席这些数据&#xff0c;保存在 数据库中方便维护&#xff0c;Asterisk 通过realtime 引擎支持此功能&#xff0c;可以把其 配置文件写入 数据库维护&#xff0c;realtime分 两类&#xff…

python函数和方法的编写原则_跟老齐学Python之传说中的函数编写条规

关于函数的事情&#xff0c;总是说不完的&#xff0c;下面就罗列一些编写函数的注意事项。特别声明&#xff0c;这些事项不是我总结的&#xff0c;我是从一本名字为《Learning Python》的书里面抄过来的&#xff0c;顺便写成了汉语&#xff0c;当然&#xff0c;是按照自己的视角…

html居右显示语言设置,iOS开发:纯代码设置UIButton文字居左或者居右显示

UIButton这个控件使用&#xff0c;作为资深的iOS开发人员来说是小儿科&#xff0c;但是有些时候还是需要记录一下UIButton的一些其他用法&#xff0c;这样方便快速解决实际问题。比如UIButton的纯代码编程的时候&#xff0c;设置文字居左显示&#xff0c;这个问题虽然简单的不能…

python爬虫程序自动结束-在linux下python爬虫进程发生异常时自动重启直至正常结束的方法...

之前在做爬虫的时候遇到一种情况&#xff0c;当网络情况不太好的时候&#xff0c;爬虫爬到的链接在urlopen时会因为无法正常连接而报URLError或者timeout的错误导致陈序报错而终止&#xff1b;但是这些错误在重新运行陈序后能够解决&#xff0c;因此为了避免重复手动重启程序的…

Ubuntu apt-get 卸载命令

通过sudo apt-get install xxxx 安装软件后&#xff0c;总是无法卸载干净&#xff0c;这里以Apache 为例&#xff0c;提供方法&#xff1a;首先sudo apt-get remove apache2 再sudo apt-get autoremove 最近在Ubuntu下写python&#xff0c;需要看下python的文档&#xff0c;我…

ORACLE EBS 多账套总结

1.客户化开发中的多帐套屏蔽 (1) 得到当前OU mo_global.get_current_org_id或者fnd_global.org_id (2)根据组织ID得到账套ID和公司名称 DECLAREl_org_information3 VARCHAR2(150); --帐套idl_company_desc VARCHAR2(150); --公司中文描述 BEGINSELECT o3.org_information3,…

联想一体机电源键不亮_联想电脑一体机B505拆机经验

我修复联想电脑一体机的经验分享退休之后我较多的时间就是使用电脑&#xff0c;上上网&#xff0c;玩玩游戏&#xff0c;更多的是用电脑使用ps修图&#xff0c;修整照片。同时给自己的书法作品美化美化。很是方便。我这台b505的电脑&#xff0c;整体配置不错&#xff0c;就是一…

html textarea 自动高度,HTML页面中textarea高度自适应解决方案

背景&#xff1a; 页面上加了一个div标签&#xff0c;div标签下有一个textarea标签&#xff0c;textarea的内容通过后台读取数据自动填充&#xff0c;希望通过textarea的高度随着内容的增减&#xff0c;自动调整&#xff0c;在网上说通过设置textarea属性可以解决&#xff0c;即…

电脑入门完全自学手册_室内设计CAD施工图识读手册

室内设计全案行业班学习分为三个学习阶段第一阶段&#xff1a;软件技能学习&#xff0c;包括CAD、3DMAX、SU、PS、办公软件等第二阶段&#xff1a;设计理论学习&#xff0c;包括客户分析、方案设计、材料采买、工艺选用、预算造价等第三阶段&#xff1a;工程项目实战&#xff0…

[转]宝文!Apple Push Notification Service (APNS)原理与实现方案

原理 简单的说&#xff0c;app要单独实现消息动态更新&#xff0c;一种是轮询&#xff0c;这对用户来说会带来额外的流量。另一种方案是push&#xff0c;app client和server直接保持一个长连接&#xff0c;有新的消息时server push给app client。 这两种通过app自身实现的“pus…

if 组件是否存在_UE4 UMG简介+Slate组件问题排查

Slate 组件问题排查总结简介首先是一个工作中遇到的BUG&#xff1a; 用slua添加子节点到父节点上的时候&#xff0c;第二次打开无法显示对应的子节点Widget。对应Lua代码如下local comboBox ui_manager.ShowUI(ui_manager.UI_Config.ui_coupon_combobox,2,price,buyUIInfo.sho…

创业型公司的产品经理应该知道的事情

可能因为最近有一本书叫做<<人人都是产品经理>>&#xff0c;所以产品经理这个词变得很fashion了&#xff0c;产品经理在一些成熟型的公司&#xff0c;确实是一个很重要的职位。因为成熟型的公司产品的开发的流程都已经很完善&#xff0c;所以产品经理是其中一个不可…

设置框开始隐藏状态html5,小猿圈分享HTML5中form如何关闭自动完成功能的方法

WEB前端现在是时下较火的编程语言之一&#xff0c;但是对于怎么学习或者学习哪些内容很多朋友都是不了解的&#xff0c;针对以上内容小猿圈web前端讲师总结了form如何关闭自动完成功能的方法&#xff1f;希望对你的前端学习有一定的帮助。什么是HTML5的form自动完成功能&#x…

浏览器登录_经常用浏览器自动登录忘记了密码?教你一键查看网页星号密码

不知道大家有没有出现这种情况&#xff0c;因为一直用的网页自动填写密码来登录&#xff0c;所以有时候甚至把密码给忘了相信有的小伙伴有可能就会出现这种情况哈&#xff0c;今天小林君来教你个超简单的方法&#xff0c;不用安装任何软件&#xff0c;就可以一键查看网页上隐藏…

控件属性动作

控件应该定义属性而不是公共字段&#xff0c;因为可视化设计器在属性浏览器中显示属性&#xff0c;而不显示字段。属性就像智能字段。属性通常具有带访问函数的专用数据成员&#xff0c;在语法上属性被作为类的字段进行访问。&#xff08;虽然属性可以具有不同的访问级别&#…

python连接数据库并编写调用函数_Python使用pyodbc访问数据库操作方法详解

本文实例讲述了Python使用pyodbc访问数据库操作方法。分享给大家供大家参考&#xff0c;具体如下&#xff1a;1、连接数据库1)直接连接数据库和创建一个游标(cursor)cnxn pyodbc.connect(DRIVER{SQL Server};SERVERlocalhost;DATABASEtestdb;UIDme;PWDpass)cursor cnxn.cursor(…

Mysql 5.5的编译安装 在ubuntu 10平台上面

(一)安装mysql5.5的要求 编译安装mysql5.5与5.1还是有一点不同&#xff0c;因为mysql现在用cmake来作编译工程工具。 这是与mysql5.1最大不同的地方&#xff0c;因此在安装mysql5.5时所要求的工具包也不同。发现用cmake编译mysql比以前的速度还是快了不少。 &#xff08;1&a…