python内存消耗大吗_如何减少python内存的消耗?

标签:

Python 打算删除大量涉及像C和C++语言那样的复杂内存管理。当对象离开范围,就会被自动垃圾收集器回收。然而,对于由Python 开发的大型且长期运行的系统来说,内存管理是不容小觑的事情。

在这篇博客中,我将会分享关于减少 Python 内存消耗的方法和分析导致内存消耗/膨胀根源的问题。这些都是从实际操作中总结的经验,我们正在构建Datos IO 的RecoverX 分布式备份和恢复平台,这里主要要介绍的是在Python(在C++ ,Java 和bash 中也有一些类似的组件) 中的开发。

Python 垃圾收集

Python解释器对正在使用的对象保持计数。当对象不再被引用指向的时候,垃圾收集器可以释放该对象,获取分配的内存。例如,如果你使用常规的Python(CPython, 不是JPython)时,Python的垃圾收集器将调用free()/delete() 。

实用工具

资源(resource)

resource’ 模块用来查看项目当前得的固有的)内存消耗

[固有内存是项目实际使用的RAM]

>>> import resource>>> resource.getrusage(resource.RUSAGE_SELF).ru_maxrss4332

对象(objgraph)

objgraph’ 是一个实用模块,可以展示当前内存中存在的对象

来看看objgraph的简单用法:

importobjgraphimportrandomimportinspect

classFoo(object):

def__init__(self):

self.val =None

def__str__(self):

return“foo – val: {0}”.format(self.val)

deff():

l = []

foriinrange(3):

foo = Foo()

#print “id of foo: {0}”.format(id(foo))

#print “foo is: {0}”.format(foo)

l.append(foo)

returnl

defmain():

d = {}

l = f()

d[‘k’] = l

print“list l has {0} objectsoftype Foo()”.format(len(l))

objgraph.show_most_common_types()

objgraph.show_backrefs(random.choice(objgraph.by_type(‘Foo’)),

filename=“foo_refs.png”)

objgraph.show_refs(d, filename=‘sample-graph.png’)

if__name__ == “__main__”:

main()

pythontest1.py

list l has 10000 objectsoftype Foo()

dict 10423

Foo 10000 ————> Guiltyas charged!

tuple 3349

wrapper_descriptor 945

function 860

builtin_function_or_method 616

method_descriptor 338

weakref 199

member_descriptor 161

getset_descriptor 107

注意,我们在内存中还持有10,423个‘dict’的实例对象。

可视化objgraph依赖项

Objgraph有个不错的功能,可以显示Foo()对象在内存中存在的因素,即,显示谁持有对它的引用(在这个例子中是list ‘l’)。

在RedHat/Centos上, 你可以使用sudo yum install yum install graphviz*安装graphviz

如需查看对象字典,d,请参考:

objgraph.show_refs(d, filename=’sample-graph.png’)

从内存使用角度来看,我们惊奇地发现——为什么对象没有释放?这是因为有人在持有对它的引用。

这个小片段展示了objgraph怎样提供相关信息:

objgraph.show_backrefs(random.choice(objgraph.by_type(‘Foo’)),

filename=“foo_refs.png”)

在这一案例中, 我们查看了Foo类型的随机对象。我们知道该特定对象被保存在内存中,因其引用链接在指定范围内。

有时,以上技巧能帮助我们理解,为什么当我们不再使用某对象时,Python垃圾回收器没有将垃圾回收。

难处理的是,有时候我们会发现Foo()占用了很多内存的类。这时我们可以用heapy()来回答以上问题。

Heapy

heapy 是一个实用的,用于调试内存消耗/泄漏的工具。通常,我将objgraph和heapy搭配使用:用heapy 查看分配对象随时间增长的差异,heapy能够显示对象持有的最大内存等;用Objgraph找backref链(例如:前4节),尝试获取它们不能被释放的原因。

Heapy的典型用法是在不同地方的代码中调用一个函数,试图为内存使用量提供大量收集线索,找到可能会引发的问题:

fromguppyimport hpy

defdump_heap(h, i):

“””

@param h: Theheap (fromhp = hpy(), h = hp.heap())

@param i: Identifierstr

“””

print“Dumpingstatsat: {0}”.format(i)

print‘Memoryusage: {0} (MB)’.format(resource.getrusage(resource.RUSAGE_SELF).ru_maxrss/1024)

print“Mostcommontypes:”

objgraph.show_most_common_types()

print“heapis:”

print“{0}”.format(h)

by_refs = h.byrcs

print“byreferences: {0}”.format(by_refs)

print“Morestatsfor topelement..”

print“Byclodo (classordictowner): {0}”.format(by_refs[0].byclodo)

print“Bysize: {0}”.format(by_refs[0].bysize)

print“Byid: {0}”.format(by_refs[0].byid)

减少内存消耗小技巧

在这一部分,我会介绍一些自己发现的可减少内存消耗的小窍门.

Slots

当你有许多对象时候可以使用Slots。Slotting传达给Python解释器:你的对象不需要动态的字典(从上面的例子2.2中,我们看到每个Foo()对象内部包含一个字典)

用slots定义你的对象,让python解释器知道你的类属性/成员是固定的.。这样可以有效地节约内存!

参考以下代码:

importresourceclassFoo(object):

#__slots__ = (‘val1’, ‘val2’, ‘val3’, ‘val4’, ‘val5’, ‘val6’)

def__init__(self, val):

self.val1 = val+1

self.val2 = val+2

self.val3 = val+3

self.val4 = val+4

self.val5 = val+5

self.val6 = val+6

deff(count):

l = []

foriinrange(count):

foo = Foo(i)

l.append(foo)

returnl

defmain():

count = 10000

l = f(count)

mem = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss

print“Memoryusageis: {0} KB”.format(mem)

print“Sizeperfooobj: {0} KB”.format(float(mem)/count)

if__name__ == “__main__”:

main()

[vagrant@datosdevtemp]$ pythontest2.py

Memoryusageis: 16672 KB

Sizeperfooobj: 1.6672 KB

Nowun-commentthisline: #__slots__ = (‘val1’, ‘val2’, ‘val3’, ‘val4’, ‘val5’, ‘val6’)

[vagrant@datosdevtemp]$ pythontest2.py

Memoryusageis: 6576 KB

Sizeperfooobj: 0.6576 KB

在这个例子中,减少了60%的内存消耗!

驻留:谨防驻留字符串!

Python会记录如字符串等不可改变的值(其每个值的大小依赖于实现方法),这称为驻留。

>>> t = “abcdefghijklmnopqrstuvwxyz”>>> p = “abcdefghijklmnopqrstuvwxyz”>>> id(t)139863272322872

>>> id(p)139863272322872

这是由python解析器完成的,这样做可以节省内存,并加快比较速度。例如,如果两个字符串拥有相同的ID或引用–他们就是全等的。

然而,如果你的程序创建了许多小的字符串,你的内存就会出现膨胀。

生成字符串时使用Format来代替“+”

接下来,在构造字符串时,使用Format来代替“+”构建字符串。

亦即,

st = “{0}_{1}_{2}_{3}”.format(a,b,c,d) # 对内存更好,不创建临时变量stst2 = a + ‘_’ + b + ‘_’ + c + ‘_’ + d # 在每个“+”时创建一个临时str,这些都是驻留在内存中的。

在我们的系统中,当我们将某些字符串构造从“+”变为使用format时,内存会明显被节省。

关于系统级别

上面我们讨论的技巧可以帮助你找出系统内存消耗的问题。但是,随着时间的推移,python进程产生的内存消耗会持续增加。这似乎与以下问题有关:

. 为什么C中内存分配能够在Python内部起作用,这本质上是内存碎片导致的。因为,除非整个内存没有使用过,否则该分配过程不能调用‘free’方法。但需要注意的是,内存的使用不是根据你所创建和使用的对象来进行排列。

. 内存增加也和上面讨论的“Interning” 有关。

以我的经验来看,减少python中内存消耗的比例是可行的。在Datos IO中,我曾经针对指定的内存消耗进程实现过一个工作模块。对于序列化的工作单元,我们运行了一个工作进程。当工作进程完成后, 它会被移除了——这是返回系统全部内存的唯一可以有效方法:)。好的内存管理允许增加分配内存的大小,即允许工作进程长时间运行。

总结

我归纳了一些减少python进程消耗内存的技巧,当我们在代码中寻找内存泄漏时,一种方法是通过使用Heapy找出哪些Obj占用了较多内存,然后通过使用Objgraph找出内存被释放的原因(除非你认为他们本应该被释放)。

总的来说,我觉得在python中寻找内存问题是一种修行。随着时间的积累,对于系统中的内存膨胀和泄漏问题,你能产生一种直觉判断,并能更快地解决它们。愿你在发现问题的过程中找到乐趣!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/431445.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php invalid access,PHP出错消息PHP has encountered an Access Violation at XXXXXXXX 如何解决?...

1、是否zend所需的dll文件所在目录给的权限不够,必须有读取和运行的权限2、如果使用的是windows系统,是否设置过应用池,比如池https://anlijun.co中限制了什么

java class load 类加载

1:what is it jvm把描述类的数据从class字节码文件加载到内存,并对数据进行校验、解析、初始化,最终成为jvm直接使用的数据类型 1、ClassNotFoundExcetpion   我们在开发中,经常可以遇见java.lang.ClassNotFoundExcetpion这个异常&#xf…

python回溯方法的模板_Python基于回溯法子集树模板解决0-1背包问题实例

本文实例讲述了Python基于回溯法子集树模板解决0-1背包问题。分享给大家供大家参考,具体如下:问题给定N个物品和一个背包。物品i的重量是Wi,其价值位Vi ,背包的容量为C。问应该如何选择装入背包的物品,使得放入背包的物品的总价值…

debian执行php网页,如何在Debian上安装和使用PHP Composer

php composer是一个包管理工具,它消除了手动维护应用程序的PHP包的麻烦,可以使用composer轻松安装所有必需的包。本篇文章将介绍在Debian系统上安装和配置PHP Composer的方法。1、条件shell使用sudo权限访问正在运行的debian系统。必须安装和配置5.3或更…

python图灵测试_最前沿:基于GAN和RL的思想来训练对话生成,通过图灵测试可期!...

PS:本文分析略深,需要一定的RL和GAN的基础。前两天,Stanford的NLP小组出了一篇神经网络对话生成的论文:标题就是使用对抗学习来做神经对话生成。这个idea非常的赞!在我看来是通往图灵测试的正确一步。以前的对话生成&a…

java map 实现 序列化,MapReduce序列化

序列化就是把内存中的对象转换成字节序列以便于存储到磁盘(持久化)和网络传输。反序列化就是将字节序列或者是持久化的数据转换成内存中的对象。内存中的对象只能本地进程使用,断掉后就消失了,也不能被发送到网络上的另一台机器,序列化可以将…

安装php时,make步骤报错make: *** [sapi/fpm/php-fpm] Error 1

安装PHP过程中,make步骤报错:(集中网络上各种解决方法) (1)-liconv -o sapi/fpm/php-fpm /usr/bin/ld: cannot find -liconv collect2: ld returned 1 exit status make: *** [sapi/fpm/php-fpm] Error 1 [rootlocalhost php-5.4.5]# 初步定位是iconv的问…

JAVA_if或者怎么用,Java If语句

Java教程 - Java If语句Java if语句用于根据条件执行一个代码块。Java If语句下面是Java if语句的最简单形式:if(condition)statement;condition是一个布尔表达式。如果condition是true那么执行语句。如果condition是false,那么绕过语句。以下代码根据an的值输出消息…

iOS开发——高级技术本地化与国际化详解

本地化与国际化详解效果如下:英语: 中文: 具体实现如下:一。先做准备:设置程序本地化在xcode点击程序图标…

hog特征提取python代码_hog特征提取-python实现

【转载自 https://blog.csdn.net/ppp8300885/article/details/71078555】全部代码:importcv2importnumpy as npimportmathimportmatplotlib.pyplot as pltclassHog_descriptor():def __init__(self, img, cell_size16, bin_size8):self.imgimgself.img np.sqrt(img …

matlab 矢量化,matlab矢量化编程简要

一、基本技术1)MATLAB索引或引用(MATLAB Indexing or Referencing)在MATLAB中有三种基本方法可以选取一个矩阵的子阵。它们分别是下标法,线性法和逻辑法(subscripted, linear,andlogical)。1.1)下标法非常简单,看几个例子就好。A 6:12;A([3,5])ans 8 10…

Hadoop-HBASE案例分析-Hadoop学习笔记二

之前有幸在MOOC学院抽中小象学院hadoop体验课。 这是小象学院hadoop2.X概述第八章的笔记 主要介绍HBase,一个分布式数据库的应用案例。 案例概况: 1)时间序列数据库(OpenTSDB) 用HBase储存时间序列数据,每时每刻都在解决&#xff…

python测试udp端口_怎样测试UDP端口

文章概述:怎样测试远程UDP端口,我们一般情况下,应用服务都使用的TCP端口,但是某些情况下,我们也需要开启UDP端口。本文简要描述怎样测试UDP端口是否正常?TCP端口大家都知道,比如80端口,可以使用…

Matlab经纬度坐标转换xy坐标,经纬度坐标系转换为UTM坐标系(matlab)

如题所说,直接上程序。验证自己做一下,结果应该是对的。诚不我欺。(注意:程序名与函数名保持一致!!!)function[shuchu]lat_lon2utm(lat_shuru,lon_shuru)%地理经纬度坐标转换为UTM坐标size_shuzusize(lat_s…

ASP.NET MVC中的模型装配 封装方法 非常好用

下面说一下我们知道在asp.net mvc中 视图可以绑定一个实体模型 然后我们三层架构中也有一个model模型 但是这两个很多时候却是不一样的对象来的 就拿微软的官方mvc例子来说明 微软的视图实体中 有loginmodel 有registermodel 等等 这些视图模型 都只是占用户实体的某几个字段而…

python webviewer爬虫_爬虫再也不怕检测浏览器环境了

背景之前爬虫 驱动个 selenium 基本上就可以了.但是现在各种检测浏览器环境...特别是不熟悉 js 的同学就更烦了本文是直接把 selenium pyppeteer 以及正常打开浏览器 的环境差异直接列出来这样你就可以更愉快的爬虫了(可以直接把环境全部模拟上,或者大概看看有啥,下次看人家混淆…

jQuery: 整理2---操作元素的样式

1.获取元素的class属性值 attr("class") <div id"conBlue" class"blue larger">天蓝色</div>const cla $("#conBlue").attr("class") console.log(cla) // blue larger 2.设置元素的样式 attr("class…

matlab空间曲面拟合,matlab如何进行曲面拟合

matlab如何进行曲面拟合以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容&#xff0c;让我们赶快一起来看一下吧&#xff01;在一丘陵地带测量高程&#xff0c;x和 y方向每隔100米测一个点&#xff0c;得高程如下表&#xff0c;试插值一曲面&am…

python做的游戏可以导出吗_Python for RenderDoc批量导出模型和贴图

故事背景&#xff1a;美术那里有需求&#xff0c;需要别人游戏的模型&#xff0c;来借鉴一下&#xff0c;问我是否有工具可以一键导出模型。我就搜索了一下RenderDoc批量导出图片&#xff0c;结果搜到了用C改RenderDoc源码的文章。让RenderDoc批量导出纹理_专栏-CSDN博客​blog…

treegrid.bootstrap使用说明

treegrid.bootstrap使用说明 这个插件是用来做有层次的表格的&#xff0c;大概如图&#xff1a; 官网 http://maxazan.github.io/jquery-treegrid/ 使用这个控件之前需要引入以下css及js&#xff08;因为用到了 bootstrap.js 所以加上了 bootstrap的样式和脚本&#xff09; bo…