PHP中的变量是不需要手动释放的,内核帮我们实现了变量的内训管理,包括内存的分配与回收。本文主要介绍PHP中与内存相关的知识点,包括变量的GC机制、垃圾回收以及底层的内存池实现,除此还有一些线程安全相关的知识点。
变量的自动GC机制
现代高级语言普遍提供了变量的自动GC机制,由语言自己进行管理,这样开发者就无需关注变量的分配与释放。PHP同样实现了这种机制,通过“$”声明变量后,使用完成,内核会自动进行释放。
简单实现方式:函数定义变量时分配一内存,用于保存zval及对应的value结构,在函数返回时再将内存释放,若函数执行阶段,该变量作为参数调用了其他函数或者赋值给了其他变量,则把变量复制一份,这样使得变量间相互独立。
这种方式存在的一个问题是:效率低且内存浪费严重。针对这种问题,提出了下列通用的解决方法。
通用实现:引用+写时复制。PHP变量的内存管理就是这种方式实现的。
- 引用:当变量赋值、传递时不直接进行深度拷贝,多个变量同时共用一个value,引用计数来记录value被使用的变量数目;
- 写时复制:当某个变量的value发生改变而无法与其他变量共用value时,通过深度拷贝进行分离value。
引用计数
引用计数用来记录当前有多少个zval只想同一个zval_value。当有新的zval指向这个value时,计数器加1,当zval销毁时,计数器减1。当引用计数为0时,表示此value已经没有被任何变量使用,这是value就可以进行释放了。
注意:PHP7中将引用计数保存在了zval_value中。
写时复制
写时复制在计算机系统中应用非常广泛,只在必要的时候才会进行深度拷贝。换句话说,资源的复制是在需要写入的时候才会进行,在此之前,以只读的方式共享。
回收时机
变量的回收时机:在自动GC机制中,在zval断开value的指向时,如果发现refcount=0,则会直接释放value,这就是变量的回收时机。
除了GC,PHP也可以通过unset()函数主动销毁一个变量。
垃圾回收
提出的背景:通过引用计数PHP实现了变量的自动GC机制,但是有一种情况是这个机制无法解决的,从而因变量无法回收导致内存始终得不到释放,造成内存泄漏,这种情况指的是循环引用。
循环引用:简单来说,就是变量的内部成员引用了变量自身,比如数组中的某个元素指向了数组,这样一来数组的引用计数中就有一个来自自身成员,当所有的外部引用全部断开时,数组的refcount仍然大于0而得不到释放,而实际上这种变量不可能再被使用了。
垃圾:由于循环引用而导致的无法释放的变量称为垃圾,PHP引入垃圾回收机制来回收这种垃圾。
注意:首先明确两个准则:
- 如果一个变量value的refcount减少到0,那么此value可以被释放掉,不属于垃圾;
- 如果一个变量value的refcount减少之后大于0,那么此value还不能被释放掉,此value可能成为一个垃圾。
复合类型的回收时机:在value的refcount减少之后如果仍然大于0,垃圾回收器会把可能成为垃圾的value收集起来,等达到一定数量后开始启动垃圾鉴定程序,把真正的垃圾释放掉。
目前垃圾只会出现在array和object这两种类型中,需要注意的是:垃圾回收器判断是否要收集意思垃圾时,并不是根据类型进行判断的,而是与前面介绍的是否用到引用计数一样,用过zval.u1.type_flag进行标识的,只有包含IS_TYPE_COLLECTABLE标识的变量类型才会被收集。
垃圾缓存区:垃圾回收器把收集的可能垃圾保存在一个buffer缓存区,收集的时机是refcount减少时,每次refcount减少都会触发收集动作,如果已收集过就不会重复。
回收算法:既然垃圾是由于成员引用自身引起的,那么就对value的所有成员减一遍引用计数(理解的是:将现有的value的refcount减去目前的所有成员数目),如果结果refcount变为0,则就是表明其引用全部来自自身成员,不会产生垃圾。具体步骤:
- 步骤(1): 遍历垃圾回收器的buffer缓存区,把当前value标为灰色(zend_refcounted_h.gc_info置为GC_GREY),然后对当前value的成员进行深度优先遍历,把成员value的refcount减1,并且也标为灰色。
- 步骤(2):重复遍历buffer,检查当前value引用是否为0,为0则表示确实是垃圾,把它标为白色(GC_WHITE),如果不为0则排除了引用全部来自自身成员的可能,表示还有外部引用,并不是垃圾,这时候因为步骤(1)对成员进行了refcount减1操作,需要还原回去,对所有成员进行深度遍历,把成员refcount加1,同时标为黑色。
步骤(3):再次遍历buffer,将并非GC_WHIT的节点从buffer中删除,最终buffer缓存区中全部为真正的垃圾,最后将这些垃圾释放,回收完成。
垃圾回收器主要通过zend_gc_globals这个结构对垃圾进行管理,收集到的可能成为垃圾的value就保存在这个结构的buf中,及垃圾缓存区。
内存池
提出背景:在C语言中,通常使用malloc进行内存的分配,而频繁地分配、释放内存无疑会产生内存碎片。在PHP中,变量的分配、释放非常频繁,如果所有的变量都通过malloc的方式分配,将会造成严重的性能问题,作为语言级的应用,这种损耗是无法接受的。因此,PHP实现了一套内存池(Zend Memery Manager,ZendMM),用来替换malloc、free,以解决内存频繁分配、释放问题。
内存池的作用:
- 减少内存分配及释放的次数
- 有效控制内存碎片的产生
内存池是PHP内核中最底层内存操作,它是非常独立的一个模块,可以移植到其他C语言应用中去。
内存池,定义了三种粒度的内存块,如下:
内存块 | Huge(chunk) | Large(page) | Small(slot) |
---|---|---|---|
内存大小 | 2MB | 4KB | 8,16,24,32···3027B(30种) |
内存分配策略 | RM>2MB,直接调用系统分配 | 3092B< RM <2044KB | RM<=3092B |
此处RM表示申请内存的大小。3092B相当于3/4个page,2044KB相当于511个page。
三种粒度的内存块间的关系:
一个或者若干个page可以被分割为多个slot。内存池提前定义好了30种同等大小的内存(8,16,24,32···3027),他们分配在不同的page上(不同大小的内存可能会分配在多个连续的page),申请内存时,直接在对应的page上查找可用的slot。
线程安全
提出背景:在多线程环境中,使用全局变量(声明在函数之外的变量为全局变量)实现多个函数间共享数据,全局变量为各个线程共享,不同的线程引用同一地址空间,如果一个线程修改了全局变量,全局变量就会影响所有的线程。
定义:线程安全指的就是多线程环境下如何安全地获取公共资源。
应用场景:PHP的SAPI多数是单线程环境,比如Cli、Fpm和Cgi,每个进程只启动一个主线程,这种模式下是不存在线程安全问题的,但是也存在多线程环境,如Apache或用户自己嵌入的PHP实现环境,这是就需要考虑线程安全了。PHP通过线程安全资源管理器(Thread Safe Resource Manageer,TSRM),用于解决多线程环境下公共资源冲突问题,实现线程之间安全的操作公共资源。
基本思路:针对共用资源存在的问题,采取各个线程各自复制同一份全局变量,使用数据时各线程各取自己的副本,互不干扰。其核心思想就是为不同的线程分配独立的内存空间。
基本流程:如果一个资源被多个线程使用,首先需要预先想TSRM注册资源,TSRM会为这个资源分配一个唯一的id,并把这种资源的大小、初始化函数等保存到一个tsrm_resource_type结构中,各线程只能通过TSRM分配的那个id访问这个资源。
参考: 秦朋 《PHP7内核剖析》第4章