实用垃圾收集,第1部分–简介

这是我打算写的一系列博客文章的第一部分,其目的是解释垃圾回收在现实世界中的工作方式(特别是在JVM中 )。 我将介绍一些我认为对于充分理解垃圾收集对于实际目的是必要的理论,但是将其降至最低。

其动机是在各种情况下(例如在Cassandra邮件列表中)不断出现与垃圾回收相关的问题。 尝试提供帮助时的问题是,在针对特定情况定制的邮件列表回复中临时解释垃圾收集的细微差别是一项过多的工作,而您几乎没有关于这种情况的足够信息来告诉某人他们的情况特殊问题是由引起的。

我希望本指南将成为我回答这些问题的参考。 我希望它会足够详细,以便有用,但易于消化,并且对于广泛的读者来说也不够学术性。
我非常感谢您对我需要澄清,改进,彻底淘汰等方面的任何反馈。
这里的许多信息并非特定于Java。 但是,为了避免不断调用通用和抽象术语,我将在可能的地方用Hotspot JVM的具体术语进行发言。

为什么有人要关心垃圾收集器?

这是一个好问题。 完美的垃圾收集器可以在没有人注意到它存在的情况下完成其工作。 不幸的是,没有已知的完美的垃圾回收算法。 此外,实际上对于大多数人可用的垃圾收集器的选择还限于实际上实施的垃圾收集算法的子集。 (类似地, malloc也不是完美的,并且存在其问题,有多种实现方式具有不同的特性。但是,尽管这是一个有趣的话题,但是本文并未尝试对比自动和显式内存管理。)

现实情况是,与许多技术问题一样,需要权衡取舍。 根据经验,如果您使用的是可免费使用的基于Hotspot的JVM:s(Oracle / Sun,OpenJDK), 那么您最关心的就是垃圾回收器(如果您担心延迟) 。 如果您不这样做,那么垃圾回收器将不会很麻烦–除了可能选择与默认值不同的最大堆大小之外。

所谓等待时间,是指垃圾收集的暂停时间 。 垃圾收集器有时需要暂停应用程序才能完成其某些工作。 这通常被称为停止这世界的停顿(“世界”是从Java应用程序的GC说话的角度,或突变可观测宇宙(因为它是变异堆,而垃圾收集器试图收集重要的是要注意,尽管所有实际可用的垃圾收集器都在应用程序上施加了世界暂停,但这些暂停的频率和持续时间随垃圾收集器,垃圾收集器设置和应用程序行为的选择而变化很大

就像我们将看到的那样,存在垃圾收集算法,这些算法试图避免需要在停顿世界的暂停中收集整个堆。 这是一个重要属性的原因是,如果在任何时候(即使很少)停止应用程序以完全收集堆,则应用程序所遭受的暂停时间将与堆大小成正比 。 通常,这是您在关心延迟时要避免的主要事情。 也有其他问题,但这通常是一个大问题。

跟踪与参考计数

您可能听说过正在使用引用计数 (例如,cPython在大多数垃圾收集工作中都使用了引用计数方案)。 我不会谈论太多,因为它与JVM:s无关,只说两件事:

  • 计数垃圾回收的引用具有的一个属性是,将在删除最后一个引用时立即知道该对象是不可访问的。
  • 引用计数将不会检测为不可访问的循环数据结构,并且还有其他一些问题使其无法成为所有垃圾收集的最终选择。

JVM而是使用所谓的跟踪垃圾收集器。 之所以称为跟踪,是因为至少在抽象级别上,识别垃圾的过程涉及获取根集 (例如堆栈上的局部变量或全局变量之类的东西),并跟踪从那些对象到直接或间接所有对象的路径。从所述根集合可以间接到达。 一旦确定了所有可到达的(活动的)对象,就可以通过消除过程来标识符合垃圾收集器释放条件的对象。

基本停止,标记,扫动,恢复

一个非常简单的跟踪垃圾收集器使用以下过程工作:

  1. 完全暂停应用程序。
  2. 通过跟踪对象图(即,递归地遵循引用),标记所有可到达的对象(从根集开始,参见上文)。
  3. 释放所有无法访问的对象。
  4. 恢复应用程序。

在单线程环境中,这很容易想象:负责分配新对象的调用将立即返回新对象,或者,如果堆已满,则启动上述过程以释放空间,然后执行通过完成分配并返回对象。
没有一个JVM垃圾收集器像这样工作。 但是,最好理解垃圾收集器的这种基本形式,因为可用的垃圾收集器实质上是上述过程的优化。 JVM不实现这种垃圾回收的两个主要原因是:

  • 每个垃圾回收暂停将足以收集整个堆。 换句话说,它的延迟很差。
  • 对于几乎所有现实应用程序而言,它都不是执行垃圾回收的最有效方法(它具有很高的CPU开销)。

压缩与非压缩垃圾回收

垃圾收集器之间的一个重要区别是它们是否正在压缩 。 压缩是指将对象移动(在内存中)以将其收集在一个密集的内存区域中,而不是稀疏地散布在较大的区域中。

真实世界的类比:考虑一个随机空间中地板上满是东西的房间。 拿走所有这些东西并将其紧紧塞在角落里实际上就是将它们压实。 释放空间。 记住什么是压实的另一种方法是,设想其中的一台机器会像汽车一样将其压实成一块金属,从而消除了空气所占的全部空间,从而比原来的汽车占用更少的空间(但是有人指出,虽然汽车ID遭到破坏,但堆上的物体却没有!)。

相比之下,非紧凑型收集器从不移动对象。 将对象分配到内存中的特定位置后,该对象将一直保留在那里或直到释放为止。
两者都有一些有趣的属性:

  • 执行压缩收集的成本是堆上实时数据量的函数。 如果只有1%的数据处于活动状态,则仅需要压缩1%的数据(复制到内存中)。
  • 相比之下,在非紧凑型收集器中,不再可访问的对象仍然意味着记账,因为它们的存储位置必须保持释放状态,以便将来分配使用。
  • 在压缩收集器中,分配通常是通过“ 碰到指针”方法来完成的。 您有一些空间区域,并保持当前的分配指针。 如果您分配一个n字节的对象,则只需将该指针加n(我就避免了诸如多线程和暗示的优化之类的复杂性)。
  • 在一个非压实集电极,分配涉及找到其中使用一些机构,其依赖于用于跟踪的空闲存储器的可用性的确切机制来分配。 为了满足n字节的分配,必须找到n字节可用空间的连续区域。 如果找不到一个(因为堆是碎片化的 ,这意味着它由可用空间和分配的空间混合在一起),分配将失败。

现实类比:再次考虑您的房间。 假设您是一个压缩收集器。 您可以在闲暇时随意在地板上移动东西。 当您需要为地板中间的那个大沙发腾出空间时,可以四处移动其他东西以腾出适当大小的沙发空间。 另一方面,如果您是一个不紧凑的收藏家,那么地板上的所有东西都会被钉牢,并且无法移动。 尽管您有足够的可用地板空间,但大沙发可能不适合放置–只有一个单独的空间不足以容纳沙发。

分代垃圾收集

大多数现实世界中的应用程序倾向于对短期对象(即已分配的对象,短暂使用的对象,然后不再引用)执行大量分配。 分代垃圾收集器尝试利用此观察结果以提高CPU效率(换句话说,具有更高的吞吐量 )。 (更正式地说,大多数应用程序具有此行为的假设被称为弱代假设 。)

之所以称其为“世代”,是因为对象分为几代 。 收集器之间的细节会有所不同,但此时的合理近似值是将对象分为两代:

  • 年轻的一代是最初分配对象的地方。 换句话说,所有物体都始于年轻一代。
  • 老一辈是反对“花钱”的对象,因为他们在年轻一代中度过了一段时间。

代收集者通常更高效的原因是,他们与老一代分开收集年轻一代。 处于稳定状态下进行分配的应用程序的典型行为是,在收集年轻代时经常出现短暂的停顿–不经常出现,但在老一代填满并触发整个堆(旧的和新的)的完整收集时会出现较长的停顿。 如果查看典型应用程序的堆使用情况图,它将类似于以下内容:

堆使用的典型锯齿行为
吞吐量收集器使用堆的典型锯齿行为

锯齿状外观的出现是年轻一代垃圾收集的结果。 接近尾声的时候是老一代人变满了,而JVM对整个堆进行了完整的收集。 该下降结束时的堆使用量是该时间点实际活动集的合理近似值。 (注意:这是针对配置为使用默认JVM吞吐量收集器的Cassandra实例运行压力测试的图;它不反映Cassandra的即开即用行为。)

请注意,仅在该图上的任意时间点选择“当前堆使用情况” 都不会使您了解应用程序的内存使用情况 。 我不能足够强调这一点。 通常认为内存“使用”是活动集 ,而不是任何特定时间的堆使用情况。 堆的使用更多取决于垃圾收集器的实现细节。 应用程序的内存使用量对堆使用量的唯一影响是,它为堆使用量提供了一个下限
现在,回到为什么代收集者通常更高效的原因。

假设我们的假设应用是所有物体中有90% 早逝 ; 换句话说,它们永远无法生存到足以被提升为老一代的程度。 此外,假设我们的年轻一代集合实际上是紧凑的(请参阅前面的部分)。 现在收集年轻一代的成本大约是跟踪和复制它所包含的对象的10%的成本。 剩下的90%的成本很小。 年轻一代的收藏会在充满时发生,并且是世界停下来的停顿。

幸存的对象的10%可能会立即升级为老一代,或者它们可能在年轻一代中再生存一轮或两轮(取决于各种因素)。 但是,要理解的重要总体行为是,对象从年轻一代开始,并由于在年轻一代中生存提升为老一代。

(精明的读者可能已经注意到,不可能完全分开收集年轻一代–如果旧一代中的对象引用了新一代中的对象该怎么办?这确实是垃圾收集器必须处理的事情;以后的文章会谈论这个。)

优化过程很大程度上取决于年轻一代的规模 。 如果大小太大,则可能太大,以至于与收集它相关的暂停时间是一个明显的问题。 如果大小太小,则可能甚至死得很年轻的物体也不会足够快地死去, 以至于它们死后仍处于年轻一代中。

回想一下,年轻的一代是在变得饱满时收集的; 这意味着它越小,收集它的频率就越高。 进一步回想一下,当对象在年轻一代中幸存下来时,它们将被提升为老一代。 如果大多数对象(尽管早逝)都不会因为其太小而在年轻一代中死亡-他们将被提升到老一代,而代际垃圾收集器试图进行的优化将失败,而您将承担以后在老一代中收集对象的全部费用(加上从年轻一代中复制对象的前期费用)。

平行收集

拥有分代收集器的目的是为了优化吞吐量 ; 换句话说,应用程序在特定时间内完成的工作总量。 副作用是,由于垃圾收集而引起的大多数暂停也会变得更短。 但是,没有尝试消除周期性的完整收集,这意味着完成完整收集所需的暂停时间。

为了减轻这种情况,吞吐量收集器做了一件值得一提的事情:它是并行的 ,这意味着它同时使用多个CPU内核来加速垃圾收集。 确实可以缩短停顿时间,但是您可以走多远还是有一个限制–即使在线性加速的不现实完美情况下(意味着双CPU计数->收集时间的一半),您也会受到数量的限制系统上的CPU内核数。 如果要收集30 GB的堆,即使使用16个并行线程,也将花费大量时间。

用垃圾回收的话来说,并行一词用于表示同时在多个CPU内核上工作的收集器。

增量收集

垃圾回收上下文中的增量是指将需要完成的工作分成较小的块,通常目的是将应用程序暂停多个短暂的时间而不是一个长时间的暂停。 从年轻的一代收集器构成增量功的意义上讲,上述一代收集器的行为是部分增量的。 但是,从总体上看,收集过程不是增量的,因为在旧的一代变满时会发生全部堆收集。
其他形式的增量收集也是可能的; 例如,对于应用程序执行的每个分配,收集器可以执行少量的垃圾收集工作。 该概念与特定的实施策略无关。

并发收集

垃圾回收上下文中的并发是指应用程序(变异器) 同时执行垃圾回收工作。 例如,在8核系统上,垃圾收集器可能保留两个后台线程,这些线程在应用程序运行时执行垃圾收集工作。 这允许完成大量工作而不会导致应用程序暂停,通常会以一定的吞吐量和实现复杂性为代价(对于垃圾收集器实现者)。

可用的热点垃圾收集器

Hotspot中垃圾收集器的默认选择是吞吐量收集器,它是一个世代的并行压缩收集器。 完全针对吞吐量进行了优化; 在给定时间段内应用程序完成的工作总量。

CMS收集器是解决延迟/暂停时间问题的传统替代方法。 CMS代表并发标记和扫描 ,是指收集器使用的机制。 收集器的目的是最大程度地减少甚至消除长时间的停顿,将垃圾回收工作限制为较短的停顿(通常是并行)停顿,并与应用程序同时执行更长的工作相结合。 CMS收集器的一个重要属性是它紧凑,因此存在碎片问题(有关详细信息,请参阅后面的博客文章)。

在JDK 1.6和JDK 1.7的更高版本中,有一个新的垃圾收集器,称为G1 (代表Garbage First )。 像CMS收集器一样,其目的是尝试减轻或消除长时间停顿世界停顿的需求,并且它的大部分工作都是在短暂的停顿世界渐进停顿的同时进行的,其中一些工作也在​​完成中与应用程序同时进行。 与CMS相反,G1 紧凑的收集器,并且没有碎片问题的困扰-而是有其他折衷的选择(同样,在以后的博客文章中将对此进行更多讨论)。

观察垃圾收集器行为

我鼓励读者尝试使用垃圾收集器的行为。 使用jconsole(与JDK一起提供)或VisualVM (在本文较早的时候生成了该图)来可视化正在运行的JVM上的行为。 但是,尤其要开始运行JVM,以开始熟悉垃圾收集日志的输出(已更新jbellis的反馈–谢谢!):

  • -XX:+PrintGC
  • -XX:+PrintGCDetails
  • -XX:+PrintGCDateStamps
  • -XX:+PrintGCApplicationStoppedTime
  • -XX:+PrintPromotionFailure

也有用但冗长(含义在以后的文章中解释):

  • -XX:+PrintHeapAtGC
  • -XX:+PrintTenuringDistribution
  • -XX:PrintFLSStatistics=1

对于吞吐量收集器,输出非常容易读取。 对于CMS和G1,在没有介绍的情况下,输出对于分析而言更加不透明。 我希望在以后的更新中对此进行介绍。

同时,得出的结论是,每当怀疑与GC相关的问题时,上面的那些选项可能就是您要使用的第一件事。 当人们开始假设GC问题时,这几乎总是我告诉人们的第一件事。 您是否看过GC日志? 如果您还没有,那可能是在浪费时间猜测GC。

结论

我试图制作一个速成课程介绍,希望对我有启发性,但主要是作为后续文章的背景。 我欢迎任何反馈,尤其是在情况不清楚或我做出太多假设的情况下。 正如我一开始所说的那样,我希望这个系列能够被广泛的读者所接受,尽管我当然确实具有一定的专业水平。 但是,不需要垃圾收集方面的知识。 如果是,我已经失败了-请让我知道。

参考: 实用垃圾收集,第1部分–我们的JCG合作伙伴 Peter Schuller在(mod:world:scode)博客上的介绍


翻译自: https://www.javacodegeeks.com/2012/01/practical-garbage-collection-part-1.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/373518.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构之杨氏矩阵

转自: http://blog.csdn.net/jiyanfeng1/article/details/8189228转载于:https://www.cnblogs.com/neversayno/p/5256262.html

mysql 导出 没有函数_没有MYSQL FILE函数的CSV导出

构建最佳CSV。你可以按照以下方式做。$filename data.csv;$csv_terminated "\n";$csv_separator ",";$csv_enclosed ";$csv_escaped "\\";$results array(1,2,3);// value$schema_insert ;$header array(a,b,c);// headerfor ($i 0…

使用jdk压缩war包

首先安装jdk 压缩 ..../jdk/bin/jar -cvf file.war file 解压 ..../jdk/bin/jar -xvf file.war 转载于:https://www.cnblogs.com/chongchong88/p/6049690.html

MongoDB查询性能分析—— explain 操作返回结果详解

MongoDB 提供 db.collection.explain(), cursort.explain() 及 explain 命令获取查询计划及查询计划执行统计信息。 explain 结果将查询计划以阶段树的形式呈现。 每个阶段将其结果(文档或索引键)传递给父节点。 叶节点访问集合或索引。 中间节点操纵由…

.deb包的安装方法

deb是Debian linux的安装格式,跟redhat的rpm非常相似,最基本的安装命令是: dpkg -i file.deb dpkg是Debian Package的简写,是为Debian专门开发的管理系统套件,方便软件的安装,更新和移除。所有源自Debian的…

html回复评论_3天内看了3000多篇《哈佛商业评论》,挑出来最有用的分享下

上次分享过一个工具:一键批量下载公众号历史消息(后台回复001获取)。我把《哈佛商业评论》的历史文章,全部爬了下来。该杂志被全球商业誉为“管理圣经”。我最感兴趣的一部分是:个人管理。先搜索关键词:&qu…

Java中的高性能库

越来越多的库被描述为高性能,并且有支持该要求的基准。 这是我所知道的选择。 Disruptor库 – http://code.google.com/p/disruptor/ LMAX旨在成为世界上最快的交易平台。 显然,为了实现这一目标,我们需要做一些特殊的事情,以通过…

Linux 命令行上执行多个命令(分隔符简介使用)

Linux 系统可以在一个命令行上执行多个命令,相应的命令行的分隔符简介及使用如下: ; 如果命令被分号(;)所分隔,那么命令会连续的执行下去,就算是错误的命令也会继续执行后面的命令。示例如下: ls /home/; ls /etc/i…

codeforces 732/D 二分

给出考试时间和考试需要准备的时间&#xff0c;问最早考完所有科目的时间 二分答案 NlogN 二分抄神犇的写法 感觉挺舒服的嘻嘻嘻 1 #include<bits/stdc.h>2 using namespace std;3 const int MAXN1e55;4 int N,M,d[MAXN],w[MAXN],cnt[MAXN];5 void read(int &x){6 …

XML基础(二)

XML命名规则&#xff1a; ①名称可以含字母、数字以及其他的字符 ②名称不能以数字或标点符号开始 ③名称不能以“xml”开始 ④名称不能包含空格 ⑤尽量避免"-", "." ,":"等字符 xml元素是可扩展的。 XML属性&#xff1a; 属性提供有关元素的额外…

NoSQLBooster for MongoDB 中跨库关联查询

​ 使用 MongoDB 是我们常常会遇到一些特殊的需求需要跨库关联查询&#xff0c;比如订单明细缺商品重量需要补商品重量&#xff0c;而商品重量数据又在商品库中&#xff0c;这事就需要跨库关联操作&#xff0c;示例代码如下&#xff1a; // 使用 order 库&#xff0c;注意语句…

网页版的svn怎样同步代码_学会使用Hdlbits网页版Verilog代码仿真验证平台

大家推荐一款网页版的 Verilog代码编辑仿真验证平台&#xff0c;这个平台是国外的一家开源FPGA学习网站&#xff0c;通过“https://hdlbits.01xz.net/wiki/Main_Page”地址链接进入网页&#xff0c;在该网页上可以进行Verilog代码的编写、综合&#xff0c;而且最后还能够仿真出…

遇到的零碎问题

Show()时&#xff0c;其他窗口仍可响应&#xff0c;ShowDialog()时其他窗口无响应。 在public Form1()中使用messagebox会先出现信息窗口&#xff0c;再显示主窗体&#xff0c;故考虑加入了start按钮。 play()会被打断&#xff0c;PlaySync&#xff08;&#xff09;会播放完再执…

Tomcat上具有JAX-WS的Web服务

让我们假设一家企业正在一个集中式系统中维护用户身份验证详细信息。 我们需要创建一个AuthenticationService&#xff0c;它将获取凭据&#xff0c;对其进行验证并返回状态。 其余的应用程序将使用AuthenticationService对用户进行身份验证。 创建AuthenticationService接口&a…

Python的下载及安装

1、官网下载地址&#xff1a;https://www.python.org/downloads/ 2、python设置环境变量&#xff1a; 在系统变量里添加Python的安装位置 3、在cmd里输入python里即可转载于:https://www.cnblogs.com/fun0623/p/5257573.html

MongoDB 字段拼接 $concat(aggregation)

$concat 拼接字符串操作&#xff0c;返回拼接后的字符串。语法格式如下&#xff1a; { $concat: [ <expression1>, <expression2>, ... ] }参数可以是任何有效的表达式&#xff0c;只要它们解析为字符串即可。 有关表达式的更多信息&#xff0c;请参阅表达式。 示…

cmake mysql 编译参数_Cmake-MySQL编译参数说明

Cmake-MySQL编译参数说明(来源于MySQL官方手册)https://dev.mysql.com/doc/refman/5.6/en/source-configuration-options.htmlFormats Description DefaultIntroduced Removed ##格式描述默认导入删除BUILD_CONFIG Use same build options as official releases ##b使用相同…

动态给H5页面绑定数据,基本万能无错误!

此为原创&#xff0c;转载请注明出处&#xff01; /* * 共通用绑定页面数据用方法 * * param bingData 需要绑定的数据 * * return 无 * */function commonBindData(bingData) { // 取得需绑定的json数据 var jsonArray eval("(" bingData ")"); // …

c语言函数---M

书画小说软件 制作更满意的读、更舒心的写、更轻松的公布最全古典小说网 由本软件公布所得main()主函数 每一C 程序都必须有一main()函数, 能够依据自己的爱好把它放在程序的某 个地方。有些程序猿把它放在最前面, 而还有一些程序猿把它放在最后面, 不管放 在哪个地方, 下面几…

使用Apache ActiveMQ的JMS开发基础

去年是我尝试JMS的时候。 背后的想法和概念让我有些困惑&#xff0c;但是当我知道它的用途后&#xff0c;我很快就掌握了它。 在本文中&#xff0c;我将展示使用Apache ActiveMQ作为后端使用Java开发简单的生产者/消费者的基础。 让我们首先从概念开始&#xff0c;这是一个简单…