Cassandra Java堆外内存排查经历全记录

背景

最近准备上线cassandra这个产品,同事在做一些小规格ECS(8G)的压测。压测时候比较容易触发OOM Killer,把cassandra进程干掉。问题是8G这个规格我配置的heap(Xmx)并不高(约6.5g)已经留出了足够的空间给系统。只有可能是Java堆外内存使用超出预期,导致RES增加,才可能触发OOM。

调查过程

0.初步怀疑是哪里有DirectBuffer泄漏,或者JNI库的问题。
1.按惯例通过google perftools追踪堆外内存开销,但是并未发现明显的异常。
2.然后用Java NMT 看了一下,也没有发现什么异常。

 

3.查到这里思路似乎断了,因为跟DirectBuffer似乎没啥关系。这时候我注意到进程虚拟内存非常高,已经超过ECS内存了。怀疑这里有些问题。

 

4.进一步通过/proc/pid/smaps 查看进程内存地址空间分布,发现有大量mmap的文件。这些文件是cassandra的数据文件。

 

此时这些mmap file 虚拟内存是2G,但是物理内存是0(因为我之前重启过,调低过内存防止进程挂掉影响问题排查)。

显然mmap的内存开销是不受JVM heap控制的,也就是堆外内存。如果mmap的文件数据被从磁盘load进物理内存(RES增加),Java NMT和google perftool是无法感知的,这是kernel的调度过程。

5.考虑到是在压测时候出现问题的,所以我只要读一下这些文件,观察下RES是否会增加,增加多少,为啥增加,就能推断问题是不是在这里。通过下面的命令简单读一下之前导入的数据。

cassandra-stress read duration=10m cl=ONE -rate threads=20 -mode native cql3 user=cassandra password=123 -schema keysp
ace=keyspace5 -node core-3

6.可以观察到压测期间(sar -B),major page fault是明显上升的,因为数据被实际从磁盘被load进内存。

同时观察到mmap file物理内存增加到20MB:

最终进程RES涨到7.1g左右,增加了大约600M:

 

如果加大压力(50线程),还会涨,每个mmap file物理内存会从20MB,涨到40MB

7.Root cause是cassandra识别系统是64还是32来确定要不要用mmap,ECS都是64,但是实际上小规格ECS内存并不多。

 

结论

1.问题诱因是mmap到内存开销没有考虑进去,具体调整方法有很多。可以针对小规格ECS降低heap配置或者关闭mmap特性(disk_access_mode=standard)

2.排查Java堆外内存还是比较麻烦的,推荐先用NMT查查,用起来比较简单,配置JVM参数即可,可以看到内存申请情况。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/518076.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据中台之结构化大数据存储设计

前言 任何应用系统都离不开对数据的处理,数据也是驱动业务创新以及向智能化发展最核心的东西。这也是为何目前大多数企业都在构建数据中台的原因,数据处理的技术已经是核心竞争力。在一个完备的技术架构中,通常也会由应用系统以及数据系统构…

清华硕士爆料:这些才是机器学习必备的数学基础

现如今,计算机科学、人工智能、数据科学已成为技术发展的主要推动力。无论是要翻阅这些领域的文章,还是要参与相关任务,你马上就会遇到一些拦路虎:想过滤垃圾邮件,不具备概率论中的贝叶斯思维恐怕不行;想试…

从求生存到修体系,我在阿里找到了技术人的成长模式

阿里妹导读:做业务就好比打仗,团队是我们的归属。在团队中,我们既要通力协作,又要定义问题,既要业务先赢,又要技术成长。越来越多的前端投身业务研发中。想要有更好的发展,业务理解力非常关键。…

2分钟 Docker 部署 SprinBoot 集成 Flowable 工作流引擎

文章目录一、 简介二、 docker流程引擎部署2.1. jdk安装配置2.2. 下载打包好的tar包2.3. 上传tar包2.4. 在线安装Docker2.5. 检验安装是否成功三、tar转docker镜像3.1. 查看当前镜像3.2. 加载备份的flow-mysql.tar镜像文件3.3. 加载备份的flow-admin.tar镜像文件3.4. 加载备份的…

亿级规模的 Feed 流系统,如何轻松设计?

阿里妹导读:互联网进入移动互联网时代,最具代表性的产品就是各种信息流,像是朋友圈、微博、头条等。这些移动化联网时代的新产品在过去几年间借着智能手机的风高速成长。这些产品都是Feed流类型产品,由于Feed流一般是按照时间“从…

linux-centos7 常用的基本命令--磁盘管理(df、du)、进程管理

一、磁盘管理 df(英文全称:disk full):列出文件系统的整体磁盘使用量(类似于windows我的电脑中的显示)du(英文全称:disk used):检查磁盘空间使用量 1、df …

他靠下班后 1 小时,挣到 3 倍工资:赚钱,真的不用拼命

越来越多的人学习编程不再只是为了当程序员,而是为了提升效率,多一份职业技能,正面应对瞬息万变的全球大环境。据麦肯锡全球研究院发布的一份就业报告中显示,到 2030 年,中国预计将有 1200 万~ 1.02 亿人面…

蚂蚁金服褚霸:敲最牛的代码,骑最野的车

你印象中的程序员是怎样的群体?随着全民互联网的发展,程序员这个群体快速走进大众视野,在新闻和影视剧中,他们被贴上各种标签:双肩包、格子衫、拖鞋、秃顶、刻板、木讷、单身……热搜新闻“996.ICU”更是道出了万千程序…

linux-centos7 常用的基本命令--top

1、Linux top 命令 1.1 top 命令基础用法 Linux top命令用于实时显示 process 的动态。 语法 top [-] [d delay] [q] [c] [S] [s] [i] [n] [b]参数说明: d : 改变显示的更新速度,或是在交谈式指令列( interactive command)按 sq : 没有任何延迟的显示…

MongoDB副本集同步原理

MongoDB的同步原理,官方文档介绍的比较少,网上资料也不是太多,下面是结合官方文档、网上资料和测试时候的日志,整理出来的一点东西。 因为MongoDB的每个分片也是副本集,所以只需要搞副本集的同步原理即可。 一、Initi…

阿里技术专家告诉你,如何画出优秀的架构图?

作者 | 三画责编 | Carol来源 | 公众号「阿里巴巴云原生」导读:技术传播的价值,不仅仅体现在通过商业化产品和开源项目来缩短我们构建应用的路径,加速业务的上线速率,也体现在优秀工程师在工作效率提升、产品性能优化和用户体验改…

解决Linux docker中的mysql区分大小写问题

注:mysql5.7为本例docker中mysql容器的名称。 进入mysql容器: docker exec -it mysql5.7 /bin/bash以root用户登录mysql: mysql -u root -p查看当前mysql的大小写敏感配置: show global variables like %lower_case%;lower_case_file_sys…

不要低估AI面临的困境

“通过对7000多家“AI初创企业”进行研究分析,我发现大多数人低估了AI发展所面临的困境和挑战。这其中,有你的参与吗?” 你可能听过Andrew Ng这句话类似的一些说法:“AI正如同我们新时代的电力!电力的发展曾经改变了无数行业;现如今的AI也将如…

mysql-修改mysql最大连接数

1、修改mysql最大连接数 systemctl start mysqld 启动mysql systemctl status mysqld 查看mysql状态 systemctl restart mysqld 重启mysql进入mysql查看最大连接数: mysql -u root -p sh…

重构技术架构首先解决组织架构

技术架构来源于人员组织架构 过去两年做了不少大型的中台项目,什么是中台?这篇文章就不多说了,自行百度一下,总而言之最后我得出了一个结论——企业什么样的人员组织架构就会什么样的系统技术架构。我们先以下一幅图:…

为你整理了一份 Mysql 的学习笔记,建议收藏学习!

作者 | 陈熹责编 | Carol来源 | 早起PythonSQL是一个存活近半个世纪的语言,如今仍有大量人在使用。它语法简单,对培养数据整理和提取的思维有很大帮助。我将我过去的笔记分享给大家,希望能为大家的学习提供参考,更希望有人因此能迈…

Redis 混合存储最佳实践指南

Redis 混合存储实例是阿里云自主研发的兼容Redis协议和特性的云数据库产品,混合存储实例突破 Redis 数据必须全部存储到内存的限制,使用磁盘存储全量数据,并将热数据缓存到内存,实现访问性能与存储成本的完美平衡。 架构及特性 命…

Android 控件 - EditText输入框、ImageView图片、ProgressBar进度条

1、EditText输入框 1.1 输入提示 以及 提示颜色 android:hint &#xff1a; 输入提示 android:textColorHint &#xff1a; 提示颜色 <EditTextandroid:hint"请输入用户名"android:textColorHint"#95a1aa"android:layout_width"200dp"andr…

项目启动时flowable报错提示 version mismatch: library version is *, db version is *

项目启动时flowable报错提示 version mismatch: library version is *, db version is * 可能原因 1.项目中的flowable版本更换了但是数据库中缓存了之前的版本信息 解决&#xff1a; 找到数据库中act_ge_property(ACT_GE_PROPERTY)表更改schema.version的版本或者全部改掉&…

云控平台的双向音频解决方案

导读 随着移动互联网的发展&#xff0c;行业内衍生了基于移动平台的各类解决方案。其中&#xff0c;设备规模化管理的云控能力是各互联网公司在设备集群控制背景下的诉求。因此涌现了大批提供类似解决方案的平台。如&#xff1a;阿里系的阿里云MQC、阿里无线和菜鸟Nimitz等&am…