Android Native 内存泄漏系统化解决方案

导读:C++内存泄漏问题的分析、定位一直是Android平台上困扰开发人员的难题。因为地图渲染、导航等核心功能对性能要求很高,高德地图APP中存在大量的C++代码。解决这个问题对于产品质量尤为重要和关键,高德技术团队在实践中形成了一套自己的解决方案。

分析和定位内存泄漏问题的核心在于分配函数的统计和栈回溯。如果只知道内存分配点不知道调用栈会使问题变得格外复杂,增加解决成本,因此两者缺一不可。

Android中Bionic的malloc_debug模块对内存分配函数的监控及统计是比较完善的,但是栈回溯在Android体系下缺乏高效的方式。随着Android的发展,Google也提供了栈回溯的一些分析方法,但是这些方案存在下面几个问题:

1.栈回溯的环节都使用的libunwind,这种获取方式消耗较大,在Native代码较多的情况下,频繁调用会导致应用很卡,而监控所有内存操作函数的调用栈正需要高频的调用libunwind的相关功能。

2.有ROM要求限制,给日常开发测试带来不便。

3.用命令行或者DDMS进行操作,每排查一次需准备一次环境,手动操作,最终结果也不够直观,同时缺少对比分析。

因此,如何进行高效的栈回溯、搭建系统化的Android Native内存分析体系显得格外重要。

高德地图基于这两点做了一些改进和扩展,经过这些改进,通过自动化测试可及时发现并解决这些问题,大幅提升开发效率,降低问题排查成本。

一、栈回溯加速

**Android平台上主要采用libunwind来进行栈回溯,可以满足绝大多数情况。但是libunwind实现中的全局锁及unwind table解析,会有性能损耗,在多线程频繁调用情况下会导致应用变卡,无法使用。

加速原理

编译器的-finstrument-functions编译选项支持编译期在函数开始和结尾插入自定义函数,在每个函数开始插入对__cyg_profile_func_enter的调用,在结尾插入对__cyg_profile_func_exit的调用。这两个函数中可以获取到调用点地址,通过对这些地址的记录就可以随时获取函数调用栈了。

插桩后效果示例:

这里需要格外注意,某些不需要插桩的函数可以使用__attribute__((no_instrument_function))来向编译器声明。

如何记录这些调用信息?我们想要实现这些信息在不同的线程之间读取,而且不受影响。一种办法是采用线程的同步机制,比如在这个变量的读写之处加临界区或者互斥量,但是这样又会影响效率了。

能不能不加锁?这时就想到了线程本地存储,简称TLS。TLS是一个专用存储区域,只能由自己线程访问,同时不存在线程安全问题,符合这里的场景。

于是采用编译器插桩记录调用栈,并将其存储在线程局部存储中的方案来实现栈回溯加速。具体实现如下:

1.利用编译器的-finstrument-functions编译选项在编译阶段插入相关代码。

2.TLS中对调用地址的记录采用数组+游标的形式,实现最快速度的插入、删除及获取。

定义数组+游标的数据结构:

typedef struct {void* stack[MAX_TRACE_DEEP];int current;
} thread_stack_t;

初始化TLS中thread_stack_t的存储key:

static pthread_once_t sBackTraceOnce = PTHREAD_ONCE_INIT;static void __attribute__((no_instrument_function))
destructor(void* ptr) {if (ptr) {free(ptr);}
}static void __attribute__((no_instrument_function))
init_once(void) {pthread_key_create(&sBackTraceKey, destructor);
}

初始化thread_stack_t放入TLS中:

get_backtrace_info() {thread_stack_t* ptr = (thread_stack_t*) pthread_getspecific(sBackTraceKey);if (ptr)return ptr;ptr = (thread_stack_t*)malloc(sizeof(thread_stack_t));ptr->current = MAX_TRACE_DEEP - 1;pthread_setspecific(sBackTraceKey, ptr);return ptr;
}

3.实现__cyg_profile_func_enter和__cyg_profile_func_exit,记录调用地址到TLS中。

void __attribute__((no_instrument_function))
__cyg_profile_func_enter(void* this_func, void* call_site) {pthread_once(&sBackTraceOnce, init_once);thread_stack_t* ptr = get_backtrace_info();if (ptr->current > 0)ptr->stack[ptr->current--] = (void*)((long)call_site - 4);
}void __attribute__((no_instrument_function))
__cyg_profile_func_exit(void* this_func, void* call_site) {pthread_once(&sBackTraceOnce, init_once);thread_stack_t* ptr = get_backtrace_info();if (++ptr->current >= MAX_TRACE_DEEP)ptr->current = MAX_TRACE_DEEP - 1;
}
}

__cyg_profile_func_enter的第二个参数call_site就是调用点的代码段地址,函数进入的时候将它记录到已经在TLS中分配好的数组中,游标ptr->current左移,待函数退出游标ptr->current右移即可。

逻辑示意图:

记录方向和数组增长方向不一致是为了对外提供的获取栈信息接口更简洁高效,可以直接进行内存copy以获取最近调用点的地址在前、最远调用点的地址在后的调用栈。

4.提供接口获取栈信息。

get_tls_backtrace(void** backtrace, int max) {pthread_once(&sBackTraceOnce, init_once);int count = max;thread_stack_t* ptr = get_backtrace_info();if (MAX_TRACE_DEEP - 1 - ptr->current < count) {count = MAX_TRACE_DEEP - 1 - ptr->current;}if (count > 0) {memcpy(backtrace, &ptr->stack[ptr->current + 1], sizeof(void *) * count);}return count;
}

5.将上面逻辑编译为动态库,其他业务模块都依赖于该动态库编译,同时编译flag中添加-finstrument-functions进行插桩,进而所有函数的调用都被记录在TLS中了,使用者可以在任何地方调用get_tls_backtrace(void** backtrace, int max)来获取调用栈。

效果对比(采用Google的benchmark做性能测试,手机型号:华为畅想5S,5.1系统)

  • libunwind单线程
  • TLS方式单线程获取
  • libunwind 10个线程
  • TLS方式 10个线程

从上面几个统计图可以看出单线程模式下该方式是libunwind栈获取速度的10倍,10个线程情况下是libunwind栈获取速度的50-60倍,速度大幅提升。

优缺点
•优点: 速度大幅提升,满足更频繁栈回溯的速度需求。
•缺点: 编译器插桩,体积变大,不能直接作为线上产品使用,只用于内存测试包。这个问题可以通过持续集成的手段解决,每次项目出库将C++项目产出普通库及对应的内存测试库。

二、体系化

经过以上步骤可以解决获取内存分配栈慢的痛点问题,再结合Google提供的工具,如DDMS、adb shell am dumpheap -n pid /data/local/tmp/heap.txt 命令等方式可以实现Native内存泄漏问题的排查,不过排查效率较低,需要一定的手机环境准备。

于是,我们决定搭建一整套体系化系统,可以更便捷的解决此类问题,下面介绍下整体思路:

•内存监控沿用LIBC的malloc_debug模块。不使用官方方式开启该功能,比较麻烦,不利于自动化测试,可以编译一份放到自己的项目中,hook所有内存函数,跳转到malloc_debug的监控函数leak_xxx执行,这样malloc_debug就监控了所有的内存申请/释放,并进行了相应统计。

•用get_tls_backtrace实现malloc_debug模块中用到的__LIBC_HIDDEN__ int32_t get_backtrace_external(uintptr_t* frames, size_t max_depth),刚好同上面说的栈回溯加速方式结合。

•建立Socket通信,支持外部程序经由Socket进行数据交换,以便更方便获取内存数据。

•搭建Web端,获取到内存数据上传后可以被解析显示,这里要将地址用addr2line进行反解。

•编写测试Case,同自动化测试结合。测试开始时通过Socket收集内存信息并存储,测试结束将信息上传至平台解析,并发送评估邮件。碰到有问题的报警,研发同学就可以直接在Web端通过内存曲线及调用栈信息来排查问题了。

系统效果示例:


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/518413.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【从入门到放弃-Java】并发编程-线程安全

概述 并发编程&#xff0c;即多条线程在同一时间段内“同时”运行。 在多处理器系统已经普及的今天&#xff0c;多线程能发挥出其优势&#xff0c;如&#xff1a;一个8核cpu的服务器&#xff0c;如果只使用单线程的话&#xff0c;将有7个处理器被闲置&#xff0c;只能发挥出服…

Kubernetes事件离线工具kube-eventer正式开源

前言 监控是保障系统稳定性的重要组成部分&#xff0c;在Kubernetes开源生态中&#xff0c;资源类的监控工具与组件百花齐放。除了社区自己孵化的metrics-server&#xff0c;还有从CNCF毕业的Prometheus等等&#xff0c;开发者可选的方案有很多。但是&#xff0c;只有资源类的…

国内首家,腾讯云云开发“全家桶”来了

作者 | 胡巍巍出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;虽然程序员这行加班多&#xff0c;但不要认为加班就该是常态。有些班&#xff0c;原本可以不加&#xff1b;有些夜&#xff0c;其实可以不熬。俗话说&#xff0c;工具不对&#xff0c;努力白费。如果有…

html-表单的应用

<!-- readonly 只读 --><p>名字: <input type"text" name"username1" value"wang洪亮" readonly></p><!-- disabled 禁用 &#xff0c; 按钮等地方也能用 --><p>性别:<input type"radio" v…

阿里研究员吴翰清:世界需要什么样的智能系统?

阿里妹导读&#xff1a;吴翰清&#xff0c;被大家亲切地称为“小黑”“道哥”。他是阿里巴巴研究员&#xff0c;更是一位“白帽黑客”。15岁&#xff0c;考入西安交大少年班&#xff0c;毕业后应聘阿里。23岁&#xff0c;成为阿里最年轻的高级技术专家。32岁&#xff0c;被评选…

咱们从头到尾说一次 Java 垃圾回收

之前上学的时候有这个一个梗&#xff0c;说在食堂里吃饭&#xff0c;吃完把餐盘端走清理的&#xff0c;是 C 程序员&#xff0c;吃完直接就走的&#xff0c;是 Java 程序员。 确实&#xff0c;在 Java 的世界里&#xff0c;似乎我们不用对垃圾回收那么的专注&#xff0c;很多初…

html-表单初级验证

<!-- placeholder 输入框 提示信息required 非空判断pattern 正则表达式--><p>名字: <input type"text" name"username1" placeholder"请输入名字" required></p><!-- pattern 正则表达式常用正则表达式…

如何将Elasticsearch的快照备份至OSS

前言 Elasticsearch 是一个开源的分布式 RESTful 搜索和分析引擎。它可以在近实时条件下&#xff0c;存储&#xff0c;查询和分析海量的数据。它还支持将快照备份至HDFS/S3上面&#xff0c;而阿里云OSS兼容S3的API&#xff0c;本文将介绍如何使用ES的Repository-S3插件将快照备…

你公司的虚拟机还闲着?基于 Jenkins 和 Kubernetes 的持续集成测试实践了解一下!...

作者 | 刘春明责编 | Carol出品 | CSDN 云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09;封图| CSDN下载于视觉中国目前公司为了降低机器使用成本&#xff0c;对所有的AWS虚拟机进行了盘点&#xff0c;发现利用率低的机器中&#xff0c;有一部分是测试团队用作Jenkins S…

长脸了!阿里云这位英雄拿下了世界第一

阿里云数据库又被顶级机构点名了&#xff01; 近日&#xff0c;全球最知名的数据管理系统评测标准化TPC组织公布了数据库领域分析性能基准测试最新排名&#xff0c;阿里云超大规模分析型数据库AnalyticDB登上榜首&#xff0c;是全球首个通过TPC严格审计认证的云数据库产品。 …

css-第一个CSS

建议使用分离写法 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><!-- <style>可以编写css的代码&#xff0c;每一个声明&#xff0c;最好使用分号结尾语法:选择器 {声…

跟面试官侃了半小时 MySQL 事务,把原子性、一致性、持久性的实现都讲完了

来源 | 阿丸笔记封图| CSDN下载于视觉中国提到MySQL的事务&#xff0c;我相信对MySQL有了解的同学都能聊上几句&#xff0c;无论是面试求职&#xff0c;还是日常开发&#xff0c;MySQL的事务都跟我们息息相关。而事务的ACID&#xff08;即原子性Atomicity、一致性Consistency、…

阿里云Link TEE获得全球首款GlobalPlatform TEE全配置安全认证

2019年7月12日&#xff0c;阿里云Link TEE正式获得由国际标准组织GlobalPlatform&#xff08;以下简称GP&#xff09;颁发的TEE安全评估认证证书&#xff0c;也成为全球首款获得GP TEE全配置&#xff08;支持TEE Time and Rollback PP-Module和TEE Debug PP-Module&#xff09;…

阿里云 EMAS HTTPDNS 联合函数计算重磅推出 SDNS 服务,三大能力获得突破

阿里云 EMAS HTTPDNS 联合函数计算重磅推出 SDNS 服务&#xff0c;三大能力获得突破 1. 什么是 HTTPDNS &#xff1f; 传统的 DNS&#xff08;Domain Name System&#xff09;使开发者常面临着域名劫持、调度不精准的问题。 HTTPDNS 使用 HTTP 协议替换常用的 UDP 协议&#…

是!“用Python的,全是假程序员”!HR:太真实……

某热门网站最近有一个话题引起热议&#xff1a;“用Python的&#xff0c;全是假程序员&#xff01;”题主觉得&#xff0c;Python程序员写代码量太少&#xff01;论编程能力&#xff0c;根本打不过其他程序员。那么&#xff0c;各类编程语言的程序员到底谁更强&#xff1f;我们…

【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准&#xff0c;各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题&#xff0c;社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持&#xff0c;也会在…

透过 In-memory Channel 看 Knative Eventing 中 Broker/Trigger 工作机制

In-memory Channel是当前Knative Eventing中默认的Channel, 也是一般刚接触Knative Eventing首先了解到的Channel。本文通过分析 In-memory Channel 来进一步了解 Knative Eventing 中Broker/Trigger事件处理机制。 事件处理概览 我们先整体看一下Knative Eventing 工作机制示…

css-三种基本选择器

一、标签选择器 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><style>/* 标签选择器&#xff0c;会选择到页面上所有的这个标签的元素 */h1{color: #12ec4e;background: …

你知道吗?其实 Oracle 直方图自动统计算法存在这些缺陷!(附验证步骤)

作者 | 吴海存责编 | Carol出品 | CSDN 云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09;封图| CSDN下载于视觉中国在某些场景下&#xff0c;表中某一列的数据分布会比较崎岖&#xff0c;使得CBO(cost base optimizer)在评估执行计划的时候可能会出现误差&#xff0c;从…

开源软件 Apache Dubbo 牵手 IDE 插件,开发部署提速不止 8 倍

自从产品经理银时小伙和他的团队在去年11月发布 Cloud Toolkit&#xff08;一款 IDE 插件&#xff09;以来&#xff0c;已帮助数以万计的开发者们提高了开发、测试、诊断以及应用部署效率。期间&#xff0c;他们还发布了 Contributor Ranking List&#xff0c;和开发者们一同定…