Android网络性能监控方案

背景

移动互联网时代,移动端极大部分业务都需要通过App和Server之间的数据交互来实现,所以大部分App提供的业务功能都需要使用网络请求。如果因为网络请求慢或者请求失败,导致用户无法顺畅的使用业务功能,会对用户体验造成极大影响。

此外,EMAS对外提供的APM之前并不包括网络监控功能,而网络性能监控作为移动端性能监控的重要组成部分,我们急需补全这部分能力来完善APM的产品功能,进一步满足客户的需求。

“阿里巴巴应用研发平台 EMAS 是国内领先的云原生应用研发平台(移动App、H5应用、小程序、Web应用等),基于广泛的云原生技术(Backend as a Service、Serverless、DevOps、低代码等),致力于为企业、开发者提供一站式的应用研发管理服务,涵盖开发、测试、运维、运营等应用全生命周期。”

问题与挑战

网络性能监控在端上主要包括数据采集和数据上报。我们希望能尽可能采集有用的信息来帮助客户发现、定位和解决网络性能问题。我们面临如下问题和挑战:

•首先要解决的是网络请求过程中,哪些阶段会影响请求性能,如果发现网络性能有问题,需要采集哪些数据来帮助用户去定位和解决问题。

• android上主流的网络框架有okhttp2、okhttp3、okhttp4、volley、retrofit、httpclient和系统提供的httpurlconnection等,在我们不确定客户使用哪个网络库的哪个版本的情况下,如何尽量采集有用的信息。

• 网络请求各个阶段的数据采集都是离散的,如何保证单个请求各个离散的监控数据能够串联起来,不和其他请求的监控数据混在一起。

• 由于弱网环境下的网络请求日志往往更有价值,需要尽可能将异常的网络请求日志数据上报到服务端。

• 并发网络请求时,需要确保在日志上传时尽量不影响客户正常业务。

实现方案

网络性能监控在端上的具体实现主要包含两大模块:
• 数据采集
• 数据上报
其中数据采集是整个SDK框架的核心。

整体架构概览:

image.png

接入层:
网络监控属于高可用产品的一部分,采用高可用统一接入的方式接入。
插件层:
高可用目前框架是通过插件式的方式集成各个业务,实现networkmonitor plugin集成到APM中,补充APM中网络监控部分。
逻辑层:
主要负责采集控制、数据管理、缓存管理和数据上报。
拦截器层:
整个网络监控的核心。为了采集更多的信息,我们选择使用字节码注入技术来实现网络请求监控功能。对OkHttp、HttpClient和HttpUrlConnection,分别实现Interceptor去采集不同网络库中网络请求各个阶段的数据,并在请求结束时完成采集进行上报。此外,通过自定义gradle plugin的方式,为各个网络库实现Injector和开关,控制在应用构建阶段将Interceptor中各个采集的方法注入到对应网络库字节码的埋点位置,从而实现在运行时网络请求各个阶段采集需要的数据。

数据采集

采集哪些数据

首先需要确定采集的数据范围来帮助我们及时发现网络请求的性能和异常等情况,另一方面也需要有额外的数据来辅助排查问题。所以我们采集的数据主要包括四个部分:
• 基础数据。
• 性能数据。
• 异常信息。
• 事件序列数据。

基础数据

 

image.png

• 请求url:对请求做聚合运算。
• 目标IP地址:对于多出口IP的客户,支持IP地址维度的数据分析。
• dns解析结果:请求url的域名解析ip列表,用于分析是否存在域名劫持的问题。
• http code:根据http code确定请求状态。
• 上行流量:包括整个请求上行header和body的总的流量,包含重试和重定向的上行流量。用于监控上行流量开销。
• 下行流量:包括整个请求下行header和body的总的流量,包含重试和重定向的下行流量。用于监控下行流量开销。
• 网络库类型及版本:对于客户更换网络库或者升级网络库版本的情况,可以提供前后的网络数据的差异。

性能数据

性能数据主要是采集整个网络请求中各个阶段的耗时情况来定位慢请求发生的阶段。下图列举了http请求可能出现的各个阶段。

image.png

所以性能数据部分需要采集下述各个阶段的耗时数据:

  • •整个网络请求耗时
    • •dns耗时
    • •建连耗时
      • •TLS建连耗时
    • •数据上行耗时
      • •header上行耗时
      • •body上行耗时
    • •数据下行耗时
      • •header下行耗时
      • •body下行耗时

异常信息

异常信息主要是收集网络请求各阶段出现异常时的异常栈的信息。比如常见的java.net.UnknownHostException、java.net.SocketTimeoutException等。

事件序列数据

事件序列数据主要是收集网络请求各阶段的监控事件的信息,另外对于特定网络库的一些特殊的事件的监控,比如okhttp的连接复用、自动重定向和失败重试等对网络耗时有影响的机制。最后将这些事件按时间顺序排列。

比如在okhttp上dns被劫持的场景,我们通过基础数据中的目标IP地址去判断dns劫持情况,这个目标IP地址是在建立连接的时候去采集的。如果第一个请求发生了dns劫持的情况,那这个请求我们能正常识别的dns劫持已经发生。如果后续的网络请求复用了这个连接,因为不会再去建立连接,所以基础数据中没有目标IP地址,这时候就需要使用事件序列数据中的连接复用事件中的连接的url和目标IP地址来判断是不是被劫持的请求。

如何采集数据

字节码插桩原理

字节码插桩涉及到Android的打包构建流程。首先我们看下Android应用程序的打包流程,如下图:

image.png

从上图可知,我们只需要在 javac 之后 dex 之前遍历所有的字节码文件,并按照一定的规则过滤修改就可以实现字节码的插桩。

从Android Gradle 1.5.0 开始,Google官方提供了Transform API。通过Transform API,允许第三方以插件的形式,在Android应用程序打包成dex文件之前的编译过程中操作.class文件。

image.png

Android编译器中的TaskManager将每个Transform串起来,第一个Transform接收来自javac编译的结果,以及已经拉取到本地的第三方sdk(jar、aar),还有resource资源。这些编译的中间产物,在Transform组成的链条上流动,每个Transform节点可以对class进行处理再传递给下一个Transform。常见的混淆、Desugar等的实现就是封装在一个个Transform中。而自定义的Tranform会插入到这个Transform链条的最前面,所以开启混淆的情况下通过自定义Transform对字节码进行修改也是先修改字节码再混淆。

网络库调研

除了系统自带的网络库HttpUrlConnection,在android平台还有很多优秀的第三方网络库,大部分App开发会使用第三方的网络库来发起网络请求。

image.png

从上表中主流网络库的底层实现来看,我们只要支持OkHttp、HttpUrlConnection和HttpClinet的数据采集就能满足主流网络库的性能监控需求。

image.png

我们对应用市场上Top1000的App进行了分析,按集成数量排序依次是okhttp3&okhttp4、volley(HttpUrlConnection)、okhttp2和httpclient。其中okhttp网络库占比将近80%,所以我们优先实现了okhttp网络库的监控实现。

okhttp网络库的监控实现

okhttp网络库家族主要包括okhttp2、okhttp3和okhttp4。其中okhttp3版本分布众多,底层实现变化也最多,而okhttp2的底层实现和okhttp3的早期版本相近,okhttp4是okhttp3的kotlin版本的实现。所以我们主要介绍下okhttp3上的监控实现。

image.png

上图是okhttp3.12.0版本的实现框架,我们在网络库的具体逻辑里注入代码来采集需要的数据。

okhttp3版本众多,从3.0.0-3.14.9已经有超过40个版本,对于每一个代码注入的位置都需要确保再各个版本上能正常工作。所以实现okhttp3的无痕埋点,版本适配需要耗费大量的工作。

数据上报

数据上报,除了需要考虑加密、鉴权、压缩等方面,还需要能确保尽可能少的丢失日志,同时还需要控制资源的占用来降低对上层业务的影响。具体实现主要包括两方面:

• 缓存:支持内存缓存和磁盘缓存两级缓存。需要实现业务隔离,多个业务使用缓存功能时可以做到互不影响。
• 上报:由于APM产生的日志较多,为了控制并发数和内存,我们使用了一个业务共享的线程池和调度队列。调度队列最多缓存10条批量日志,如果超出10条会立即将日志放入磁盘缓存。另外在上报前提供了日志预处理的开放接口方便业务层对日志做处理,比如抽样、聚合等功能。

后续计划

EMAS网络性能监控已经对外开放,产品详情:https://www.aliyun.com/product/emascrash/apm 后续我们会根据客户实际需求去逐步完善功能。下一步计划实现的需求包括:
• 支持HttpUrlConnection、HttpClient等网络库。
• 支持body数据的采集上报,让客户可以感知、定位和解决在网络连通性正常,但服务端下发异常数据导致端上业务出现异常的问题。
• 支持日志数据端上预聚合,降低服务端存储压力。
• 支持socket请求的监控。

欢迎大家积极留言,提出你们的宝贵意见和建议,非常感谢!钉钉搜索35248489,加入阿里云云原生应用研发平台EMAS技术交流群,探讨最新最热门的应用研发技术和实践。

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514754.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

打破云原生时代存储瓶颈,SmartX 发布 K8s 云原生存储 IOMesh

编辑 | 宋 慧 供稿 | SmartX 头图 | 付费下载于视觉中国 专业超融合与分布式存储产品与解决方案提供商 SmartX 发布为 Kubernetes 设计和开发的云原生存储产品 IOMesh 预览版(以下简称“IOMesh”),加速数据库等有状态应用的容器化进程。 IO…

全球边缘计算大会:阿里云资深技术专家李克畅谈边缘计算的技术趋势与挑战

2020年11月7日,以“5G边缘计算“为主题的全球边缘计算大会在北京新世界大酒店成功召开,作为业内首个专门为边缘计算人打造的行业盛会,此次活动现场共有超过600来自政、产、学、研、用各界的企业负责人、权威技术专家、通信科技从业者、边缘计…

《科学:无尽的前沿》分享会在京举办,助力中国企业打造“科研的应许之地”

当今世界百年未有之大变局加速演进,疫情影响广泛深远,不稳定性不确定性明显增加。科技创新成为国际战略博弈的主要战场,围绕科技制高点的竞争空前激烈。 6月19日,远望智库、中信出版集团联合举办了新书《科学:无尽的前…

OpenYurt 深度解读:如何构建 Kubernetes 原生云边高效协同网络?

作者 | 郑超 导读:OpenYurt 是阿里巴巴开源的云边协同一体化架构,与同类开源方案相比,OpenYurt 拥有可实现边缘计算全场景覆盖的能力。在之前的一篇文章中,我们介绍了 OpenYurt 是如何在弱网和断网场景下实现边缘自治的。本文作为…

Dubbo-go 源码笔记(二)客户端调用过程

作者 | 李志信 导读:有了上一篇文章《Dubbo-go 源码笔记(一)Server 端开启服务过程》的铺垫,可以类比客户端启动于服务端的启动过程。其中最大的区别是服务端通过 zk 注册服务,发布自己的ivkURL并订阅事件开启监听&…

云原生时代需要什么样的存储系统?

导读:本文介绍了目前云原生环境下,支持有状态应用的几种典型存储方案的特点,并对市场主流的几个云原生存储产品实际测试性能进行对比。 现状 当前,云原生已经成为应用开发者在选择架构设计时的首选。云原生让应用开发者可以将所有…

mysql管理器源码_一个HelloWorld版的MySQL数据库管理器的设计与实现(源码)

2011年,实习期间写了一个简单的数据库管理器。今天,特意整理了下,分享给大家。有兴趣的同学,可以下载源码,瞧瞧。源码只有4个类:LoginGUI,DatabaseGUI,Record,MySQLModel。1.LoginGUI该类就是一个简单的登录…

我们身边的网络流量

作者:qinglianghu 一.网络流量中的善与恶 和我们一起在网上冲浪的不仅有你身边的亲朋好友,还有栖息在互联网上密密麻麻的网络爬虫。差不多每5次的网络浏览里,有2次是"虚假"的网络爬虫产生的。这些栖息在互联网上的爬虫也是有&quo…

58.3万笔/秒!看阿里的黑科技

简介: 11月11日0点刚过26秒,天猫双11的订单创建峰值就达到58.3万笔/秒,阿里云又一次扛住全球最大规模流量洪峰!58.3万笔/秒,这一数字是2009年第一次天猫双11的1457倍。数字的背后,隐藏着阿里巴巴很多不为人…

java方法重写_Java方法重写注意事项

1.重写方法的方法名和参数列表要和被重写方法一致。2.在 java 1.4版本以前,重写方法的返回值类型被要求必须与被重写方法一致,但是在java 5.0中放宽了这一个限制,添加了对协变返回类型的支持,在重写的时候,重写方法的返…

专访李飞飞 :从清华附中高材生到阿里飞刀,一口井钻出「云原生」

简介: 他初三上清华,如今是达摩院数据库首席科学家。李飞飞从学术界走向工业界,带领阿里云技术团队一手打造了云原生分布式数据库,让阿里「全面上云」的战役再下一城。今天,他用一口水井为我们道出了云原生&#xff01…

阿里雷卷:RSocket从入门到落地,RSocket让AJP换发青春

简介: 借助 RSocket 的架构提供,我们可以将之前比较复杂的方案简化,当然最最重要的是性能的提升,即便之前的一些性能提升技术点,可能由于一些约束等,现在和 RSocket 对接,那些问题都不存在啦&am…

英特尔拥抱开源,岂能没有杀手锏?

10 年前,Netscape 创始人、硅谷著名投资人马克安德森说“软件吞噬世界”,如今已发展为“开源吞噬世界”。据《2020年度 GitHub Octoverse 报告》显示,GitHub 上开发者数量达到 5600 万,新增 6000 万个存储库以及 19 亿个 contribu…

Java全能手册火了!Redis/Nginx/Dubbo/Spring全家桶啥都有!

前言本文是为了帮大家快速回顾了Java中知识点,这套面试手册涵盖了诸多Java技术栈的面试题和答案,相信可以帮助大家在最短的时间内用作面试复习,能达到事半功倍效果。本来想将文件上传到github上,但由于文件太大有的都无法显示所以…

云原生实时数仓首次在2020双11核心数据场景落地

简介: 这是史上数据量、计算量最大的一年,是实时处理要求最高、与机器智能结合性最强的一次双11,也是全球最大规模的一次云原生实践。背后作为数据核心支撑的大数据平台更是创下新的世界纪录。 刚刚结束的2020天猫双11又创下两项新记录&…

Flink + 强化学习搭建实时推荐系统

大家好,我叫许日花名欢伯,在2016年盒马早期的时候,我就转到了盒马的事业部作为在线数据平台的研发负责人,现在阿里云的计算平台负责DataWorks的建模引擎团队。今天的分享内容也来源于另一位嘉宾李启平(首义&#xff09…

MySQL 避坑指南之隐式数据类型转换

作者 | 不剪发的Tony老师责编 | 欧阳姝黎出品 | CSDN博客????知之为知之,不知为不知,是知也。——《论语》今天我们来聊聊 MySQL 中存在的隐式数据类型转换以及可能带来的问题。当两个不同类型的数据进行运算时,为了使得它们能够兼容&…

二级java题型及分值_计算机二级java考试内容

计算机二级java考试内容Java支持快速原型和容易试验,它将导致快速程序开发。这是一个与传统的、耗时的“编译、链接和测试”形成鲜明对比的精巧的开发过程。下面是小编整理的关于计算机二级java考试内容,希望大家认真阅读!基本要求1.掌握Java语言的特点、…

淘宝直播在冲刺最复杂的人工智能技术!

01 上周,主播林珊珊测试了一下淘宝直播团队依据他个人形象打造的虚拟主播,也就是林珊珊下播以后,让虚拟主播上场,粉丝在直播间可以跟虚拟主播互动,虚拟主播则实时介绍商品,回答消费者提问。 第二天&#x…

2020双十一,阿里云GRTN拉开直播和RTC技术下半场的序幕

直播,已经成为了“剁手党”们最喜闻乐见的一种购物形式。对直播体验的极致追求,也是淘宝技术人们长期的努力方向。为了提升用户购物体验,让直播更加丝滑,让剁手更快一些,在2020双十一期间,淘宝首次启用了阿…