一个看似是系统问题的应用问题的解决过程

作者:王小二C  2019/09/04

前言

今天遇到一个问题,应用工程师分析是系统层的问题,然后就把这个锅给了我。最后我又把锅甩回给了应用工程师。

异常log如下:

I [2019-08-18 10:11:08 GMT+8] binder: 1433:1561 transaction failed 29201/-28, size 828-8 line 3135	
W BroadcastQueue: Can't deliver broadcast to com.xxxx.xxxxx (pid 4712). Crashing it.	
W BroadcastQueue: Failure sending broadcast Intent { act=android.intent.action.BATTERY_CHANGED flg=0x60000010 (has extras) }	
W BroadcastQueue: android.os.DeadObjectException: Transaction failed on small parcel; remote process probably died	
W BroadcastQueue:     at android.os.BinderProxy.transactNative(Native Method)	
W BroadcastQueue:     at android.os.BinderProxy.transact(Binder.java:1127)	
W BroadcastQueue:     at android.app.IApplicationThread$Stub$Proxy.scheduleRegisteredReceiver(IApplicationThread.java:1237)	
W BroadcastQueue:     at com.android.server.am.BroadcastQueue.performReceiveLocked(BroadcastQueue.java:496)	
W BroadcastQueue:     at com.android.server.am.BroadcastQueue.deliverToRegisteredReceiverLocked(BroadcastQueue.java:715)	
W BroadcastQueue:     at com.android.server.am.BroadcastQueue.processNextBroadcastLocked(BroadcastQueue.java:875)	
W BroadcastQueue:     at com.android.server.am.BroadcastQueue.processNextBroadcast(BroadcastQueue.java:834)	
W BroadcastQueue:     at com.android.server.am.BroadcastQueue$BroadcastHandler.handleMessage(BroadcastQueue.java:172)	
W BroadcastQueue:     at android.os.Handler.dispatchMessage(Handler.java:106)	
W BroadcastQueue:     at android.os.Looper.loop(Looper.java:193)	
W BroadcastQueue:     at android.os.HandlerThread.run(HandlerThread.java:65)	
W BroadcastQueue:     at com.android.server.ServiceThread.run(ServiceThread.java:44)

初步分析

从log来看的确好像是binder驱动第3135行出现问题(line 3135)

binder: 1433:1561 transaction failed 29201/-28, size 828-8 line 3135

一看Binder.c的代码发现对不上3135行,估计是编译版本不一样,因为测试是user版本,代码优化了,这怎么办?我需要在userdebug的版本上复现此问题。

Binder.c	
3129    if (target_node && target_node->txn_security_ctx) {	
3130              u32 secid;	
3131           size_t added_size;	
3132	
3133            security_task_getsecid(proc->tsk, &secid);	
3134         ret = security_secid_to_secctx(secid, &secctx, &secctx_sz);	
3135           if (ret) {	
3136                  return_error = BR_FAILED_REPLY;	
3137                    return_error_param = ret;	
3138                    return_error_line = __LINE__;	
3139                        goto err_get_secctx_failed;	
3140            }

聪明机智的我瞬间判断应该是对应到3164行,应该是binder server无法申请足够的buffer,别问我怎么想到的,有时候解决问题就得靠猜。

3154    t->buffer = binder_alloc_new_buf(&target_proc->alloc, tr->data_size,	
3155           tr->offsets_size, extra_buffers_size,	
3156             !reply && (t->flags & TF_ONE_WAY));	
3157       if (IS_ERR(t->buffer)) {	
3158                /*	
3159            * -ESRCH indicates VMA cleared. The target is dying.	
3160              */	
3161         return_error_param = PTR_ERR(t->buffer);	
3162          return_error = return_error_param == -ESRCH ?	
3163                    BR_DEAD_REPLY : BR_FAILED_REPLY;	
3164             return_error_line = __LINE__;	
3165         t->buffer = NULL;	
3166         goto err_binder_alloc_buf_failed;	
3167       }

为了证明我判断是对的,我写了如下的一个demo安装到userdebug来制造binder server无法申请足够的buffer的情况

public class MainActivity extends Activity implements View.OnClickListener {	private MyLinear mRoot;	private IMyAidlInterface myAidlInterface;	@Override	protected void onCreate(Bundle savedInstanceState) {	super.onCreate(savedInstanceState);	setContentView(R.layout.activity_main);	mRoot = (MyLinear) findViewById(R.id.root);	mRoot.setOnClickListener(this);	Intent intent = new Intent(this, MyService.class);	bindService(intent, new ServiceConnection() {	@Override	public void onServiceConnected(ComponentName name, IBinder service) {	myAidlInterface = IMyAidlInterface.Stub.asInterface(service);	}	@Override	public void onServiceDisconnected(ComponentName name) {	}	}, Context.BIND_AUTO_CREATE);	}	@Override	public void onClick(View v) {	try {	while (true) {	myAidlInterface.send("dfdafsdfafdasdfadfadsfafd");	}	} catch (Exception e) {	}	}	
}	public class MyService extends Service {	@Override	public IBinder onBind(Intent intent) {	return new MyBinder();	}	public class MyBinder extends IMyAidlInterface.Stub {	@Override	public void send(String e) throws RemoteException {	//后面发现这个4秒的卡顿,不加也可以复现此问题	try {	Thread.sleep(4000);	} catch (Exception ee) {	}	}	}	
}	// IMyAidlInterface.aidl	
package com.tct.activitydemo;	// Declare any non-default types here with import statements	interface IMyAidlInterface {	/**	* Demonstrates some basic types that you can use as parameters	* and return values in AIDL.	*/	oneway void send(String e);	
}

出现的异常log,和之前log相比,除了行数不对,error code是一样的都是29201/-28,而且行数果然是3164行,所以我的推测是对的。

//binder: 1433:1561 transaction failed 29201/-28, size 828-8 line 3135	
binder: 30286:30286 transaction failed 29201/-28, size 140-0 line 3164

#初步分析结论 广播的发送失败是原因,在一次binder通信中,无法向广播注册的App的binder驱动中映射的共享内存申请足够buffer。

#重大发现 我发现出问题的应用注册了300多个广播,都是监听android.intent.action.BATTERY_CHANGED,具体log就不贴了,在bugreport中会有当前系统所有广播的dumpsys的信息。我贴出meminfo的信息,发现三百多个activity没有被GC,因为那个广播是在activity中被动态注册的,所以变相可以证明注册了300多个广播

** MEMINFO in pid 4712 [com.xxxxxxxxxxx] **	
.....省略没用的信息,看下面activity的数量是325 	Objects	Views:    13600         ViewRootImpl:        2	AppContexts:      329           Activities:      325	Assets:        3        AssetManagers:        0	Local Binders:      352        Proxy Binders:      366	Parcel memory:      887         Parcel count:     2235	Death Recipients:        2      OpenSSL Sockets:        0	WebViews:        0

推测

当这个广播发送的时候,由于他的接受者有300多个,每一次接收都会在申请一次buffer,如果短时间一下子申请,非常有可能超过binder驱动的(1mb-8kb)/2的限制,有人会问为什么是(1mb-8kb)/2而不是1mb-8kb,因为scheduleRegisteredReceiver是oneway的,对这个有疑问的,可以看一下我的另外一个文章:[[007]一次Binder通信最大可以传输多大的数据?]

进一步分析

其实一般分析到这里,对于我来说已经可以把锅甩回给了应用层,但是这个问题的好奇心促使我继续分析下去,一定要找到广播重复注册的原因。

涉及保密,我把应用层代码的精简成自己的代码

public class MyActivity extends Activity {	private MyReceiver receiver;	@Override	protected void onCreate(Bundle savedInstanceState) {	super.onCreate(savedInstanceState);	setContentView(R.layout.activity_main2);	IntentFilter intentFilter = new IntentFilter();	intentFilter.addAction("fdafdafsdafaffasdfad");	receiver = new MyReceiver(this);	getApplication().registerReceiver(receiver, intentFilter);	}	@Override	protected void onDestroy() {	try {	//因为上下文不同,会导致unregisterReceiver失败,从而导致MyActivity和MyReceiver,无法被GC	unregisterReceiver(receiver);	} catch (Exception e) {	}	super.onDestroy();	}	public static class MyReceiver extends BroadcastReceiver {	private Context mContext;	public MyReceiver(Context context) {	mContext = context;	}	@Override	public void onReceive(Context context, Intent intent) {	}	}	
}

水落石出

原来应用开发工程师,在registerReceiver和unregisterReceiver使用了不同的context,导致了unregisterReceiver的失败,从而导致MyReceiver的无法被释放,而且这个代码还会导致MyActivity的内存泄露。

举个例子来还原一下这个现场

小明寄了一份投诉信到信访局门口的信箱,然后信访局的1号工作人员拿了这份投诉信,进行处理。这个就是一次完整的oneway的binder通信。但是有一天小明一下子拿了300封投诉信,一封封的塞到信箱里,然后信访局的1~16号工作人员同时拿了16封信进行处理,但是还是架不住小明的塞信的速度,很快信箱就爆了,小明说了一句:垃圾信访局,我信还没有塞完呢。

其实大家可能有点难以理解一次binder通信,内核发生了什么,请看下面图,看懂下图,才能知道我在说什么:

640?wx_fmt=png

References

[1] [007]一次Binder通信最大可以传输多大的数据? 简书地址:https://www.jianshu.com/p/ea4fc6aefaa8

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/468448.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何解决Binder泄漏问题

作者:王小二C 2019/09/06前言[011]一个看似是系统问题的应用问题的解决过程[1]中我们解决了一个注册过多的BroadcastReceiver导致的某一次发送广播失败的问题。我这边遇到了一个类似的问题,但是我用了一个可能网络上从来没有提出过的方法,解…

Docker-compose实战——Django+PostgreSQL

今天我们来用docker-compose 快速安装一个DjangoPostgreSQL的开发环境。 Compose简介 Compose 定位是“defining and running complex applications with Docker”,前身是 Fig,兼容 Fig 的模板文件。 Dockerfile 可以让用户管理一个单独的应用容器&#…

终于赢球了

感谢老将易建联我们要承认一个事实,阿联是这届男篮里面的老将,是唯一一个80后球员,很多人不了解老将意味着什么,很多打篮球的人都有一个感觉,在高中时代的时候,打球的时候经常在天上飞来飞去不觉得累&#…

Zookeeper原理和实战开发经典视频教程 百度云网盘下载

Zookeeper原理和实战开发 经典视频教程 百度云网盘下载 资源下载地址:http://pan.baidu.com/s/1o7ZjPeM 密码:r5yf 转载于:https://www.cnblogs.com/heitaok/p/6979781.html

C语言大神进来看看这个题目

之前一个读者给我发的一个题目,我大概看了下,题目的难度还是比较大的,而且考察的内容也比较多,可能在实际项目上使用比较少,估计十几年的老码农都没有用过,但是在看大神的代码的时候,就特别考验…

qq浏览器主页_安卓浏览器哪家强?这些小众好用的手机浏览器你知道吗

前言无论手机还是电脑,浏览器都可以说是最重要的软件之一了。最流行的 Chrome 和 Firefox,国内常见的还有 UC、QQ、360 浏览器等。手机上可供选择的优秀浏览器还有很多,这次就推荐些其他的小众但是也很好用的安卓手机浏览器。安卓手机浏览器推…

ms access to mysql_Access转MySQL工具

Bullzip MS Access To MySQL是一个Access转MySQL工具,可以帮助用户把MS Access数据库中的内容转到MySQL数据库中,支持全部转换以及有选择的转换,支持命令行,非常适合有Access转MySQL需求的数据库维护人员使用。Bullzip MS Access …

_一文让你透彻理解Linux的SOCKET编程(含实例解析)

1. 网络中进程之间如何通信进 程通信的概念最初来源于单机系统。由于每个进程都在自己的地址范围内运行,为保证两个相互通信的进程之间既互不干扰又协调一致工作,操作系统为进程通信提供了相应设施,如UNIX BSD有:管道(…

老师好

今天是教师节,今年楠哥也上幼儿园了,以后估计会经常跟老师有接触,我楼上的一个邻居,叫老莫,跟我的关系很好,有钱,又有儿有女,大女儿现在已经上小学了,每天上班的时候&…

Linux 下的推迟执行

准备中秋节说个活动,评论文章点赞排名,用心评论哦,前5名获得每人 19 心意红包。感谢大家的支持我最近在用freertos,想让一个任务在某个时间后再执行,找了一圈,竟然没有这样才处理机制,因为也是新…

js 获得明天0点时间戳_js实现一个简单钟表动画(javascript+html5 canvas)

自己学生时代的代码,发现还保存着,今天拿出来分享下。用js和html5 canvas对象实现一个简单钟表程序主要用到的就是h5的canvas对象canvas对象本人也不是很熟,大致看了几个常用的方法,难免有不足之处,仅是练习所用。实现…

mysql 根据当前时间戳_mysql timestamp类型 根据当前时间戳更新

注意到这个是因为一次事故。一个简单的操作记录表,只记录了一个操作人,操作时间,操作结果。当时为了演示效果,在生产环境中去修改,创建数据。一顿操作猛如虎之后发现,所有改过的数据的创建时间都变成了当前…

设置拖拽事件,获取拖拽内容

设置dragEnter 设置DragDrop using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Text.RegularExpressions; using System.Threading.Tasks; using…

笔记本电脑锁_2020年双11有哪些值得选购的笔记本电脑?(全能本/便携高性能笔记本电脑/设计本)...

(本文于2020年10月22日更新)本文章会不定期更新,保证文章的时效性和准确性,可点赞或收藏本文章,这样在需要的时候可以找到啦。文章推荐产品较多,按价位排序,篇幅较长,可按键盘CtrlF快…

300来行代码实现最小Linux文件系统

Linux作为一个类UNIX系统,其文件系统保留了原始UNIX文件系统的表象形式,它看起来是这个样子:rootname-VirtualBox:/# lsbin boot cdrom dev etc home lib lib64 lostfound media mnt opt proc root run sbin snap srv sys …

淘宝怎么多个订单一起付款_淘宝未付款订单如何催付?

淘宝未付款订单如何催付?很多人只认为运营就是技巧,其实客服也是需要技巧的,客服也是关键的数据支撑。一个好的客服团队,能够很好地提高转化率、客单价、复购率,有效的降低退款率、纠纷等售后问题。今天和大家分享一下…

爱大姚,恨男篮

先祝姚明生日快乐2019年9月12日。是中国篮协主席、CBA董事长姚明39岁的生日,时间已经过去几天了,当时铺天盖地的都是其他的热点新闻,很多人,包括我也忘记了这个大个子已经39岁了,看着中国男篮的惨败,很想冲…

Linux 内核系统架构

描述Linux内核的文章已经有上亿字了但是对于初学者,还是应该多学习多看,毕竟上亿字不能一下子就明白的。即使看了所有的Linux 内核文章,估计也还不是很明白,这时候,还是需要fucking the code.28年前(1991年8月26日)Lin…

gif透明背景动画_如何利用premiere制作GIF动态图片

GIF制作流程(也可以用此教程把视频变成GIF动图)作者:益红一、导出设计文件将要做动画的文件在ps里面导出 (透明图层用PNG)(也可以将合适的视频片段作为素材)二、在PR里面新建项目打开 Adobe premiere选择 新建项目找到新建项目 — 命名 —设置合适的项目 位置-点击浏…

离职了

这是我毕业后的第一份工作...面试时,HR小姐姐告诉我...然鹅...我入职之后才发现:对标阿里的只有加班强度对标华为的只有狼性文化对标百度的,额,没有对标百度同事们有的住在海淀区、有的住在朝阳区,作为刚毕业的一枚“穷…