EISCONN的故事

在这春风明媚的日子里,有位T同学很苦恼。忙碌了一整天,有个BUG愣是定位不出来。简单描述呢,现象是这样子的:

第一次处理是正常的,但是后续的处理就是报错。sendto()调用错误码是 EISCONN(已被连接)。

忧伤的问题

当然,代码BUG的范围也很快确定了,就是新加入的statsd-client-cpp工具库里。代码量不到两百行,失败的地方就是在sendto()的执行里(代码看这儿)。一看错误码(EISCONN,比较少见),说“socket已经被连接”——但咱这明明是UDP协议啊,无连接无connect的!

T同学咨询了周围的大师们,翻阅了《Unix网络编程》(没错,这书在上次的故事里也出场了!),里面说:

sendto()函数的执行流大约是这样子的:

  1. 连接套接字;
  2. 输出数据报文;
  3. 断开套接字连接;

无语了。按照圣经里说法,连接都是被断开了的啊!还怎么会报错“已被连接”?!!

失败的补救

T同学比较耿直,对付BUG比较直接粗暴:报啥错误就解决啥错误!思路有俩:

  1. 人肉断开它!
    这个实际上是行不通的(只能整个儿socket关闭销毁掉,不能只断开)

  2. 连接了也继续发!
    虽然一般情况下UDP协议的程序都是不管连接直接发sendto()的,但是先连接后再write()也是可行的。

于是按照方法2搞起!然而,实践证明这是不给力的,UDP对端根本没有收到任何数据!

正确的思路

这种头痛医头、瞎试几次的做法,本质上就不能算正确的方法。我们的思路应该是:

  1. 收集现象
  2. 分析原因
  3. 验证方案
  4. 解决问题

上面折腾了这么久,基本上还是只有一个错误码和代码出错的位置,现象数据太少了。T同学冷静下来后,开始祭出大杀器strace工具程序!
strace程序能够捕抓系统调用(system call),并把这些调用接口的时间、参数、返回值、耗时等等都记录下来;输出信息可读性相当的高(比起gdb爽多了),能反映出系统最底层的运行状况,是后台开发程序员的居家旅行必备的强(zhuang)大(bi)工具。

神奇的零

具体strace的过程就不多说了。调整进程数量、执行strace、查看log、研究执行状况:

strace32 -s 10086 -o /tmp/Strace.log -tt -p $(pidof -s get_api_key)

强大万能的strace

终于发现一个关键现象:每次的连接socket()返回值都是0!
这里稍微解释一下,为什么零值会是很特殊:socket()返回值表示的是文件描述符;在POSIX标准里,有三个特殊的文件描述符值0、1、2,分别是STDIN(标准输入)、STDOUT(标准输出)、STDERR(标准错误)。所以默认情况下,零值都会作为STDIN(标准输入)使用;只有当程序主动关闭了STDIN时,系统才会分配0值给socket()使用。

所以这时候思路有两个了:

  1. 假如系统分配的0值是正确的,那么得寻找0值后来被“弄坏”(已连接)的出现地方;
  2. 假如系统分配的0值是错误的,那么一定是某处BUG“失误”把STDIN释放掉了;

这种“辩证”的思路,让我忽然想起了《撸撸姐的超本格事件簿》里的给出各种伪解答搞笑助手:每次破案分析都至少有正反两个思路,看起来毫无盲点,但总是被撸撸姐指出第三种情况!哈哈哈!!!不过在现实场景里,正反两面都深入思考的做法,一般帮助很大的。

谁弄坏了0

所以0是被谁弄坏的?怎么弄坏的?

为了深入探究这个问题,得先了解一下程序运行的环境。这个工具库之前已经在现网的服务器里跑了很久,也有两个简约的单元测试。都没有发现过问题。这次是在往CGI接口里使用,运行环境是QZHTTP+FastCGI。

所以正常情况下,STDIN应该是CGI与qzhttp收包程序之间的连接,用来传递HTTP请求报文。而分析到的一个现象是,CGI程序的功能完全正常!也就是说程序之间传递数据(STDIN)是正常的……等等,STDIN(0值)不是分配给我们用吗??为毛还不影响功能啊啊啊???

秘诀就是——dup2(a, b)!!这个函数能够把一个文件描述符的信息拷贝到另一个描述符里!所以文章最初出现的“EISCONN”错误的原因是:

原本UDP无连接的socket,被人用dup2()“篡改”了,于是就变成了另外的文件描述符,出现了“已连接”的状态。

写个小程序验证了一下,果然能够随便拷贝到STDIN描述符里!!!而再次strace抓包查看,也发现了明显的dup调用:

dup2调用证据

可以清晰看到对STDIN、STDOUT都做了dup2()操作!!!太邪恶了!!!火速在万能的StackOverflow.com上也找到了一篇关于0值的问答,里面有人提到了如何解决这个问题!那就是把0、1、2预留下来给系统!老子不陪你们玩零了!!(傲娇地离去!)

另一个思路

等等,刚才怎么这么快就进入了“解决问题”的节奏??? T同学的案例虽然因为屏幕不够长被滚动掉了,但是我们要分析所有的现象找到原因啊!

于是进入刚才的第二个思路:是谁把STDIN给关闭了??

STDIN被close()的证据

深入strace的log,发现close(0)首次出现的位置没有太特别,距离后来socket()和sendto()调用很遥远,暂时发现不了什么(后来细想,考虑时序其实是个误导)。

不过,因为是新引入的库导致了这个问题,基本上猜测要么就是库代码有BUG,要么是库和QZHTTP不兼容。重新阅读代码中与close()有关的片段,尝试梳理一下思路.果然发现一个问题:

代码中的close()

d->sock是个关键的值,而且没有初始化!一般来说变量没有初始化,会是一个随机的值;但是我们的场景里,StatsdClient对象是一个单体实例,以static限定符实现的——所以是有初始值0的——刚好触发了BUG。

解决

再次核对代码逻辑和strace的log,脑补了一下执行的流程,基本上就确认BUG的原因就是这里了。

所以啊,在构造函数里增加一个初始化 d->sock = -1; 问题解决了。

写到这里的时候,忽然想起上两周给赵总用这个工具库,他也出现了一些诡异问题。当时他的现象是:随机出现accept错误。现在看来BUG原因都是一个,只不过赵总的使用方式是临时变量,没初始化的值就是随机值,因此偶然触发故障(他当时引起的是accept失败,也是描述符问题)。而这次是必现的问题,定位起来轻松一些。

思考

所以,要保持良好的代码编写习惯。顺手初始化了,就不会有这么纠结的问题了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/432786.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c语言局限性,C语言陷阱与缺陷.pdf

C 语言陷阱和缺陷[1]winxos 11-01-28winxos 11-01-28原著:Andrew Koenig - AT&T Bell Laboratories Murray Hill, New Jersey 07094原文:收藏翻译:lover_P[译序]那些自认为已经“学完”C 语言的人,请你们仔细读阅读这篇文章吧…

[随记][asp.net基础]Page_Load和OnLoad

标题:[随记][asp.net基础]Page_Load和OnLoad 一、前言 东西好久不用、不想,就会忘,所以没办法,只好记下来。 二、正文 aspx页面加载的时候会自动执行Page_Load,也会执行OnLoad方法,这两个是什么关系呢&…

POLLERR的故事

今天code review时,同事B对我代码中的poll()的处理做法提出了异议。于是做了些研究,还发现了一些好玩的故事。 异议的代码 我的代码是参考manpage写的,类似下面的做法。同事B说没有处理POLLERR、而且应当使用else if。 OK。我赞同补充POLLERR…

c语言内循环,C语言循环控制语句

C语言循环控制语句是一个基于C语言的编程语句,该语句主要有while循环语句、do-while循环语句和for循环语句来实现循环结构。中文名C语言循环控制语句类 别while循环语句,do-while语句等目 地实现循环结构属 于计算机领域归 类编程语句基 …

同步,异步,多线程,你怎么看?

同步,异步,多线程,你怎么看? 原文:同步,异步,多线程,你怎么看?[原创]讲解同步与异步的帖子多如牛毛,个人的理解,简单地说同步就是串行,异步就是并…

openssl-1.0.0b - libssl 移植到ARM Linux

开发环境: ubuntu 10.04 arm-linux-gcc version 4.4.1 目标环境 友善之臂mini6410 linux-2.6.36 移植步骤 1.至官网下载最新的openssl,解压缩 2.cd进入openssl-1.0.0b目录 3.执行./Confiugre linux-elf-arm&#xff0c…

C语言的putpiel函数,C语言graphics.h函数介绍

可编辑(一) 像素函数56. putpiel() 画像素点函数57. getpixel()返回像素色函数(二) 直线和线型函数58. line() 画线函数59. lineto() 画线函数60. linerel() 相对画线函数61. setlinestyle() 设置线型函数62. getlinesettings() 获取线型设置函数63. setwritemode() 设置画线模…

ARM-Linux下交叉编译opessl-1.0.0

本次任务是要完成嵌入式Linux下对openssl程序的支持。 我的开发环境:ARM9开发板 和 嵌入式Linux操作系统。装有Linux系统(我的是ubuntu9.04)的PC机一台。串口和串口连接线。串口调试软件:minicom。交叉编译工具:arm-unknown-l…

modf函数C语言,C / C ++中的modf()

该函数modf()用于将传递的参数拆分为整数和小数。在“ math.h”头文件中声明该变量以进行数学计算。它返回传递的参数的分数值。这是modf()C语言的语法,double modf(double value, double *integral_pointer);这里,值-分为整数和分数的值。积分指针-分割…

codeforces #236 div2 简洁题解

A:A. Nutstime limit per test1 secondmemory limit per test256 megabytesinputstandard inputoutputstandard outputYou have a nuts and lots of boxes. The boxes have a wonderful feature: if you put x (x ≥ 0)divisors (the spacial bars that can divide a box) to…

南京大学c语言试卷,2007年4月南京大学C语言期中试题.doc

2007年4月南京大学C语言期中试题南京大学《C语言程序设计》期中试卷(2006年4月15日)系科 学号______________姓名_____________成绩_______________注意事项:1、答案均写在答题纸上,写在卷面上无效;2、答题结束后将试卷及答题纸全部交给监考教师;3、闭卷…

web通信 长连接、长轮询

http://www.cnblogs.com/hoojo/p/longPolling_comet_jquery_iframe_ajax.html转载于:https://www.cnblogs.com/kszit/p/3605340.html

V210 SPI驱动分析

对于总线设备驱动,是需要分别创建设备和驱动两个结构体,然后根据name,互相匹配,匹配成功后,调用 驱动的probe函数,然后创建设备文件,实现驱动的业务逻辑。 因此,我们就以设备和驱动…

android 有值代码,Android:如何在代码中获取“listPreferredItemHeight”属性的值?

这样做:TypedValue value new TypedValue();((Activity)context).getTheme().resolveAttribute(android.R.attr.listPreferredItemHeight, value, true);编辑:由于尚未正确初始化DisplayMetrics实例,因此您将获得零值。它需要一个参考框架(显…

android 多个按钮响应,处理Android Recyclerview中的多个按钮单击并将响应存储在Array或ArrayList中...

我正在设计在线测验App。我设计了PlayQuiz.java文件如下:public class PlayQuiz extends AppCompatActivity {private RecyclerView recyclerView;DataBaseHelper database;private List quizList;private QuizAdapter adapter;Overrideprotected void onCreate(Bun…

密码学中的“盐值 Salt”

盐(Salt) 在密码学中,是指通过在密码任意固定位置插入特定的字符串,让散列后的结果和使用原始密码的散列结果不相符,这种过程称之为“加盐”。 以上这句话是维基百科上对于 Salt 的定义,但是仅凭这句话还是…

android 主线程调用,Android 主线程和线程之间相互发送消息

通过分析Activity源码,我们知道每个Activity都有一个Looper,所以主线程在接收Message是不需要调用Looper.prepare()和Looper.loop(),但是线程是不带Looper的,当线程要接收来自主线程的消息是就需要调用Looper.prepare()和Looper.l…

10 个十分难得的 javascript 开发经验

Javascript 的很多扩展的特性是的它变得更加的犀利, 同时也给予程序员机会创建更漂亮并且更让用户喜欢的网站。 尽管很多的开发人员都乐于颂扬 javascript,但是仍旧有人看到它的阴暗面。 使用很多 javascript 代码的 web 页面会加载很慢,过多…

简单的UTF8编码生成

用记事本建一个文件,用editplus打开,并转成UTF8格式 然后写中文字符 然后用ultraEdit打开,切换到16机制模式即可

android unzip file,Unzip File in Android Assets

可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效,请关闭广告屏蔽插件后再试):问题:I put a zip file in the android assets. How do i extract the file in the android internal storage? I know how to get the file, but i dont know how t…