【Linux】如何定位客户端程序的问题

文章目录

      • 1 客户端程序和服务端程序的差别
      • 2 问题类型
        • 2.1 崩溃(crash)
        • 2.2 CPU高
        • 2.3 内存高
        • 2.4 线程卡死
      • 3 总结

1 客户端程序和服务端程序的差别

客户端程序是运行在终端上,通常都会与业务系统共存,而服务端程序通常会运行在单独的节点上,或者作为业务系统与客户端程序共存。

客户端程序主要关注的是资源占用稳定性

  • 资源占用:客户端程序和业务系统共存,不能占用太多宿主机的资源,因此,客户端程序需要有能力限制自身的资源利用率,例如使用cgroup等机制
  • 稳定性:客户端程序需要使用操作系统的许多机制,有时候还会使用内核模块,这可能会导致系统崩溃,在使用时需要详细评估

服务端程序主要关注的是业务功能性能

  • 业务功能:前端作为展示入口,大量的功能需要服务端提供
  • 性能:用户在操作系统时,最直观的感受是页面渲染的速度,这一方面包括前端页面展示的速度,另一方面还包括后端处理的速度,在使用一些消息队列时,还需要关注消息队列的拥塞导致的性能下降的问题

2 问题类型

2.1 崩溃(crash)

崩溃是程序遇到无法处理的错误时异常退出,对于程序来说,通常有两类错误:

  • 预期会产生的错误,这种错误可以打印日志,然后让程序继续执行,或者进行重试
  • 非预期的错误,这种错误通常无法完全避免,可能是代码缺少异常处理逻辑,也可能是并发处理造成的异常

对于预期会产生的错误,通常会有语言级别的处理机制:

  • golang中有panic/recover
  • c++/java中有try/catch
  • python中有try/except

而对于非预期的错误,通常会造成程序崩溃,通常只能在问题出现时进行定位。

当程序崩溃时,最常用的手段是通过调用栈定位出现问题的代码行,然后根据出现问题代码行确认问题出现的原因和场景。

对于C++语言来说,如果是在开发环境崩溃,可以通过配置coredump的参数使得程序崩溃时生成core文件,然后使用gdb program core命令打开core文件,再执行bt查看崩溃时的堆栈。如果之前程序崩溃时没有拿到core文件,现在希望复现得到堆栈,可以直接使用gdb命令启动程序:gdb program或者gdb --args program args(分别对应程序启动时不带参数和带参数的情况),这种方式可以用于处理不能复现的崩溃。

如果是在生产环境崩溃,那肯定就不能直接使用gdb定位:

  • 生产环境执行的程序一般没有调试信息,也就是编译时不会带上-g选项
  • 生产环境的权限一般管控很严格,不能随意登录和执行命令

如果是自有的服务器,可以开启服务器的coredump的参数,使得程序崩溃时生成coredump,当监控程序发现新的coredump文件,可以将coredump文件上报再将本地文件删除,开发人员可以从服务端下载coredump,然后使用gdb打开coredump找到对应的代码行。

以下面的代码为例:

// main.cpp
#include <iostream>void func() {int *ptr = nullptr;*ptr = 0;
}int main() {func();
}

上述代码会在func()函数中的*ptr = 0处崩溃。

使用g++ -o main main.cpp编译上述程序,此时的二进制中是包含符号信息的(file main的输出包含字符串not stripped,使用nm main也可以看到输出了很多符号名),使用strip main将符号信息移除(使用nm main可以确认符号信息已被移除,输出no symbols),而二进制还是可以执行。

然后执行main二进制会发现生成core文件(当然,前提是已经配置过coredump的参数)。

执行gdb,然后在gdb中加载生成的core文件:core-file core-main.3272.1714987794(里面的core-main.3272.1714987794就是生成的core文件),此时用bt命令查看崩溃堆栈时会发现只有地址(崩溃的地址为0x000056382360917d)而不知道实际调用栈,而且这个地址还是加载到内存中的地址。然后执行info proc mappings可以查看内存加载的映像:

Mapped address spaces:Start Addr           End Addr       Size     Offset objfile0x563823608000     0x563823609000     0x1000        0x0 /root/crash/main0x563823609000     0x56382360a000     0x1000     0x1000 /root/crash/main0x56382360a000     0x56382360b000     0x1000     0x2000 /root/crash/main0x56382360b000     0x56382360c000     0x1000     0x2000 /root/crash/main0x56382360c000     0x56382360d000     0x1000     0x3000 /root/crash/main

根据崩溃的地址可以找到代码段的偏移量为0x1000,因此,崩溃的地址在二进制文件中的地址为0x117d,然后使用IDA软件打开二进制文件,会发现崩溃的指令为:

请添加图片描述

对照源代码,也能够发现代码是崩溃在*ptr = 0

如果不想使用IDA,也可以使用addr2line工具通过该地址得到符号信息:addr2line -f -e main.bak -a 0x117d(此处的main.bak是执行strip命令前的带符号信息的二进制),会发现输出信息只包含所在的函数的名称,而且还是编译之后的函数名,也可以大致猜出对应的函数名,不过还是没有定位到具体的行,具体的行还是需要使用IDA软件查看。

总之,定位crash的方法主要就是通过生成的core文件中的堆栈地址得到源代码指令,然后再结合日志确定crash的原因和场景。

不过,这里有个问题:如果程序运行在自己的机器或者是定位可以复现的机器,是可以先配置core文件的大小和路径的,然后运行程序得到core,如果程序运行在其他人的机器上呢?难道每次都要求对方先配置下core吗?而且还需要管理生成的core文件,防止撑爆磁盘。

因此,需要有一种能力,可以在程序崩溃时自动生成core,并且将core上传到某个地方进行统一分析,Google的Breadpad就可以完成这项工作,它生成的core文件比较小,适合上报到服务端进行分析。

综上:

  • 想办法获取到程序崩溃的堆栈文件(开发环境配置crash路径,生产环境使用Breadpad)
  • 根据堆栈文件查看崩溃时的函数调用栈以及崩溃地址(如果带符号,可以直接获取到崩溃的代码行)
  • 在带符号的二进制查找函数调用栈和崩溃的地址,就可以得到崩溃时的函数调用关系和代码行(根据崩溃的地址找到对应的代码行需要借助IDA)
  • 根据崩溃的代码行猜测可能崩溃的原因和出现的场景,原因大部分都是由于访问空指针或者访问已经回收的指针
  • 审查代码逻辑,确认出现问题的场景,然后确认修复方案
2.2 CPU高

CPU高分为内核态CPU占比高和用户态CPU占比高,分别表示执行系统调用和执行用户程序的耗时占比。

对于CPU高的问题,首先是能够发现CPU高的进程,这通常是通过toppidstat命令来发现,首先通过top命令查看当前运行的进程的CPU占比(此处的%CPU包含内核态和用户态),观察一会发现某个进程的CPU占比高,然后使用pidstat -p PID 1 10查看该进程在10秒内的CPU占比情况,确定该进程是内核态CPU占比高还是用户态CPU占比高,或者是都高。

现在的程序通常都是多线程,如果发现某个进程的CPU高,可以先使用top -H -p PID确认是哪个线程的CPU高,然后再根据线程名称或者日志确认该线程属于哪个功能模块,当然,如果有每个线程的监控数据的话就可以直接看到哪个线程的CPU高。

再使用perf工具对进程进行采样,生成该进程的火焰图,确认耗时比较高的操作,可能是某个系统调用比较频繁,而该系统调用又比较耗时,也可能是某个用户态操作执行太过频繁。

在CPU高的场景中有类特殊的场景:死循环。死循环既可以造成CPU高,也可能造成内存高:当某个线程的用户态CPU占比高,而该线程的逻辑中有循环,则可能是死循环导致。

2.3 内存高

与CPU高的问题类似,首先是需要发现内存高的进程,这通常是通过top和监控程序来发现。

常用的内存分析工具:

  • Valgrind:Valgrind是Linux的一套开源的仿真调试工具的集合,由内核和调试工具组成。内核模拟CPU环境,调试工具利用模拟的CPU环境实现各种调试任务。
  • Gperftools:Gperftools通过在用户代码中嵌入检测代码实现内存泄漏检测和CPU性能分析,由于不需要模拟器,通常比Valgrind更高效,适合生产环境或者对性能要求比较高的场景。
  • Heaptrack:Heaptrack主要用于堆内存分析,可以追踪所有的内存分配并用调用栈进行注释。
  • AddressSanitizer(ASAN):内存错误检查器,可以检查堆栈缓冲区溢出、内存泄漏等问题。
2.4 线程卡死

线程卡死是另一类不常出现,但是出现后也不太好定位的问题,从现象上看,就是线程不工作或者不处理任务了。

通常有两种方式发现线程卡死的问题:

  • 程序定时打印日志(例如,打印性能指标数据),旁路进程监控日志的打印,如果一段时间没有打印日志,说明线程可能卡死,可以尝试干掉线程
  • 多次查看程序的用户态堆栈(/proc/pid/stack只能查看内核态堆栈,使用pstack或者gdb工具可以查看用户态堆栈),如果每次都一样,该线程可能卡死

使用gdb查看线程堆栈时,先执行gdb -p PID连接到某个进程,然后执行info threads查看所有的线程,每个线程前面有个序号,执行thread XX(XX就是线程前面的序号)可以切换到该线程,最后执行bt就可以查看该线程的用户态堆栈,而且,这个时候如果每个线程的都有唯一的名字就可以很容易确认线程的功能模块。

当程序运行在客户环境时,如果需要安装额外的软件是不太合适的,因此,第二种方式通常用于开发或者内部测试环境使用,取而代之的是程序可以使用命令行的方式获取自身的堆栈信息。

C++中可以使用glibc的backtrace或者第三方的libunwind

  • backtrace:backtrace适合快速获取当前线程的堆栈信息,开销比较小,在多线程环境中需要增加额外的逻辑
  • libunwind:libunwind适合需要精确控制堆栈信息获取过程的场景,支持跨平台,可以为每个线程独立获取堆栈信息

综上:

  • 如果某个功能没有打印任何日志,并且也不工作(不处理请求),可以怀疑线程退出和卡死
  • 对于开发和可以安装软件的环境来说,可以使用pstack或者gdb多次查看线程堆栈,确认线程是退出还是卡死以及卡死的代码
  • 对于正式和无法安装软件的环境来说,程序可以集成libunwind库来获取多线程的堆栈,并提供命令行的方式输出多线程的堆栈,多次获取多线程的堆栈,确认线程是退出还是卡死

3 总结

不管什么语言开发的程序,都会遇到两类比较棘手的问题:崩溃和性能问题,其中性能问题又可以分为CPU占用高和内存占用高。

对于崩溃,不同的语言有自己处理方式:

  • C/C++需要获取core文件,根据堆栈分析出现问题的代码行,开发环境可以配置core路径,正式环境可以使用Breadpad
  • golang中可以将GOTRACEBACK设置为crash让程序崩溃时生成core文件(但是,发现用gdb打开时没有程序的符号名,并且core文件很大),也可以在程序退出时利用runtime/debug中的Stack()获取堆栈
  • lua是脚本语言,不会由于指针问题崩溃,但是在出现无法处理问题的时候也会崩溃(例如,给cjson.decode()传递不是json的字符串)而退出lua线程,因此,lua提供了xpcall()函数,将函数放在xpcall()中执行时如果出现问题得到调用堆栈

对于CPU高和内存高的问题,统一算作性能问题,性能问题需要通过perfvalgrind工具进行分析,找到导致问题的代码,然后重新审查代码,再给出优化方案。

对于线程卡死的问题,需要结合堆栈和代码,确认线程是已经退出,还是执行慢,或者是卡死在某个操作中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/834237.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Shell编程之条件语句与case语句

目录 1.条件测试 1.1 文件测试 1.2 整数测试 1.3 字符串测试 1.4 逻辑测试 2.if语句 2.1 单分支if语句 2.2 双分支if语句 2.3 多分支if语句 3.case分支语句 1.条件测试 test命令 Shell环境根据命令执行后的返回状态值&#xff08;$?&#xff09;来判断是否执行成功…

找最大数字-第12届蓝桥杯国赛Python真题解析

[导读]&#xff1a;超平老师的Scratch蓝桥杯真题解读系列在推出之后&#xff0c;受到了广大老师和家长的好评&#xff0c;非常感谢各位的认可和厚爱。作为回馈&#xff0c;超平老师计划推出《Python蓝桥杯真题解析100讲》&#xff0c;这是解读系列的第60讲。 找最大数字&#…

你会拧螺丝吗?来看看如何拧紧螺丝?——SunTorque智能扭矩系统

智能扭矩系统-智能拧紧系统-扭矩自动控制系统-SunTorque 螺丝拧紧看似简单&#xff0c;却是一门需要技巧和耐心的技术活。很多人可能会认为&#xff0c;只要把螺丝旋进孔里&#xff0c;用力拧紧就可以了。但实际上&#xff0c;拧紧螺丝的过程远不止如此。在这篇文章中&#xf…

FPGA+DDR+SERDES+USB3.0单向传输机方案,数据只能单向传输,避免反向攻击,确保系统安全

FPGADDRSERDESUSB3.0方案&#xff0c;设备包含发送端接收端&#xff0c;物料上采用光纤通讯&#xff0c;数据只能单向传输&#xff0c;避免反向攻击&#xff0c;确保系统安全 客户应用:高安全、高可靠性要求的场景 主要性能: 1.支持USB3.0传输&#xff0c;实测可达到350MB/s 2.…

做安卓应用开发的我,转前端开发了

距离转前端开发已经快3个月了&#xff0c;现在自己也慢慢的熟悉了开发。 在2月份的时候。领导找我们移动小组的谈话&#xff0c;主要是关于转前端或者后端的问题。由于公司移动端的选型&#xff0c;对安卓原生的需求降低&#xff0c;问下我们转其他开发的需求。 我毫不犹豫的选…

【C++】滑动窗口:最大连续1的个数

1.题目 2.算法思路 其实在做这道题的时候并不需要真的把0翻转成1&#xff0c;只需要找到最长的子数组且该子数组中0的个数不大于K&#xff0c;就可以了&#xff01; 当然我们首先想到的是暴力穷举法&#xff1a; 找到所有符合题意的子数组&#xff0c;跳出最长的那个就可以了…

Spring AI实战之一:快速体验(OpenAI)

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码)&#xff1a;https://github.com/zq2599/blog_demos 关于Spring AI Spring Boot、Spring Cloud、Spring Data&#xff0c;作为一名Java程序员&#xff0c;相信您对这些概览早已耳熟能详&#xff0c;或者天天在用…

Django中如何让页面之间建立关系

今天给大家讲解两种让页面建立联系的方式 一、重定向 二、表单提交 先看第一种方式&#xff0c;重定向 首先需要了解客户端发起请求的过程 1、客户端向服务端发起请求,比如请求地址是&#xff1a;http://127.0.0.1:8000/lili/submit/ 2、程序根据路由找到视图函数 3、执行视…

sqlserver中替换空格和换行

sqlserver 中换行符&#xff0c;如下&#xff1a; sql语句如下&#xff08;只是在window系统中&#xff09;&#xff1a; //替换换行-使用char(10)或者char(13) select REPLACE(F_CNKITitle ,char(10),) title from tzkj_CNKIContent tc where --F_CnkiContentID ffdc7412-41…

AI智剪新风尚:一键操作,批量视频剪辑轻松入门

随着科技的飞速进步&#xff0c;人工智能(AI)已逐渐渗透到我们生活的各个领域&#xff0c;其中&#xff0c;AI视频剪辑技术的出现&#xff0c;为视频制作带来了革命性的变革。如今&#xff0c;一键操作、批量处理的AI智剪正成为视频剪辑的新风尚&#xff0c;让剪辑工作变得前所…

Mysql进阶-索引篇

Mysql进阶 存储引擎前言特点对比 索引介绍常见的索引结构索引分类索引语法sql分析索引使用原则索引失效的几种情况sql提示覆盖索引前缀索引索引设计原则 存储引擎 前言 Mysql的体系结构&#xff1a; 连接层 最上层是一些客户端和链接服务&#xff0c;主要完成一些类似于连接…

访问网络附加存储:nfs

文章目录 访问网络附加存储一、网络附加存储1.1、存储类型1.3、通过NFS挂载NAS1.4、NFS挂载过程服务端客户端 二、实验&#xff1a;搭建NFS服务端及挂载到nfs客户端服务端客户端测试命令合集服务端客户端 访问网络附加存储 一、网络附加存储 1.1、存储类型 DAS&#xff1a;Di…

零代码编程:用Kimichat从PDF文件中批量提取图片

一个PDF文件中&#xff0c;有很多图片&#xff0c;想批量提取出来&#xff0c;可以借助kimi智能助手。 在借助kimi智能助手中输入提示词&#xff1a; 你是一个Python编程专家&#xff0c;要完成一个网页爬取Python脚本的任务&#xff0c;具体步骤如下&#xff1a; 打开文件夹…

2024年融资融券利率最新变化,又降低了?

最近有很多朋友在问我问融资融券的业务&#xff0c;都是比较关心这个利率的问题。确实&#xff0c;做融资融券最重要的利率&#xff0c;利率低会节省很大一笔资金&#xff0c;今天在这边给大家对接一个上市券商&#xff0c;可以给到大家万一的交易佣金和5%的融资利率&#xff0…

乡村振兴规划设计一站式资料大全,能为乡村振兴从业者带来什么帮助?

乡村振兴规划设计一站式资料大全对于乡村振兴从业者来说&#xff0c;具有非常重要的帮助作用。这种资料大全通常包含了从政策解读、市场分析、规划设计、到实施策略等各个方面的详尽信息&#xff0c;能够极大地提升从业者的工作效率和专业能力。 具体来说&#xff0c;乡村振兴规…

Python selenium

1.搭建环境 1.安装&#xff1a; pip install msedge-selenium-tools 不要使用pip install selenium&#xff0c;我的电脑上没法运行 2.下载驱动 Microsoft Edge WebDriver |Microsoft Edge 开发人员 edge浏览器点设置---关于即可找到版本号&#xff0c;一定要下载对应版…

实践精益理念:精益生产培训助力企业持续增长

在日益激烈的市场竞争中&#xff0c;企业如何寻找持续增长的动力&#xff0c;提升整体创新能力和核心竞争力&#xff1f;张驰咨询通过多年来的深入研究和实践&#xff0c;结合众多企业的实际情况&#xff0c;带来了精益生产培训的全新视角。 在近期举办的一次精益生产培训中&am…

五种算法(BWO、RUN、SO、HO、GWO)求解复杂城市地形下无人机路径规划,可以修改障碍物及起始点(MATLAB)

一、算法介绍 &#xff08;1&#xff09;白鲸优化算法BWO 参考文献&#xff1a;Zhong C, Li G, Meng Z. Beluga whale optimization: A novel nature-inspired metaheuristic algorithm[J]. Knowledge-Based Systems, 2022, 109215. &#xff08;2&#xff09;龙格-库塔优化…

服务器数据恢复—RAID5磁盘阵列两块盘离线的数据恢复过程

服务器故障&#xff1a; 服务器中有一组由多块硬盘组建的raid5磁盘阵列&#xff0c;服务器阵列中2块硬盘先后掉线导致服务器崩溃。 服务器数据恢复过程&#xff1a; 1、将故障服务器中所有磁盘编号后取出&#xff0c;由硬件工程师对掉线的两块磁盘进行物理故障检测&#xff0c…

二层交换机与路由器连通上网实验

华为二层交换机与路由器连通上网实验 二层交换机是一种网络设备&#xff0c;用于在局域网&#xff08;LAN&#xff09;中转发数据帧。它工作在OSI模型的第二层&#xff0c;即数据链路层。二层交换机通过学习和维护MAC地址表&#xff0c;实现了数据的快速转发和广播域的隔离。 实…