【Linux常用命令14】Linux系统监控常用命令

proc文件系统

/proc/cmdline 加载kernel时的相关指令与参数
/proc/cpuinfo CPU相关信息，包含频率、类型与运算功能
/proc/devices 记录了系统各个主要设备的主设备号码
/proc/filesystems 记录系统加载的文件系统
/proc/loadavg 平均负载值 top看到就是这个
/proc/meminfo 内存信息，free命令看到就是这个
/proc/modules 系统已经加载的模块
/proc/mounts 系统已经挂载的数据 mount看到就是这个数据
/proc/partitions 系统的分区文件
/proc/version 系统的核心版本 uname -a看到的内容

vmstat：Linux/Unix监控工具，含义为显示虚拟内存状态（“VirtualMemory Statistics”），但也可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率，内存使用，虚拟内存交换情况, IO读写情况

vmstat
参数：
-V：显示vmstat版本信息
-n：只在开始时显示一次各字段名称
-a：显示活跃和非活跃内存
-d：显示各个磁盘相关统计信息
-D：显示磁盘总体信息
-p：显示指定磁盘分区统计信息
-s：显示内存相关统计信息及多种系统活动数量
-m：显示slabinfo
-t：在输出信息的时候也将时间一并输出出来
-S：使用指定单位显示。参数有k、K、m、M，默认单位为K
delay：刷新时间间隔。如果不指定，只显示一条结果
count：刷新次数。如果不指定刷新次数，但指定了刷新时间间隔，这时刷新次数为无穷
#示例
[root@izb1j05w8ldmtn1ylavvdfz ~]# vmstat 
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st0  0      0 13607936 289580 1974108    0    0     0     1    3    0  0  0 99  0  0

解释：
procs 进程信息字段：
-r：等待运行的进程数，数量越大，系统越繁忙。
-b：阻塞进程数量，数量越大，系统越繁忙。
查看 CPU 核心数：cat /proc/cpuinfo|grep processor|wc -lmemory 内存信息字段：
-swpd：虚拟内存的使用情况，单位为 KB。
-free：空闲的内存容量，单位为 KB。
-buff：缓冲的内存容量，单位为 KB。
-cache：缓存的内存容量，单位为 KB。

swap 交换分区信息字段：
-si：从磁盘中交换到内存中数据的数量，单位为 KB。
-so：从内存中交换到磁盘中数据的数量，单位为 KB。
这两个数越大，表明数据需要经常在磁盘和内存之间进行交换，系统性能越差。io 磁盘读/写信息字段：
-bi：从块设备中读入的数据的总量，单位是块。
-bo：写到块设备的数据的总量，单位是块。
这两个数越大，代表系统的 I/O 越繁忙。所谓中断就是指CPU在正常执行程序的时候，由于内部/外部事件的出发、或由程序预先设定而引起CPU暂时中止当前正在执行的程序，保存被执行程序相关信息到栈中，转而去执行为内部/外部事件、或由程序预先设定的事件的中断服务子程序，待执行完中断服务子程序后，CPU再获取被保存在栈中被中断的程序的信息，继续执行被中断的程序，这一过程叫做中断。system 系统信息字段：
-in：每秒被中断的进程次数。
-cs：每秒进行的事件切换次数。
这两个数越大，代表系统与接口设备的通信越繁忙。cpu CPU信息字段：
-us：非内核进程消耗 CPU 运算时间的百分比。
-sy：内核进程消耗 CPU 运算时间的百分比。
-id：空闲 CPU 的百分比。
-wa：等待 I/O 所消耗的 CPU 百分比。
-st：被虚拟机所盗用的 CPU 百分比。
一般来说，id + us + sy = 100

mpstat：Multiprocessor Statistics，是实时系统监控工具。其报告与CPU的一些统计信息，这些信息存放在/proc/stat文件中。在多CPUs系统里，其不但能查看所有CPU的平均状况信息，而且能够查看特定CPU的信息

[root@izb1j05w8ldmtn1ylavvdfz ~]# mpstat 
Linux 3.10.0-1160.53.1.el7.x86_64 (izb1j05w8ldmtn1ylavvdfz)     03/14/2023  _x86_64_    (8 CPU)

10:35:28 AM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
10:35:28 AM  all    0.31    0.00    0.31    0.01    0.00    0.00    0.00    0.00    0.00   99.37参数详解：
%user   在internal时间段里，用户态的CPU时间(%)，不包含nice值为负进程 (usr/total)*100
%nice   在internal时间段里，nice值为负进程的CPU时间(%) (nice/total)*100
%sys    在internal时间段里，内核时间(%) (system/total)*100
%iowait 在internal时间段里，硬盘IO等待时间(%) (iowait/total)*100
%irq    在internal时间段里，硬中断时间(%) (irq/total)*100
%soft   在internal时间段里，软中断时间(%) (softirq/total)*100
%idle   在internal时间段里，CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间(%) (idle/total)*100

iostat：监视系统输入输出设备和CPU的使用情况。它的特点是汇报磁盘活动统计情况，同时也会汇报出CPU使用情况。iostat弱点就是它不能对某个进程进行深入分析，仅对系统的整体情况进行分析。能查看到系统IO状态信息，从而确定IO性能是否存在瓶颈

iostat
选项：
-c：仅显示CPU使用情况；
-d：仅显示设备利用率；
-k：显示状态以千字节每秒为单位，而不使用块每秒；
-m：显示状态以兆字节每秒为单位；
-p：仅显示块设备和所有被使用的其他分区的状态；
-t：显示每个报告产生时的时间；
-V：显示版号并退出；
-x：显示扩展状态。
#示例
[root@izb1j05w8ldmtn1ylavvdfz ~]# iostat 
Linux 3.10.0-1160.53.1.el7.x86_64 (izb1j05w8ldmtn1ylavvdfz)     03/14/2023  _x86_64_    (8 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle0.31    0.00    0.31    0.01    0.00   99.37

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
vda               0.62         0.35         6.71     443065    8471248
vdb               0.07         0.80         0.94    1014905    1187808详细说明：
第一行是系统信息和监测时间
第二行和第三行显示CPU使用情况（具体内容和mpstat命令相同）
第四行：
Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
vda               0.62         0.35         6.71     443065    8471248
vdb               0.07         0.80         0.94    1014905    1187808tps：        该设备每秒的传输次数
kB_read/s：  每秒从设备（drive expressed）读取的数据量；
kB_wrtn/s：  每秒向设备（drive expressed）写入的数据量；
kB_read：    读取的总数据量；
kB_wrtn：    写入的总数量数据量；

sar：（System Activity Reporter 系统活动情况报告）是目前 Linux上最为全面的系统性能分析工具之一，可以从多方面对系统的活动进行报告，包括：文件的读写情况、系统调用的使用情况、磁盘I/O、CPU效率、内存使用状况、进程活动及IPC有关的活动等

sar
选项：
-t为采样间隔，n为采样次数，默认值是1；
-o file表示将命令结果以二进制格式存放在文件中，file 是文件名。
options 为命令行选项，sar命令常用选项如下：
-A：所有报告的总和
-u：输出CPU使用情况的统计信息
-v：输出inode、文件和其他内核表的统计信息
-d：输出每一个块设备的活动信息
-r：输出内存和交换空间的统计信息
-b：显示I/O和传送速率的统计信息
-a：文件读写情况
-c：输出进程统计信息，每秒创建的进程数
-R：输出内存页面的统计信息
-y：终端设备活动情况
-w：输出系统交换活动信息
#示例1，CPU资源监控
[root@izb1j05w8ldmtn1ylavvdfz ~]# sar -u 2 3    #每2秒采样一次，连续采样3次，观察CPU 的使用情况
Linux 3.10.0-1160.53.1.el7.x86_64 (izb1j05w8ldmtn1ylavvdfz)     03/14/2023  _x86_64_    (8 CPU)

10:42:33 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle
10:42:35 AM     all      0.25      0.00      0.19      0.00      0.00     99.56
10:42:37 AM     all      0.25      0.00      0.19      0.00      0.00     99.56
10:42:39 AM     all      0.31      0.00      0.31      0.00      0.00     99.37
Average:        all      0.27      0.00      0.23      0.00      0.00     99.50

CPU：all 表示统计信息为所有 CPU 的平均值。
%user：显示在用户级别(application)运行使用 CPU 总时间的百分比。
%nice：显示在用户级别，用于nice操作，所占用 CPU 总时间的百分比。
%system：在核心级别(kernel)运行所使用 CPU 总时间的百分比。
%iowait：显示用于等待I/O操作占用 CPU 总时间的百分比。
%steal：管理程序(hypervisor)为另一个虚拟进程提供服务而等待虚拟CPU 的百分比。
%idle：显示 CPU 空闲时间占用 CPU 总时间的百分比。
注：
%iowait 的值过高，表示硬盘存在I/O瓶颈
%idle 的值高但系统响应慢时，有可能是 CPU 等待分配内存，此时应加大内存容量
%idle 的值持续低于1，则系统的CPU处理能力相对较低，表明系统中最需要解决的资源是CPU
#示例2，inode、文件和其他内核表的统计信息
[root@izb1j05w8ldmtn1ylavvdfz ~]# sar -v 2 3    #每2秒采样一次，连续采样3次，观察核心表的状态
Linux 3.10.0-1160.53.1.el7.x86_64 (izb1j05w8ldmtn1ylavvdfz)     03/14/2023  _x86_64_    (8 CPU)

10:45:51 AM dentunusd   file-nr  inode-nr    pty-nr
10:45:53 AM     46892      1152     43848         4
10:45:55 AM     46892      1184     43849         4
10:45:57 AM     46892      1120     43849         4
Average:        46892      1152     43849         4

dentunusd：目录高速缓存中未被使用的条目数量
file-nr：文件句柄（file handle）的使用数量
inode-nr：索引节点句柄（inode handle）的使用数量
pty-nr：使用的pty数量
#示例3，内存和交换空间监控
[root@izb1j05w8ldmtn1ylavvdfz ~]# sar -r 2 3    #每2秒采样一次，连续采样3次，观察内存分页使用情况
Linux 3.10.0-1160.53.1.el7.x86_64 (izb1j05w8ldmtn1ylavvdfz)     03/14/2023  _x86_64_    (8 CPU)

10:47:27 AM kbmemfree kbmemused  %memused kbbuffers  kbcached  kbcommit   %commit  kbactive   kbinact   kbdirty
10:47:29 AM  13607024   2640280     16.25    289588   1893628    463088      2.85   1671016    626404        52
10:47:31 AM  13607116   2640188     16.25    289588   1893628    463088      2.85   1671040    626404        52
10:47:33 AM  13607256   2640048     16.25    289588   1893628    463088      2.85   1670996    626404        52
Average:     13607132   2640172     16.25    289588   1893628    463088      2.85   1671017    626404        52

kbmemfree：这个值和free命令中的free值基本一致,所以它不包括buffer和cache的空间.
kbmemused：这个值和free命令中的used值基本一致,所以它包括buffer和cache的空间.
%memused：这个值是kbmemused和内存总量(不包括swap)的一个百分比.
kbbuffers和kbcached：这两个值就是free命令中的buffer和cache.
kbcommit：保证当前系统所需要的内存,即为了确保不溢出而需要的内存(RAM+swap).
%commit：这个值是kbcommit与内存总量(包括swap)的一个百分比.
kbactive: 活跃内存(经常使用不回收的内存,只有在必须被需要时回收)
kbinact: 不活跃内存(最近不经常使用, 更有可能回收给其他进程使用)
kbdirty: 等待被写会硬盘的内存

[root@izb1j05w8ldmtn1ylavvdfz ~]# sar -B 2 3    #每2秒采样一次，连续采样3次，观察交换空间使用情况
Linux 3.10.0-1160.53.1.el7.x86_64 (izb1j05w8ldmtn1ylavvdfz)     03/14/2023  _x86_64_    (8 CPU)

10:50:44 AM  pgpgin/s pgpgout/s   fault/s  majflt/s  pgfree/s pgscank/s pgscand/s pgsteal/s    %vmeff
10:50:46 AM      0.00      0.00   1912.00      0.00    528.00      0.00      0.00      0.00      0.00
10:50:48 AM      0.00      6.00   1287.00      0.00    535.00      0.00      0.00      0.00      0.00
10:50:50 AM      0.00      8.00   1306.50      0.00    638.00      0.00      0.00      0.00      0.00
Average:         0.00      4.67   1501.83      0.00    567.00      0.00      0.00      0.00      0.00

pgpgin/s：表示每秒从磁盘或SWAP置换到内存的字节数(KB)
pgpgout/s：表示每秒从内存置换到磁盘或SWAP的字节数(KB)
fault/s：每秒钟系统产生的缺页数,即主缺页与次缺页之和(major +minor)
majflt/s：每秒钟产生的主缺页数.
pgfree/s：每秒被放入空闲队列中的页个数
pgscank/s：每秒被kswapd扫描的页个数
pgscand/s：每秒直接被扫描的页个数
pgsteal/s：每秒钟从cache中被清除来满足内存需要的页个数
%vmeff：每秒清除的页(pgsteal)占总扫描页(pgscank+pgscand)的百分比
#示例4，I/O和传送速率监控
[root@izb1j05w8ldmtn1ylavvdfz ~]# sar -b 2 3    #每2秒采样一次，连续采样3次，观察缓冲区的使用情况
Linux 3.10.0-1160.53.1.el7.x86_64 (izb1j05w8ldmtn1ylavvdfz)     03/14/2023  _x86_64_    (8 CPU)

10:52:17 AM       tps      rtps      wtps   bread/s   bwrtn/s
10:52:19 AM      0.00      0.00      0.00      0.00      0.00
10:52:21 AM      0.00      0.00      0.00      0.00      0.00
10:52:23 AM      0.00      0.00      0.00      0.00      0.00
Average:         0.00      0.00      0.00      0.00      0.00

tps：每秒钟物理设备的 I/O 传输总量
rtps：每秒钟从物理设备读入的数据总量
wtps：每秒钟向物理设备写入的数据总量
bread/s：每秒钟从物理设备读入的数据量，单位为 块/s
bwrtn/s：每秒钟向物理设备写入的数据量，单位为 块/s
#示例5，进程队列长度和平均负载状态监控
[root@izb1j05w8ldmtn1ylavvdfz ~]# sar -q 2 3    #每2秒采样一次，连续采样3次，观察进程队列长度和平均负载状态
Linux 3.10.0-1160.53.1.el7.x86_64 (izb1j05w8ldmtn1ylavvdfz)     03/14/2023  _x86_64_    (8 CPU)

10:54:58 AM   runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15   blocked
10:55:00 AM         1       206      0.08      0.04      0.05         0
10:55:02 AM         1       205      0.08      0.04      0.05         0
10:55:04 AM         0       205      0.07      0.04      0.05         0
Average:            1       205      0.08      0.04      0.05         0

runq-sz：运行队列的长度（等待运行的进程数）
plist-sz：进程列表中进程（processes）和线程（threads）的数量
ldavg-1：最后1分钟的系统平均负载（System load average）
ldavg-5：过去5分钟的系统平均负载
ldavg-15：过去15分钟的系统平均负载
#示例6，系统交换活动信息监控
[root@izb1j05w8ldmtn1ylavvdfz ~]# sar -W 2 3    #每2秒采样一次，连续采样3次，观察进系统交换活动信息状态
Linux 3.10.0-1160.53.1.el7.x86_64 (izb1j05w8ldmtn1ylavvdfz)     03/14/2023  _x86_64_    (8 CPU)

10:56:08 AM  pswpin/s pswpout/s
10:56:10 AM      0.00      0.00
10:56:12 AM      0.00      0.00
10:56:14 AM      0.00      0.00
Average:         0.00      0.00

pswpin/s：每秒系统换入的交换页面（swap page）数量
pswpout/s：每秒系统换出的交换页面（swap page）数量
#示例7，设备使用情况监控
[root@izb1j05w8ldmtn1ylavvdfz ~]# sar -d 2 3    #每2秒采样一次，连续采样3次，观察设备使用情况
Linux 3.10.0-1160.53.1.el7.x86_64 (izb1j05w8ldmtn1ylavvdfz)     03/14/2023  _x86_64_    (8 CPU)

10:57:17 AM       DEV       tps  rd_sec/s  wr_sec/s  avgrq-sz  avgqu-sz     await     svctm     %util
10:57:19 AM  dev253-0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
10:57:19 AM dev253-16      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

10:57:19 AM       DEV       tps  rd_sec/s  wr_sec/s  avgrq-sz  avgqu-sz     await     svctm     %util
10:57:21 AM  dev253-0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
10:57:21 AM dev253-16      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

10:57:21 AM       DEV       tps  rd_sec/s  wr_sec/s  avgrq-sz  avgqu-sz     await     svctm     %util
10:57:23 AM  dev253-0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
10:57:23 AM dev253-16      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

Average:          DEV       tps  rd_sec/s  wr_sec/s  avgrq-sz  avgqu-sz     await     svctm     %util
Average:     dev253-0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
Average:    dev253-16      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

tps:每秒从物理磁盘I/O的次数.多个逻辑请求会被合并为一个I/O磁盘请
求,一次传输的大小是不确定的.
rd_sec/s:每秒读扇区的次数.
wr_sec/s:每秒写扇区的次数.
avgrq-sz:平均每次设备I/O操作的数据大小(扇区).
avgqu-sz:磁盘请求队列的平均长度.
await:从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括
请求队列等待时间,单位是毫秒(1秒=1000毫秒).
svctm:系统处理每次请求的平均时间,不包括在请求队列中消耗的时间.
%util:I/O请求占CPU的百分比,比率越大,说明越饱和. 
#注意
avgqu-sz 的值较低时，设备的利用率较高。
当%util的值接近 1 时，表示设备带宽已经占满。

知识点

怀疑CPU存在瓶颈，可用 sar -u 和 sar -q 等来查看
怀疑内存存在瓶颈，可用 sar -B、sar -r 和 sar -W 等来查看
怀疑I/O存在瓶颈，可用 sar -b、sar -u 和 sar -d 等来查看

iotop：用来监视磁盘I/O使用状况的top类工具，实时观察磁盘io情况，可以观察到哪个进程占用I/O

iotop
参数：
-o：只显示有io操作的进程
-b：批量显示，无交互，主要用作记录到文件。
-n NUM：显示NUM次，主要用于非交互式模式。
-d SEC：间隔SEC秒显示一次。
-p PID：监控的进程pid。
-u USER：监控的进程用户。
常用快捷键：
左右箭头：改变排序方式，默认是按IO排序。
r：改变排序顺序。
o：只显示有IO输出的进程。
p：进程/线程的显示方式的切换。
a：显示累积使用量。
q：退出