我们经常会使用 top
命令来查看系统的性能情况,在 top
命令的第一行可以看到 load average
这个数据,如下图所示:
load average
包含 3 列,分别表示 1 分钟、5 分钟和 15 分钟的 系统平均负载
系统平均负载:
如果将 CPU 比作是桥梁,对于单核的 CPU 就好比是单车道的桥梁。每次桥梁只能让一辆汽车通过,并且要以规定的速度通过。那么:
- 如果每个时刻都只有一辆汽车通过,那么所有汽车都不用排队,此时桥梁的使用率最高。以平均负载 1.0 表示,如下图所示:
- 如果每隔一段时间才有一辆汽车通过,那么表示桥梁部分时间处于空闲的情况。并且间隔的时间越长,表示桥梁空闲率越高。此时的平均负载小于 1.0,如下图所示:
- 当有大量的汽车通过桥梁时,有些汽车需要等待其他车辆通过后才能继续通行,这时表示桥梁超负荷工作。此时平均负载大于1.0,如下图所示:
系统的平均负载与上面的例子一样,在单核 CPU 的环境下:
- 当平均负载等于 1.0 时,表示 CPU 使用率最高。
- 当平均负载小于 1.0 时,表示 CPU 使用率处于空闲状态。
- 当平均负载大于 1.0 时,表示 CPU 使用率已经超过负荷。
对于单核 CPU 来说,平均负载 1.0 表示使用率最高。但对于多核 CPU 来说,平均负载要乘以核心数。比如在 4 核 CPU 的系统中,当平均负载为 4.0 时,才表示 CPU 的使用率最高。
Linux 平均负载计算原理
在介绍系统平均负载的计算原理前,先要介绍一下什么是系统负载。在 Linux 系统中,系统负载表示 系统中当前正在运行的进程数量 ,
其包括 可运行状态
的进程数和 不可中断休眠状态
的进程数的和。注意:不可中断休眠状态的进程一般是在等待 I/O 完成的进程。
系统负载 = 可运行状态进程数 + 不可中断休眠状态进程数
知道了什么是 系统负载
,那么 系统平均负载
就容易理解了。比如每 5 秒统计一次系统负载,1 分钟内会统计 12 次。如下所示:
然后把每次统计到的系统负载加起来,再除以统计次数,即可得出 系统平均负载
。如下图所示
但这种计算方式有些缺陷,就是预测系统负载的准确性不够高,因为越老的数据越不能反映现在的情况。打个比方,要预测某条公路今天的车流量,使用昨天的数据作为预测依据,会比使用一个月之前的数据作为依据要准确得多。
所以,时间越近的数据,对未来的预测准确性越高。
Linux 内核使用一种名为 指数平滑法
的算法来解决这个问题,指数平滑法的核心思想是对新老数据进行加权,越老的数据权重越低。
load average:每隔5s检查一次活跃的进程数,然后按特定算法计算出来的。一般当这个数值除以CPU的核数得到的值大于3~5时,就标明系统的负载压力已经很高了