Linux：CPU使用率100%排查方法

导读	Linux作为一个多任务操作系统，将每个CPU的时间划分为很短的时间片，再通过调度器轮流分配给各个任务使用，因此造成多任务同时运行的错觉。

CPU使用率
Linux作为一个多任务操作系统，将每个CPU的时间划分为很短的时间片，再通过调度器轮流分配给各个任务使用，因此造成多任务同时运行的错觉。
为了维护CPU时间，Linux通过事先定义的节拍率（内核中表示为HZ），触发时间中断，并使用全局变量Jiffies记录了开机以来的节拍数。每发生一次时间中断，Jiffies的值就加1。
节拍率HZ是内核的可配选项，可以自定义配置，可通过/boot/config来查询

$ grep 'CONFIG_HZ=' /boot/config-$(uname -r)
CONFIG_HZ=1000

CPU使用率有很多重要指标，具体含义如下：

user（通常缩写为us），代表用户态CPU时间。注意，它包括下面的nice时间，但包括了guest时间。

nice（通常缩写为ni），代表低优先级用户态CPU时间，也就是进程的nice值被调整为1-19之间是的CPU时间。

system（通常缩写为sys），代表内核态CPU时间

idle（通常缩写为id），代表空闲时间。注意，它不包括I/O等待时间（iowait）

iowait（通常缩写为wa），代表等待I/O的CPU时间

irq（通常缩写为hi），代表处理硬中断的CPU时间

softirq（通常缩写为si），代表处理软中断的CPU时间

steal（通常缩写为st），代表当系统运行在虚拟机中的时候，被其他虚拟机占用的CPU时间

guest（通常缩写为guest），代表通过虚拟化运行其他操作系统的时间，也就是运行虚拟机的CPU时间

而我们通常所说的CPU使用率，就是除了空闲时间外的其他时间占总CPU时间的百分比，用公式表示为：

Linux：CPU使用率100%排查方法

上面这个计算方式是不具备参考意义的，因为总CPU时间是机器开机以来的，事实上，为了计算CPU使用率，性能工具都会取间隔一段时间（比如5秒）的两次值，做差后，再计算出这段时间内的平均CPU使用率，即：

Linux：CPU使用率100%排查方法
不过需要注意的是，性能分析工具给出的都是间隔一段时间的平均CPU使用率，所以要注意间隔时间的设置，特别是多个工具对比分析时，需要保证它们的间隔时间是相同的。

比如，对比一下top和ps这两个工具报告的CPU使用率，默认的结果可能不一样，因为top默认使用3秒时间间隔，而ps使用的却是进程的整个生命周期。
查看CPU使用率的方法

知道了cpu使用率的含义后，我们再来看看要怎么查看CPU使用率，说道查看cpu使用率性能工具，首先会想到ps、top。

top显示了系统总体的CPU和内存使用情况，以及各个进程的资源使用情况

ps则是显示了每个进程的资源使用情况

比如，top的输出格式：
Linux：CPU使用率100%排查方法

需要注意的，top默认显示的所有CPU的平均值，这个时候只需要按下数字1，就可以切换到每个CPU的使用率了。
继续往下看，空白行之后是进程的实时信息，每个进程都有一个%CPU列，表示进程的CPU使用率，它是用户态和内核态CPU使用率的总和，包括进程用户空间、使用的CPU、通过系统调用执行的内核空间CPU、以及在就绪队列等待运行的CPU。
分析进程的命令，比如pidstat，改命令包括：

用户态CPU使用率（%user）
内核态CPU使用率（%system）
运行虚拟机CPU使用率（%guest）
等待CPU使用率（%wait）
以及总的CPU使用率（%CPU）
Linux：CPU使用率100%排查方法

CPU使用率过高怎么办

通过top、ps、pidstat等工具，可以找到具体的进程，但如果还想知道是代码中的哪个函数呢？找到它，才能更高效、更有针对性地进行优化
。
推荐使用系统内置的perf工具，它以性能事件采样作为基础，不仅可以分析系统的各种事件和内核性能，还可以用来分析指定应用程序的性能问题。

第一种常用方法是perf top
Linux：CPU使用率100%排查方法

输出结果中，第一行包含三个数据，分别是采样数（Samples）、事件类型（Event）和事件总数量（Event count）。

再往下看是一个表格数据，每一行包含四列，分别是：

第一列Overhead，是该符号的性能事件在所有采样中的比例，用百分比表示
第二列Shared，是该函数或指令所在的动态共享对象，如内核、进程名、动态链接库名等
第三列Object，是动态共享对象的类型，比如[.]表示用户空间可执行程序、或者动态链接库，而[k]则表示内核空间
最后一列Symbol是符号名，也就是函数名。当函数名未知时，用十六进制的地址表示

第二种用法，就是perf record和perf report。perf top虽然实时展示了系统的性能信息，但它的缺点是并不保存数据，也就是无法用于离线或者后续的分析，而record则提供了保存数据的功能，保存数据后，使用perf report解析展示。
Linux：CPU使用率100%排查方法

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/119595.html

Linux：CPU使用率100%排查方法

相关推荐

发表回复