Linux系统CPU内存使用率过高的问题排查

您所在的位置：网站首页 › cpu使用率高于100 › Linux系统CPU内存使用率过高的问题排查

Linux系统CPU内存使用率过高的问题排查

2023-04-22 08:40| 来源: 网络整理| 查看: 265

服务器出现由内存问题引发的故障，例如系统内部服务响应速度变慢、服务器登录不上、系统触发 OOM（Out Of Memory）等。通常情况下当实例内存使用率持续高于90%时，可判断为实例内存使用率过高。CPU/内存使用率过高的问题原因可能由硬件因素、系统进程、业务进程或者木马病毒等因素导致。笔者以前写过一篇文章- Linux 下的 60 秒分析的检查清单，适用于任何性能问题的分析工作，这一篇文章是关于CPU/内存使用率的具体的排查思路总结。执行 top 命令后按 M ，根据驻留内存大小进行排序，查看 “RES” 及 “SHR” 列是否有进程占用内存过高。按 P，以 CPU 占用率大小的顺序排列进程列表，查看是否有进程占用cpu过高。如果有异常进程占用了大量 CPU 或内存资源，记录需要终止的进程 PID，输入k，再输入需要终止进程的 PID ，按 Enter。另外说明一下，top 运行中可以通过 top 的内部命令对进程的显示方式进行控制，最常用的是M和P。 CPU 空闲但高负载情况，Load average 是 CPU 负载的评估，其值越高，说明其任务队列越长，处于等待执行的任务越多。执行ps -axjf命令，查看进程状态，并检查是否存在 D 状态进程。D 状态指不可中断的睡眠状态，该状态进程无法被杀死，也无法自行退出。若出现较多 D 状态进程，可通过恢复该进程依赖资源或重启系统进行解决。 Linux 系统通过分页机制管理内存的同时，将磁盘的一部分划出来作为虚拟内存。而 kswapd0 是 Linux 系统虚拟内存管理中负责换页的进程。当系统内存不足时，kswapd0 会频繁的进行换页操作。换页操作非常消耗 CPU 资源，导致该进程持续占用高 CPU 资源。执行top命令，找到 kswapd0 进程。观察 kswapd0 进程状态，若持续处于非睡眠状态，且运行时间较长并持续占用较高 CPU 资源，执行 vmstat ，free，ps 等指令，查询系统内进程的内存占用情况，重启系统或终止不需要且安全的进程。如果 si，so 的值也比较高，则表示系统存在频繁的换页操作，当前系统的物理内存已经不能满足您的需要。 si 表示每秒从交换区写入内存的大小(单位:kb/s) ， so 每秒从内存写到交换区的大小。执行cat/proc/meminfo |grep-i shmem命令查看共享内存。 buddy可以以页为单位获取连续的物理内存了，即4K为单位。slab负责需要频繁的获取/释放并不大的连续物理内存，比如几十字节。执行cat /proc/meminfo | grep -i SUnreclaim命令查看slab 内存。标准的 4KB 大小的页面外，内存大页管理内存中的巨大的页面，处理较少的页面映射表，从而减少访问/维护它们的开销。执行cat /proc/meminfo | grep -iE "HugePages_Total|Hugepagesize" 查看内存大页。内存使用率计算： (Total - available)100% / Total （Total - Free - Buffers - Cached - SReclaimable + Shmem）* 100% / Total cat /proc/meminfo查看信息含义：客户现场遇到mongodb cpu偶发性占用过高问题，配置16c16g，装了mysql,mongo,influxdb，java等应用，观察到mongodb在更新数据的时候很慢，几秒甚至几十秒。

通过vmstat 1 10发现bi很高达到2w，

top展开cpu发现有几个cpu的%wa经常在100%，初步判断硬盘负载很高，

用iostat -x 1 10果然硬盘%util达到100%了

iotop发现mysqld占用大量的io

看mysql的日志，发现有超时查询，加完索引后，系统正常。

回头看mongodb的查询慢、偶发性占用cpu 1600%只是表象，因为mongodb需要往硬盘写数据，这个时候硬盘被mysql占用，导致mongodb线程只能等io，mongodb写硬盘的请求积累，cpu也没释放，故cpu占用率高。

load负载和cpu之间关系：

参考： https://www.cnblogs.com/zhangyjblogs/p/14163576.html

有史以来负载突然居高的，有点吓人。

如图示：

PS: vmstat(Virtual Memory Statistics 虚拟内存统计) 命令用来显示Linux系统虚拟内存状态，也可以报告关于进程、内存、I/O等系统整体运行状态

发现奇葩的的--r值：这个高！！！

PS：

r: 运行队列中进程数量，这个值也可以判断是否需要增加CPU。（长期大于1）

正常的情况下的r值是：

可能有异常的情况很多的进程一直在创建

因为公司的业务又使用的一些定时的任务，定时执行一些服务。所有核查一下一些进程信息：

果然是这一推的进程在作祟！！！！！

直接结束上述的相关进程后，就好了！！

批量删除对应的进程：

批量删除示例：

说明：

“grep xxxx”的输出结果是，所有含有关键字“remind_service”的进程。

“grep -v xxxxx”是在列出的进程中去除含有关键字“color”的进程。

“cut -c 9-15”是截取输入行的第9个字符到第15个字符，而这正好是进程号PID。

“xargs kill -s 9”中的xargs命令是用来把前面命令的输出结果（PID）作为“kill -s 9”命令的参数，并执行该命令。“kill -s 9”会强行杀掉指定进程。

排查了下，不知道为啥定时执行的任务不断执行创建了！这个目前暂时还不是很清楚！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://outofmemory.cn/yw/8495961.html

【本文地址】

Linux系统CPU内存使用率过高的问题排查

Linux系统CPU内存使用率过高的问题排查

今日新闻

推荐新闻