集群出现大量(5W+)僵尸进程,OS load高,引发os重启

【问题现象】

操作系统版本:Redhat 7.4 / x86

GaussDB版本:GaussDB A 6.5.1.5

集群出现大量(5W+)僵尸进程,OS load高,引发os重启,现场排查发现是后台的secbox反复在重启引发的该僵尸进程

image.png

【问题分析】

1、通过观察CMA的日志,发现secbox在不停的反复重启

image.png

2、secbox重启时,会调用date命令,而secbox出错退出,这些date命令就会变成僵尸进程

image.png

3、进一步调查secbox重启原因发现,该集群的mount信息中,对于/var/log/Bigdata这一级目录单独做了挂载:

image.png

4、产品资料手册里面描述的,对于日志盘需要按照下列方式挂载:

image.png

5、未按照4中描述方式挂载时,由于和secbox.conf内容不匹配,进而引发secbox反复重启。

image.png

6、现场通过手动调整secbox.conf,增加如下列,进行规避

image.png

【解决方案】

由于OS的挂盘配置不当,导致secbox后台服务反复重启,引发大量僵尸进程,在业务高峰期时,僵尸进程积压,导致OS重启。现场通过手动调整secbox.conf,增加如下列,进行规避

image.png

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316596.html

(0)
上一篇 6天前
下一篇 6天前

相关推荐

发表回复

登录后才能评论