【问题现象】
操作系统版本:Redhat 7.4 / x86
GaussDB版本:GaussDB A 6.5.1.5
集群出现大量(5W+)僵尸进程,OS load高,引发os重启,现场排查发现是后台的secbox反复在重启引发的该僵尸进程

【问题分析】
1、通过观察CMA的日志,发现secbox在不停的反复重启

2、secbox重启时,会调用date命令,而secbox出错退出,这些date命令就会变成僵尸进程

3、进一步调查secbox重启原因发现,该集群的mount信息中,对于/var/log/Bigdata这一级目录单独做了挂载:

4、产品资料手册里面描述的,对于日志盘需要按照下列方式挂载:

5、未按照4中描述方式挂载时,由于和secbox.conf内容不匹配,进而引发secbox反复重启。

6、现场通过手动调整secbox.conf,增加如下列,进行规避

【解决方案】
由于OS的挂盘配置不当,导致secbox后台服务反复重启,引发大量僵尸进程,在业务高峰期时,僵尸进程积压,导致OS重启。现场通过手动调整secbox.conf,增加如下列,进行规避

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316596.html