GaussDB(DWS)主备切换分析

集群运行过程当中发现有:

FI监控页面有主备断连或者不同步告警:

编号 日志内容
1 Datanode主备不通过或者断连,重要,xxxx
  • ps -ef 查看某一节点上gaussdb进程运行时间与其他实例不同
  • 查看集群状态不均衡需要分析主备切换原因。

若存在以上情况可按照以下步骤进行分析

步骤一:判断是否由于内存不足被oom

使用root用户查看/var/log/messages日志在实例重启时间点是否有kill关键字,若存在则说明由于max_process_memory参数设置过大,将参数修改为适当值进行观察,该参数计算方式详细见产品文档。

步骤二:是否被cma kill

使用omm用户(云上版本使用Ruby用户)查看cm_agent日志($GAUSSLOG/cm/cm_agent/cm_agent-xxx.log)在实例重启时间点是否有kill关键字,若存在则说明dn hang或者cm_agent与cm_server连接异常,若该问题偶尔出现一次可不需做任何处理,若出现较为频繁联系华为工程师处理。

步骤三:进程core

首先确认该集群是否配置操作系统core,若为配置请先配置操作系统core之后继续观察。core配置方案见附件:

GaussDB(DWS) core配置标准方案v1.1

若该集群已经配置core请检查在对应目录检查是否有core文件产生,core文件产生路径查看参考以下命令:

cat /proc/sys/kernel/core_pattern,该命令结果为绝对路径直接在对应目录查看,否则在对应重启实例查看。

若产生core文件解析core文件将堆栈反馈给华为工程师进行处理。

若集群集群配置core集群实例多次重启并且不属于步骤一与步骤二的场景,请联系华为工程师处理。

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316806.html

(0)
上一篇 2025年10月30日 00:02
下一篇 2025年10月30日 00:03

相关推荐

发表回复

登录后才能评论