集群运行过程中,经常会出现dn切换得场景,对应FI界面会有集群平衡状态异常和dn主备不同步告警

一般来说,原因大概以下3种

一:内存不足 out of memory

1.var/log/messages日志在切换时间点是否有kill关键字,若存在则说明由于max_process_memory参数设置过大,将参数修改为适当值进行观察,该参数计算方式详细见产品文档。

2.dn日志关键信息 是否有 out of memory

二:被cma kill

cm_agent日志($GAUSSLOG/cm/cm_agent/cm_agent-xxx.log)在实例重启时间点是否有kill关键字和phony dead等关键日志,若有,则说明dn hang或者cm_agent与cm_server连接异常,若该问题偶尔出现一次可不需做处理,若出现较为频繁联系华为工程师处理。

三:进程产生core

如果已经配置操作系统core,则用对应工具解析core,查看core原因;若未配置则先配置core之后继续观察。