GaussDB (DWS) 集群管理系列:DN实例状态异常告警

DN实例状态异常告警

告警汇总

CM告警汇总链接

告警编号

  • 十进制编号:1078919172
  • 十六进制编号:0x404F0004

告警信息

  • 中文名称:Datanode实例异常
  • 英文名称:AbnormalDatanodeInst

    代码中告警英文名称为ALM_AI_AbnormalDatanodeInst

  • 英文附加信息:Data instance %s is abnormal
  • 中文附加信息:数据实例%s异常

告警类型

  • ALM_AT_Fault/ALM_AT_Resume

告警等级

  • DWS: IMPORTANT

告警规则

核心规则

  • 当DN自身和对端的角色为一主一备,即(Primary, Standby)(Standby, Primary)时,如果二者均处于Normal状态,则消除告警;否则计算主DN当前sentflush的日志差,如果差值大于4G,则上报告警。
    • receive_status.sender_flush_locationreceive_status.sender_sent_location
  • 如果DN自身和对端的角色不为一主一备,且对端角色不是Pending(对端不是正在重启),则上报告警。
  • 其余情况,保持当前告警类型不变。

简单来说,当DN发生故障、主备之间日志差异较大时,产生该告警。

补充规则

  • cm_agent进程启动的5分钟内,不触发该告警。
  • DN从备不触发该告警。
  • 当DN异常时,自身和对端DN都可能上报实例异常的告警。
  • cm_agent与DN长链接异常时,不触发该告警(不影响其它节点上的触发情况)。

相关告警

  • DN实例异常告警的场景较为复杂,与其它告警都可能有关系,因此暂不一一列出。

版本分析

  • 内核版本
id name C80 651 8.0 8.1
1078919172 AbnormalDatanodeInst ✔️ ✔️ ✔️ ✔️
  • FIM支持情况待补充。
  • DWS已支持。

测试验证

分别做如下操作:

  • 杀死主DN进程
  • 杀死主DN对端节点上的备DN进程
  • 杀死备DN对端节点上的主DN进程
  • 对本节点备DN执行switchover

cm_agent日志如下:

# 杀死主DN
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6001 is abnormal".
# 杀死对端主DN
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6006 is abnormal".
# 杀死对端备DN
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6001 is abnormal".
# 对本节点备DN执行switchover
Alarm LOG: Reporting alarm id 1078919172 with type 0 and info "Data instance dn_6006 is abnormal".

告警信息如下:

alarm 1078919172 0 0009000000000009001200070054mpp1p1s1d127.0.0.1ecs-env-3108dn_6001Data#instance#dn_6001#is#abnormal#数据实例dn_6001异常
alarm 1078919172 0 0009000000000009001200070054mpp1p1s1d127.0.0.1ecs-env-3108dn_6006Data#instance#dn_6006#is#abnormal#数据实例dn_6006异常

已知问题

8.0.0版本该告警并不判断主备日志差值大于4G。备DN处于Catchup状态就会触发该告警。可根据下面流程判断是否属于这种情况:

  • 判断是否为2020年330版本:

    A3A03900-65C2-4DB5-A13A-0188A2E4EA17.png

  • 查看告警上报时间点的cm_server日志,是否存在相关DN处于Catchup状态:

    image-20211208191227939.png

备DN出现Catchup状态属于集群业务运行中的正常现象。如果只上报该告警,并且业务未受影响,则无需太过关注。后续版本已优化该机制,详情参考前面内容。

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/317037.html

(0)
上一篇 4天前
下一篇 3天前

相关推荐

发表回复

登录后才能评论