环境:HPUX 11.31;ServiceGurad A.11.20。2个node:node1,node2;一个package:pkg1.
主机:BL860c i4
故障现象:pkg1可以正常的在两个node之间切换,但是当其中一个node关机后,pkg1切到node2上只能运行1分钟左右,之后便会自动failed。
分析过程:
1.检查了pkg1的log,系统的syslog,均未发现异常。
2.检查配置在pkg控制文件里的应用脚本,未发现异常。为了方便排查,暂时将定义在control文件里的应用脚本注释掉。
3.注释掉之后,故障现场仍然存在。肩擦包配置文件,包控制文件,依然没有什么发现。
4.检查集群配置文件,和以往自己做的集群配置文件进行对比,发现客户的集群配置文件里多了SUBNET配置和IP_MONITOR配置。怀疑是
此原因,故将其注释,如下:
#SUBNET 10.73.0.0
# IP_MONITOR OFF
# POLLING_TARGET 10.73.0.1
5.重新check,apply集群配置文件后,故障解决。
总结:经过查证,在集群配置文件里(一般为cluster.ascii)不需要写SUBNET参数(在pkg配置文件里写入MONITORED_SUBNET即可),也不需要IP_MONITOR参数,如果写了SUBNET,则一定要把IP_MONITOR 设置为OFF。
对于这种故障,解决方法为:A.注释掉集群配置文件里的SUBNET参数和IP_MONITOR参数。2.如果不注释,在一定要把IP_MONITOR配置为OFF。推荐方法A。IP监控的配置在包配置文件里可以定义,不用再在集群里定义。
原创文章,作者:carmelaweatherly,如若转载,请注明出处:https://blog.ytso.com/tech/aiops/183219.html