【问题版本】
HCSO DWS 1.7.2 ,HCS 8.0.2 ,HCS 8.0.3
【问题现象】
1.创建进度到 9x%
2.DWS.6000
【分析过程】
1登陆dws rms数据库数据库:select id,name,type from rds_instance where name like ‘%集群名称%’; 确认type字段是否为NULL,为NULL表示monitor未监控上。
2登陆monitor数据库查看实例是否存在: select id,instance_name,instance_type from instance_monitor where instance_name like ‘%集群名称%’;
确认是否包含此实例信息, 不包含则查看controller 定时任务qrtz_triggers表中registerMonitor是否有问题,此定时任务的下次触发时间是否是过去时间;也有可能是Controller的op_svc_账号获取token报401错误
kubectl get po -n ecf
3 在monitor数据库 查看实例是否被监控: instance_monitor如果包含此实例信息,确认instance_type是否为NULL,如果为NULL表示 agent未上报状态,需要登陆实例排查监控状态上报。
需要查看dbsmonitor到租户面网络是否通的,可以另一个案例:
xxxxxxxx
如果不为NULL,则状态通知未发送给controller,需要检查monitor的发送队列。

4.检查Monitor的发送队列:select * from status_change_event; 看是否相应的实例状态通知消息仍在该表中,如果存在则表明状态通知未被发送(通知成功后会删除通知记录)。
5.造成状态通知未被发送有多种原因:
controller_endpoint 配置错误,导致发送失败,查看status_change_event表中controller_endpoint列。
StatusNotificationJob Qrtz 作业未正常运行,查看qrtz_triggers表中hamonitor_status_notification_记录的状态。
monitor的op_svc_账号获取token报401错误
要结合monitor的日志来查看是否有异常
【问题根因】
通过日志查看(ossres-log*| grep (3、3图中查看到的集群名称)| grep ERROR),集群已经创建完成,但是monitor未监控上。

【恢复方案】
1、登录普罗jdk服务,点击变更管理、服务升级,找到带有monitor的实例名进行选择下一步。

2、搜索op_svc_dws将修改的密码进行加密后放到 opsvc.domain.passaword中

3.搜索love将LIVENESS_PROBE.PERRIOD_SECONDS中的10 修改为30


4、点击下一步进行升级,升级过程10分钟。

5.删除失败集群,重试成功
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316687.html