集群发放失败】实例创建到9x%无法创建/RdsActiveClusterTask FAIL

【问题版本】

HCSO  DWS 1.7.2 ,HCS 8.0.2 ,HCS  8.0.3

【问题现象】

1.创建进度到 9x%

2.DWS.6000

【分析过程】

1登陆dws rms数据库数据库:select id,name,type from rds_instance where name like ‘%集群名称%’; 确认type字段是否为NULL,为NULL表示monitor未监控上。

2登陆monitor数据库查看实例是否存在: select id,instance_name,instance_type from instance_monitor where instance_name like ‘%集群名称%’;

确认是否包含此实例信息, 不包含则查看controller 定时任务qrtz_triggers表中registerMonitor是否有问题,此定时任务的下次触发时间是否是过去时间;也有可能是Controller的op_svc_账号获取token报401错误

kubectl get po -n ecf

3 在monitor数据库 查看实例是否被监控: instance_monitor如果包含此实例信息,确认instance_type是否为NULL,如果为NULL表示 agent未上报状态,需要登陆实例排查监控状态上报。

需要查看dbsmonitor到租户面网络是否通的,可以另一个案例:

xxxxxxxx

如果不为NULL,则状态通知未发送给controller,需要检查monitor的发送队列。

集群发放失败】实例创建到9x%无法创建/RdsActiveClusterTask FAIL

4.检查Monitor的发送队列:select * from status_change_event; 看是否相应的实例状态通知消息仍在该表中,如果存在则表明状态通知未被发送(通知成功后会删除通知记录)。

 

5.造成状态通知未被发送有多种原因:

controller_endpoint 配置错误,导致发送失败,查看status_change_event表中controller_endpoint列。

StatusNotificationJob Qrtz 作业未正常运行,查看qrtz_triggers表中hamonitor_status_notification_记录的状态。

monitor的op_svc_账号获取token报401错误

要结合monitor的日志来查看是否有异常

【问题根因】

通过日志查看(ossres-log*| grep (3、3图中查看到的集群名称)| grep ERROR),集群已经创建完成,但是monitor未监控上。

集群发放失败】实例创建到9x%无法创建/RdsActiveClusterTask FAIL

【恢复方案】

1、登录普罗jdk服务,点击变更管理、服务升级,找到带有monitor的实例名进行选择下一步。

集群发放失败】实例创建到9x%无法创建/RdsActiveClusterTask FAIL

2、搜索op_svc_dws将修改的密码进行加密后放到 opsvc.domain.passaword中

集群发放失败】实例创建到9x%无法创建/RdsActiveClusterTask FAIL

3.搜索love将LIVENESS_PROBE.PERRIOD_SECONDS中的10 修改为30

集群发放失败】实例创建到9x%无法创建/RdsActiveClusterTask FAIL

集群发放失败】实例创建到9x%无法创建/RdsActiveClusterTask FAIL

4、点击下一步进行升级,升级过程10分钟。

集群发放失败】实例创建到9x%无法创建/RdsActiveClusterTask FAIL

5.删除失败集群,重试成功

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/316687.html

(0)
上一篇 2025年10月29日 23:39
下一篇 2025年10月29日 23:40

相关推荐

发表回复

登录后才能评论