GBase 8a 问题处理-集群管理节点无法正常启动

问题版本:GBase 8a V8.6.2-43 R20

问题简述:在进行迁移工作的数据导入之后,启动集群所有管理节点一直不能正常启动,通过命令service gcware stop 也不能停止。

报错信息:

【gcadmin 报错】

Could not initialize CRM instance error: [6]->IGC AIS ERR TRY AGAIN]

【管理节点状态】

corosync is stopped

gclusterd is stopped

recover (pid 127432) is running..

【停止管理节点报错】/opt/gcluster/log/gcluster/system.log

Stopping GCMonit fail! Info: [gcmonit] share memory get error

Signaling GCRECOVER (gcrecover) to terminate: [ OK]

Waiting for gcrecover services to unload:

GBase 8a 问题处理-集群管理节点无法正常启动

解决方案:

(1)使用root用户将/var/lib/gcware中CLUSTERSTATE以及CLUSTERSTATE.bak文件复制到其他地方。

(2)将管理节点的corosync、gbased、gclusterd、gcmmonit、gc_sync_server进程杀掉

killall -9 corosync gbased gclusterd gcmmonit gc_sync_server

若killall没有安装还可采用如下命令:

ps -ef|grep -E ‘gc|coro|gbased’ |grep -v grep|awk ‘{print $2}’|xargs kill -9

(3)检查是否所有集群服务状态为【stop】service gcware status

(4)删除/var/lib/gcware中CLUSTERSTATE以及CLUSTERSTATE.bak文件

(5)gcwexec启动集群服务

问题分析:

之前现场出现过由于异常断电或者文件系统损坏导致某一个coor节点上gcware的持久化文件损坏,引起corosync服务无法启动,这种情况可以通过从其他好的节点,拷贝一个gcware目录来解决,或者删除CLUSTERSTATE以及CLUSTERSTATE.bak文件。

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/318346.html

(0)
上一篇 43秒前
下一篇 2022年1月8日 04:09

相关推荐

发表回复

登录后才能评论