问题描述:
集群
192.168.22.178 master1
192.168.22.179 master2
192.168.22.40 data1&zk&kafka&es
192.168.22.69 data2&zk&kafka&es
192.168.22.177 data3&kafka&es
192.168.22.180 data4
主机192.168.22.40和192.168.22.177是hadoop集群的datanode同时也是hbase的regionserver,数据存放在/data和/data2两个目录,两个目录所挂载的磁盘因为异常情况丢失了,集群出现异常,不能正常提供服务。
恢复步骤:
1、等待云主机恢复状态,磁盘重新申请格式化挂载。
3、重建zk、kafka、es集群
2、把主机192.168.22.69上的/data、/data1下的目录拷贝到两台机器,之后删除其中的log文件及数据。
3、同步journal数据
把主机192.168.22.69上/data/hadoop_data/journal/masters 目录拷贝到其他两台机器的/data/hadoop_data/journal目录下。
4、启动两台hadoop服务,切换hbase数据存放目录
$ vim /data/hbase/conf/hbase-site.xml
<property>
<name>hbase.rootdir</name>
<value>hdfs://masters/hbase</value>
</property>
>>
<property>
<name>hbase.rootdir</name>
<value>hdfs://masters/hbase1</value>
</property>
同步配置文件到所有的集群节点
上边的方式是彻底放弃了hbase的数据,这是因为是测试环境,如果不是测试环境,数据比较重要的话,则需要另外的方式,比如下面网站所示的方式:
https://blog.csdn.net/anyking0520/article/details/79064967
登录zk服务器192.168.22.40,删除zk集群中保存的hbase表的数据信息
# cd /home/box/zookeeper-3.4.6/bin
# ./zkCli.sh
进入shell后使用下面命令删除
rmr /hbase/table
5、关闭hadoop集群保护模式
在主节点上
$ cd /data/hadoop/bin
$ ./hadoop dfsadmin -safemode leave
6、注意启动集群的顺序
6.1、恢复启动zookeeper集群
在主节点上
6.2、启动hadoop集群服务
配置好hadoop集群后,启动整个hadoop集群服务
$ cd /data/hadoop/sbin
$ ./start-all.sh
离开hadoop集群安全模式
查看hdfs集群状态是否正常
$ cd /data/hadoop/bin
$ ./hdfs dfsadmin -report
6.3、关闭hadoop集群保护模式
6.4、配置好hbase后,启动hbase集群
$ cd /data/hbase/bin
$ start-hbase.sh
查看hbase集群状态是否正常
$ cd /data/hbase/bin
$ ./hbase shell
进入shell后使用status命令查看状态
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/194531.html