开发环境 hadoop&hbase集群环境磁盘丢失处理总结

问题描述:

集群

192.168.22.178 master1

192.168.22.179 master2  

192.168.22.40 data1&zk&kafka&es

192.168.22.69 data2&zk&kafka&es

192.168.22.177 data3&kafka&es  

192.168.22.180 data4  

主机192.168.22.40和192.168.22.177是hadoop集群的datanode同时也是hbase的regionserver,数据存放在/data和/data2两个目录,两个目录所挂载的磁盘因为异常情况丢失了,集群出现异常,不能正常提供服务。

恢复步骤:

1、等待云主机恢复状态,磁盘重新申请格式化挂载。

3、重建zk、kafka、es集群

2、把主机192.168.22.69上的/data、/data1下的目录拷贝到两台机器,之后删除其中的log文件及数据。

3、同步journal数据

把主机192.168.22.69上/data/hadoop_data/journal/masters 目录拷贝到其他两台机器的/data/hadoop_data/journal目录下。

4、启动两台hadoop服务,切换hbase数据存放目录

$ vim /data/hbase/conf/hbase-site.xml

    <property>

        <name>hbase.rootdir</name>

        <value>hdfs://masters/hbase</value>

    </property>

>>

    <property>

        <name>hbase.rootdir</name>

        <value>hdfs://masters/hbase1</value>

    </property>

同步配置文件到所有的集群节点

上边的方式是彻底放弃了hbase的数据,这是因为是测试环境,如果不是测试环境,数据比较重要的话,则需要另外的方式,比如下面网站所示的方式:

https://blog.csdn.net/anyking0520/article/details/79064967

登录zk服务器192.168.22.40,删除zk集群中保存的hbase表的数据信息

# cd /home/box/zookeeper-3.4.6/bin

# ./zkCli.sh

进入shell后使用下面命令删除

rmr /hbase/table

5、关闭hadoop集群保护模式

在主节点上

$ cd /data/hadoop/bin

$ ./hadoop dfsadmin -safemode leave

6、注意启动集群的顺序

6.1、恢复启动zookeeper集群

在主节点上

6.2、启动hadoop集群服务

配置好hadoop集群后,启动整个hadoop集群服务

$ cd /data/hadoop/sbin

$ ./start-all.sh

离开hadoop集群安全模式

查看hdfs集群状态是否正常

$ cd /data/hadoop/bin 

$ ./hdfs dfsadmin -report

6.3、关闭hadoop集群保护模式

6.4、配置好hbase后,启动hbase集群

$ cd /data/hbase/bin

$ start-hbase.sh

查看hbase集群状态是否正常

$ cd /data/hbase/bin

$ ./hbase shell

进入shell后使用status命令查看状态

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/194531.html

(0)
上一篇 2021年11月16日
下一篇 2021年11月16日

相关推荐

发表回复

登录后才能评论