Hbase安装详解大数据

环境:CentOS6.5  Hadoop2.7.2  HBase1.2.1

1.安装好 hadoop 集群,并启动 

[[email protected] ~]$ sh hadoop-2.7.2/sbin/start-dfs.sh  
[[email protected] ~]$ sh hadoop-2.7.2/sbin/start-yarn.sh 

查看 hadoop 版本: 

[[email protected] ~]$ hadoop-2.7.2/bin/hadoop version  
Hadoop 2.7.2

2.查看 hbase 官方文档(http://hbase.apache.org/book.html#basic.prerequisites),找到与 hadoop 版本对应的 hbase 并下载 

[[email protected] ~]$ wget http://mirrors.cnnic.cn/apache/hbase/hbase-1.2.1/hbase-1.2.1-bin.tar.gz 

3.解压 

[[email protected] ~]$ tar -zxf hbase-1.2.1-bin.tar.gz 


4.进入 hbase 的 lib 目录,查看 hadoop jar 包的版本 

[[email protected] ~]$ cd hbase-1.2.1/lib/  
[[email protected] lib]$ find -name 'hadoop*jar'  
./hadoop-common-2.5.1.jar  
./hadoop-mapreduce-client-common-2.5.1.jar  
./hadoop-annotations-2.5.1.jar  
./hadoop-yarn-server-common-2.5.1.jar  
./hadoop-hdfs-2.5.1.jar  
./hadoop-client-2.5.1.jar  
./hadoop-mapreduce-client-shuffle-2.5.1.jar  
./hadoop-yarn-common-2.5.1.jar  
./hadoop-yarn-server-nodemanager-2.5.1.jar  
./hadoop-yarn-client-2.5.1.jar  
./hadoop-mapreduce-client-core-2.5.1.jar  
./hadoop-auth-2.5.1.jar  
./hadoop-mapreduce-client-app-2.5.1.jar  
./hadoop-yarn-api-2.5.1.jar  
./hadoop-mapreduce-client-jobclient-2.5.1.jar

发现与 hadoop 集群的版本号不一致,需要用 hadoop 目录下的 jar 替换 hbase/lib 目录下的 jar 文件。 hadoop下的jar包都是在$HADOOP_HOME/share/hadoop下的.

编写脚本来完成替换,如下所示: 

[[email protected] lib]$ pwd 
/home/grid/hbase-1.0.0/lib 
[[email protected] lib]$ vim f.sh 
find-name "hadoop*jar"| sed's/2.5.1/2.7.2/g' | sed's//.////g' > f.log 
rm./hadoop*jar 
cat./f.log | whileread Line 
do 
find/home/grid/hadoop-2.7.2 -name "$Line"| xargs-i cp{} ./ 
done 
rm./f.log 
[[email protected] lib]$ chmodu+x f.sh 
[[email protected] lib]$ ./f.sh 
[[email protected] lib]$ find-name 'hadoop*jar' 
./hadoop-yarn-api-2.7.2.jar 
./hadoop-mapreduce-client-app-2.7.2.jar 
./hadoop-common-2.5.2.jar 
./hadoop-mapreduce-client-jobclient-2.7.2.jar 
./hadoop-mapreduce-client-core-2.7.2.jar 
./hadoop-yarn-server-nodemanager-2.7.2.jar 
./hadoop-hdfs-2.7.2.jar 
./hadoop-yarn-common-2.7.2.jar 
./hadoop-mapreduce-client-shuffle-2.7.2.jar 
./hadoop-auth-2.7.2.jar 
./hadoop-mapreduce-client-common-2.7.2.jar 
./hadoop-yarn-client-2.7.2.jar 
./hadoop-annotations-2.7.2.jar 
./hadoop-yarn-server-common-2.7.2.jar

若要采用命令完成,则如下所示:

我们先cd 到 /opt/hbase-1.2.1/lib下运行命令: rm -rf hadoop*.jar删掉所有的hadoop相关的jar包,然后运行:
find /opt/hadoop-2.7.2/share/hadoop -name “hadoop*jar” | xargs -i cp {} /opt/hbase-1.2.1/lib/ 
 拷贝所有hadoop2.7.2下的jar包到hbase的lib目录下进行hadoop版本的统一


OK,jar 包替换成功;hbase/lib 目录下还有个 slf4j-log4j12-XXX.jar,在机器有装hadoop时,由于classpath中会有hadoop中的这个jar包,会有冲突,直接删除掉

[[email protected] lib]$ rm`find-name 'slf4j-log4j12-*jar'`

5.修改配置文件

5.1. 配置hbase-env.sh文件

[[email protected] hbase-1.2.1]$ vi conf/hbase-env.sh  
export JAVA_HOME=/usr/java/jdk1.7.0_72  
export HBASE_CLASSPATH=/home/grid/hadoop-2.7.2/etc/hadoop  
export HBASE_MANAGES_ZK=true 


第一个参数指定了JDK路径;第二个参数指定了 hadoop 的配置文件路径;第三个参数设置使用 hbase 默认自带的 Zookeeper 

不管是什么模式,你都需要编辑 conf/hbase-env.sh来告知Hbase java的安装路径.在这个文件里你还可以设置Hbase的运行环境,诸如 heapsize和其他 JVM有关的选项, 还有Log文件地址,等等. 设置 JAVA_HOME指向 java安装的路径.

一个分布式运行的Hbase依赖一个zookeeper集群。所有的节点和客户端都必须能够访问zookeeper。默认的情况下Hbase会管理一个zookeep集群。这个集群会随着Hbase的启动而启动。当然,你也可以自己管理一个zookeeper集群,但需要配置Hbase。你需要修改conf/hbase-env.sh里面的HBASE_MANAGES_ZK 来切换。这个值默认是true的,作用是让Hbase启动的时候同时也启动zookeeper.

让Hbase使用一个现有的不被Hbase托管的Zookeep集群,需要设置 conf/hbase-env.sh文件中的HBASE_MANAGES_ZK 属性为 false

# Tell HBase whether it should manage it’s own instanceof Zookeeper or not.

exportHBASE_MANAGES_ZK=false

5.2. 配置hbase-site.xml文件

[[email protected] hbase-1.2.1]$ vim conf/hbase-site.xml


<property> 
<name>hbase.rootdir</name> 
<value>hdfs://localhost:9000/hbase</value> 
</property> 
<property> 
<name>hbase.cluster.distributed</name> 
<value>true</value> 
</property> 
<property> 
<name>hbase.tmp.dir</name> 
<value>/home/grid/hbase-1.2.1/tmp</value> 
</property> 
<property> 
<name>hbase.zookeeper.quorum</name> 
<value>hadoop4,hadoop5,hadoop6</value> 
</property> 
<property> 
<name>hbase.zookeeper.property.dataDir</name> 
<value>/home/grid/hbase-1.2.1/zookeeper</value> 
</property>

上述中的hbase.rootdir的value为hadoop中的etc目录下的hadoop目录下的core-site.xml中的dfs的value加/hbase

要想运行完全分布式模式,加一个属性 hbase.cluster.distributed 设置为 true 然后把 hbase.rootdir 设置为HDFS的NameNode的位置。 例如,你的namenode运行在node1,端口是49002 你期望的目录是 /hbase,使用如下的配置:hdfs://node1:49002/hbase

hbase.rootdir这个目录是region server的共享目录,用来持久化Hbase。URL需要是’完全正确’的,还要包含文件系统的scheme。例如,要表示hdfs中的’/hbase’目录,namenode 运行在node1的49002端口。则需要设置为hdfs://node1:49002/hbase。默认情况下Hbase是写到/tmp的。不改这个配置,数据会在重启的时候丢失。默认: file:///tmp/hbase-${user.name}/hbase

hbase.cluster.distributed :Hbase的运行模式。false是单机模式,true是分布式模式。若为false,Hbase和Zookeeper会运行在同一个JVM里面。

默认: false

在hbase-site.xml配置zookeeper:

当Hbase管理zookeeper的时候,你可以通过修改zoo.cfg来配置zookeeper,

一个更加简单的方法是在 conf/hbase-site.xml里面修改zookeeper的配置。Zookeeer的配置是作为property写在 hbase-site.xml里面的。

对于zookeepr的配置,你至少要在 hbase-site.xml中列出zookeepr的ensemble servers,具体的字段是 hbase.zookeeper.quorum. 该这个字段的默认值是 localhost,这个值对于分布式应用显然是不可以的. (远程连接无法使用)。

 

hbase.zookeeper.property.clientPort:ZooKeeper的zoo.conf中的配置。 客户端连接的端口。

hbase.zookeeper.quorumZookeeper集群的地址列表,用逗号分割。例如:”host1.mydomain.com,host2.mydomain.com,host3.mydomain.com”.默认是localhost,是给伪分布式用的。要修改才能在完全分布式的情况下使用。如果在hbase-env.sh设置了HBASE_MANAGES_ZK,这些ZooKeeper节点就会和Hbase一起启动。

默认: localhost

运行一个zookeeper也是可以的,但是在生产环境中,你最好部署3,5,7个节点。部署的越多,可靠性就越高,当然只能部署奇数个,偶数个是不可以的。你需要给每个zookeeper 1G左右的内存,如果可能的话,最好有独立的磁盘。 (独立磁盘可以确保zookeeper是高性能的。).如果你的集群负载很重,不要把Zookeeper和RegionServer运行在同一台机器上面。就像DataNodes 和 TaskTrackers一样

hbase.zookeeper.property.dataDirZooKeeper的zoo.conf中的配置。 快照的存储位置

把ZooKeeper保存数据的目录地址改掉。默认值是 /tmp ,这里在重启的时候会被操作系统删掉,可以把它修改到 /home/hadoop/zookeeper (这个路径hadoop用户拥有操作权限)

对于独立的Zookeeper,要指明Zookeeper的host和端口。可以在 hbase-site.xml中设置, 也可以在Hbase的CLASSPATH下面加一个zoo.cfg配置文件。 HBase 会优先加载 zoo.cfg 里面的配置,把hbase-site.xml里面的覆盖掉.

参见 http://www.yankay.com/wp-content/hbase/book.html#hbase_default_configurations可以查找hbase.zookeeper.property 前缀,找到关于zookeeper的配置。


创建目录

[[email protected] hbase-1.2.1]$ mkdir tmp  
[[email protected] hbase-1.2.1]$ mkdir zookeeper 

5.3. 配置regionservers

[[email protected] hbase-1.2.1]$ vim conf/regionservers  
hadoop4  
hadoop5  
hadoop6 

完全分布式模式的还需要修改conf/regionservers. 在这里列出了你希望运行的全部 HRegionServer,一行写一个host (就像Hadoop里面的 slaves 一样). 列在这里的server会随着集群的启动而启动,集群的停止而停止.
6.设置环境变量 

[[email protected] ~]$ vi .bash_profile  
export HBASE_HOME=/home/grid/hbase-1.2.1 
export PATH=$PATH:$HBASE_HOME/bin  
[[email protected] ~]$ source .bash_profile


7.分发 hbase 到其它机器,并在其上设置环境变量 

[[email protected] ~]$ scp -r [email protected]:~  
[[email protected] ~]$ scp -r hbase-1.2.1 [email protected]:~ 

8.启动 hbase (在启动hbase之前hadoop必须先启动)

[[email protected] ~]$ sh start-hbase.sh  
[[email protected] ~]$ jps  
2388 ResourceManager  
3692 Jps  
2055 NameNode  
3375 HQuorumPeer  
2210 SecondaryNameNode  
3431 HMaster  
[[email protected] ~]$ jps  
2795 Jps  
2580 HQuorumPeer  
2656 HRegionServer  
2100 NodeManager  
1983 DataNode  
[[email protected] ~]$ jps  
2566 HQuorumPeer  
1984 DataNode  
2101 NodeManager  
2803 Jps  
2639 HRegionServer

$stop-all.sh          //停止hbase



如果在操作Hbase的过程中发生错误,可以通过hbase安装主目录下的logs子目录查看错误原因。

jps查看发现 Master 机上 HRegionServer 服务未启动,查看日志显示因16020端口被占用导致 HRegionServer 启动失败,查证发现占用16020端口的是 HMaster 进程,查看官方文档后解决:[[email protected] ~]$ sh local-regionservers.sh start 2 
官方文档截图: 
Hbase安装详解大数据 

9.shell 
Hbase安装详解大数据 

10.Web管理界面 

Hbase安装详解大数据 

11运行和确认安装

11.1当Hbase托管ZooKeeper的时候

当Hbase托管ZooKeeper的时候Zookeeper集群的启动是Hbase启动脚本的一部分

首先确认你的HDFS是运行着的。你可以运行HADOOP_HOME中的 bin/start-hdfs.sh 来启动HDFS.你可以通过put命令来测试放一个文件,然后有get命令来读这个文件。通常情况下Hbase是不会运行mapreduce的。所以比不需要检查这些。

用如下命令启动Hbase:

bin/start-hbase.sh

这个脚本在HBASE_HOME目录里面。

你现在已经启动Hbase了。Hbase把log记在 logs 子目录里面. 当Hbase启动出问题的时候,可以看看Log.

Hbase也有一个界面,上面会列出重要的属性。默认是在Master的60010端口上H (HBase RegionServers 会默认绑定 60020端口,在端口60030上有一个展示信息的界面 ).如果Master运行在 node1,端口是默认的话,你可以用浏览器在 http://node:60010看到主界面. .

一旦Hbase启动,可以看到如何建表,插入数据,scan你的表,还有disable这个表,最后把它删掉。

可以在Hbase Shell停止Hbase

$./bin/stop-hbase.sh

stoppinghbase...............

停止操作需要一些时间,你的集群越大,停的时间可能会越长。如果你正在运行一个分布式的操作,要确认在Hbase彻底停止之前,Hadoop不能停.

11.2独立的zookeeper启动,

除了启动habse,

执行:bin/start-hbase.sh启动habse

你需要自己去运行zookeeper:

${HBASE_HOME}/bin/hbase-daemons.sh {start,stop} zookeeper

你可以用这条命令启动ZooKeeper而不启动Hbase. HBASE_MANAGES_ZK 的值是 false, 如果你想在Hbase重启的时候不重启ZooKeeper,你可以这样。

原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/9531.html

(0)
上一篇 2021年7月19日 11:19
下一篇 2021年7月19日 11:19

相关推荐

发表回复

登录后才能评论