Hadoop集群搭建详解大数据

一.准备Linux环境（虚拟机）

　　1.先将虚拟机的网络模式选为NAT

　　2.修改主机名

　　　　vi /etc/sysconfig/network

　　　　NETWORKING=yes

　　　　 HOSTNAME=hdp-node-01

　　3.修改IP

　　　　vim /etc/sysconfig/network-scripts/ifcfg-eth0

　　　　DEVICE=”eth0″
　　　　BOOTPROTO=”static” ###
　　　　HWADDR=”00:0C:29:3C:BF:E7″
　　　　IPV6INIT=”yes”
　　　　NM_CONTROLLED=”yes”
　　　　ONBOOT=”yes”
　　　　TYPE=”Ethernet”
　　　　UUID=”ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c”
　　　　IPADDR=”192.168.1.101″ ###
　　　　NETMASK=”255.255.255.0″ ###
　　　　GATEWAY=”192.168.1.101″ ###

　　4.修改主机名和IP的映射关系

　　　　vim /etc/hosts

　　　　192.168.1.101 hdp-node-01

　　　　192.168.1.102 hdp-node-02

　　　　192.168.1.103 hdp-node-03

　　5.关闭防火墙

　　　　#查看防火墙状态

　　　　service iptables status
　　　　#关闭防火墙
　　　　service iptables stop
　　　　#查看防火墙开机启动状态
　　　　chkconfig iptables –list
　　　　#关闭防火墙开机启动
　　　　chkconfig iptables off

　　6.重启Linux

　　　　reboot

二.安装JDK

　　1.上传alt+p 后出现sftp窗口，然后put d:/xxx/yy/ll/jdk1.7.tar.gz　　

　　2.解压jdk
　　　　#创建文件夹
　　　　mkdir /home/hadoop/app
　　　　#解压
　　　　tar -zxvf jdk1.7.tar.gz -C /home/hadoop/app
　　3.将java添加到环境变量中
　　　　vim /etc/profile
　　　　#在文件最后添加
　　　　export JAVA_HOME=/home/hadoop/app/jdk1.7
　　　　export PATH=$PATH:$JAVA_HOME/bin
　　　　#刷新配置
　　　　source /etc/profile

三.安装hadoop集群

　　1.上传hadoop安装包到/home/hadoop/app目录下

　　2.修改配置文件

　　　　（1）vi hadoop-env.sh

　　　　# 配置jdk路径

　　　　export JAVA_HOME=/home/hadoop/app/jdk1.7

　　　　（2）vi core-site.xml

　　　　　　<!– 指定HADOOP所使用的文件系统schema（URI），HDFS的老大（NameNode）的地址 –>

　　　　　　　　<name>fs.defaultFS</name>

　　　　　　</property>

　　　　　　<!– 指定hadoop运行时产生文件的存储目录 –>

　　　　　　　　<name>hadoop.tmp.dir</name>

　　　　　　　　<value>/home/HADOOP/apps/hadoop-2.6.1/tmp</value>

　　　　　　</property>

　　　　</configuration>

　　　　（3）vi hdfs-site.xml　　　　

　　　　<#namenode元数据保存地址>

　　　　　　<name>dfs.namenode.name.dir</name>

　　　　　　<value>/home/hadoop/data/name</value>

　　　　</property>

　　　　<#datanode元数据保存地址>

　　　　　　<name>dfs.datanode.data.dir</name>

　　　　　　<value>/home/hadoop/data/data</value>

　　　　</property>

　　　　<#hdfs副本个数>

　　　　　　<name>dfs.replication</name>

　　　　</property>

　　　　<#配置hdfs的web管理界面的访问地址>

　　　　　　<name>dfs.secondary.http.address</name>

　　　　</property>

　　　　</configuration>

　　　　vi mapred-site.xml

　　　　　　<!– 指定mr运行在yarn上 –>

　　　　　　　　<name>mapreduce.framework.name</name>

　　　　　　</property>

　　　　</configuration>

　　　　vi yarn-site.xml

　　　　　　<!– 指定YARN的老大（ResourceManager）的地址 –>

　　　　　<property>

　　　　　　　<name>yarn.resourcemanager.hostname</name>

　　　　　　　<value>hdp-node-01</value>

　　　　</property>

　　　　<!– reducer获取数据的方式 –>

　　　　　　<name>yarn.nodemanager.aux-services</name>

　　　　　　<value>mapreduce_shuffle</value>

　　　　</property>

　　　　</configuration>

　　　　vi salves（配置集群机器）

　　　　hdp-node-01

　　　　hdp-node-02

　　　　hdp-node-03

　　3.启动集群（方便脚本执行的话可以hadoop环境变量，启动过程需要多次输入密码，没有配置免密码登录）

　　　　初始化HDFS

　　　　bin/hadoop namenode -format

　　　　启动HDFS

　　　　sbin/start-dfs.sh

　　　　启动YARN

　　　　sbin/start-yarn.sh

　　　　验证是否启动成功 使用jps命令验证查看进程是否启动

　　　　http://192.168.1.101:50070 （HDFS管理界面）
　　　　http://192.168.1.101:8088 （MR管理界面）

四.配置ssh免登陆

　　#生成ssh免登陆密钥

　　#进入到我的home目录
　　　　cd ~/.ssh

　　　　ssh-keygen -t rsa （四个回车）
　　执行完这个命令后，会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）
　　将公钥拷贝到要免密登陆的目标机器上
　　　　ssh-copy-id localhost
　　—————————
　　ssh免登陆：
　　生成key:
　　ssh-keygen
　　复制从A复制到B上:
　　ssh-copy-id B
　　验证：
　　ssh localhost/exit，ps -e|grep ssh
　　ssh A #在B中执行

五.测试集群

　　1、上传文件到HDFS

　　　　从本地上传一个文本文件到hdfs的/wordcount/input目录下

　　　　[[email protected] ~]$ HADOOP fs -mkdir -p /wordcount/input

　　　　[[email protected] ~]$ HADOOP fs -put /home/HADOOP/somewords.txt /wordcount/input

　　2、运行一个mapreduce程序

　　　　在HADOOP安装目录下，运行一个示例mr程序

　　　　cd $HADOOP_HOME/share/hadoop/mapreduce/

　　　　hadoop jar mapredcue-example-2.6.1.jar wordcount /wordcount/input /wordcount/output

原创文章，作者：奋斗，如若转载，请注明出处：https://blog.ytso.com/9080.html

Hadoop集群搭建详解大数据

2、运行一个mapreduce程序

相关推荐

发表回复

　　2、运行一个mapreduce程序