Hadoop集群搭建详解大数据

一.准备Linux环境(虚拟机)

  1.先将虚拟机的网络模式选为NAT

  2.修改主机名

    vi /etc/sysconfig/network

      NETWORKING=yes

     HOSTNAME=hdp-node-01

  3.修改IP

    vim /etc/sysconfig/network-scripts/ifcfg-eth0

    DEVICE=”eth0″
    BOOTPROTO=”static” ###
    HWADDR=”00:0C:29:3C:BF:E7″
    IPV6INIT=”yes”
    NM_CONTROLLED=”yes”
    ONBOOT=”yes”
    TYPE=”Ethernet”
    UUID=”ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c”
    IPADDR=”192.168.1.101″ ###
    NETMASK=”255.255.255.0″ ###
    GATEWAY=”192.168.1.101″ ###

  4.修改主机名和IP的映射关系

    vim /etc/hosts

    192.168.1.101  hdp-node-01

    192.168.1.102  hdp-node-02

    192.168.1.103  hdp-node-03

  5.关闭防火墙

    #查看防火墙状态

    service iptables status
    #关闭防火墙
    service iptables stop
    #查看防火墙开机启动状态
    chkconfig iptables –list
    #关闭防火墙开机启动
    chkconfig iptables off

  6.重启Linux  

    reboot

 

二.安装JDK

  1.上传alt+p 后出现sftp窗口,然后put d:/xxx/yy/ll/jdk1.7.tar.gz  

  2.解压jdk
    #创建文件夹
    mkdir /home/hadoop/app
    #解压
    tar -zxvf jdk1.7.tar.gz -C /home/hadoop/app
  3.将java添加到环境变量中
    vim /etc/profile
    #在文件最后添加
    export JAVA_HOME=/home/hadoop/app/jdk1.7
    export PATH=$PATH:$JAVA_HOME/bin
    #刷新配置
    source /etc/profile

 

三.安装hadoop集群

  1.上传hadoop安装包到/home/hadoop/app目录下

  2.修改配置文件

    (1)vi  hadoop-env.sh

    # 配置jdk路径

    export JAVA_HOME=/home/hadoop/app/jdk1.7

    (2)vi  core-site.xml

    <configuration>

      <!– 指定HADOOP所使用的文件系统schema(URI),HDFS的老大(NameNode)的地址 –>

      <property>

        <name>fs.defaultFS</name>

        <value>hdfs://hdp-node-01:9000</value>

      </property>

      <!– 指定hadoop运行时产生文件的存储目录 –>

      <property>

        <name>hadoop.tmp.dir</name>

        <value>/home/HADOOP/apps/hadoop-2.6.1/tmp</value>

      </property>

    </configuration>

    (3)vi  hdfs-site.xml    

    <configuration>

    <#namenode元数据保存地址>

    <property>

      <name>dfs.namenode.name.dir</name>

      <value>/home/hadoop/data/name</value>

    </property>

    <#datanode元数据保存地址>

    <property>

      <name>dfs.datanode.data.dir</name>

      <value>/home/hadoop/data/data</value>

    </property>

    <#hdfs副本个数>

     <property>

      <name>dfs.replication</name>

      <value>3</value>

    </property>

    <#配置hdfs的web管理界面的访问地址>

    <property>

      <name>dfs.secondary.http.address</name>

      <value>hdp-node-01:50090</value>

    </property>

    </configuration>

     vi  mapred-site.xml

    <configuration>

      <!– 指定mr运行在yarn上 –>

      <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

      </property>

    </configuration>

    vi  yarn-site.xml

    <configuration>

      <!– 指定YARN的老大(ResourceManager)的地址 –>

     <property>

       <name>yarn.resourcemanager.hostname</name>

       <value>hdp-node-01</value>

    </property>

    <!– reducer获取数据的方式 –>

    <property>

      <name>yarn.nodemanager.aux-services</name>

      <value>mapreduce_shuffle</value>

    </property>

    </configuration>

    vi  salves(配置集群机器)

    hdp-node-01

    hdp-node-02

    hdp-node-03

  3.启动集群(方便脚本执行的话可以hadoop环境变量,启动过程需要多次输入密码,没有配置免密码登录)

    初始化HDFS

    bin/hadoop  namenode  -format

    启动HDFS

    sbin/start-dfs.sh

    启动YARN

    sbin/start-yarn.sh

    验证是否启动成功   使用jps命令验证查看进程是否启动

    

    http://192.168.1.101:50070 (HDFS管理界面)
    http://192.168.1.101:8088 (MR管理界面)

    

 

 

四.配置ssh免登陆

  #生成ssh免登陆密钥

  #进入到我的home目录
    cd ~/.ssh

 

    ssh-keygen -t rsa (四个回车)
  执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
  将公钥拷贝到要免密登陆的目标机器上
    ssh-copy-id localhost
  —————————
  ssh免登陆:
  生成key:
  ssh-keygen
  复制从A复制到B上:
  ssh-copy-id B
  验证:
  ssh localhost/exit,ps -e|grep ssh
  ssh A #在B中执行

 

五.测试集群

  1、上传文件到HDFS

    从本地上传一个文本文件到hdfs的/wordcount/input目录下

    [[email protected] ~]$ HADOOP fs -mkdir -p /wordcount/input

    [[email protected] ~]$ HADOOP fs -put /home/HADOOP/somewords.txt  /wordcount/input

  2、运行一个mapreduce程序

    在HADOOP安装目录下,运行一个示例mr程序

    cd $HADOOP_HOME/share/hadoop/mapreduce/

    hadoop jar mapredcue-example-2.6.1.jar wordcount /wordcount/input  /wordcount/output 

 

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/9080.html

(0)
上一篇 2021年7月19日 09:11
下一篇 2021年7月19日 09:11

相关推荐

发表回复

登录后才能评论