首页 > 代码库 > linux平台下Hadoop下载、安装、配置

linux平台下Hadoop下载、安装、配置

在这里我使用的linux版本是CentOS 6.4
     CentOS-6.4-i386-bin-DVD1.iso
     下载地址: http://mirrors.aliyun.com/centos/6.8/isos/i386/
 
0.使用host-only方式
     将Windows上的虚拟网卡改成跟linux上的网卡在同一个网段上
     注意:一定要将windowsh 的WMnet1的ip设置和你的虚拟机在同一网段,但是ip不一样
 
一、前期工作:
1.修改linux ip
     手动修改
     也可以命令修改
     vim /etc/sysconfig/network-scripts/ifcfg-eth0
     
2.修改主机名(注意ubuntu版本方式)
     vim /etc/sysconfig/network 
     将之前的名字更改为itcast01
 
3.修改主机名与 ip 对应关系
     vim  /etc/hosts
     192.168.8.88      itcast01
 
4.关闭防火墙
     查看防护墙状态
     service iptables status
     
     关闭
     service iptables stop     
 
     查看防火墙开机启动状态
     chkconfig iptables --list
 
     关闭开机启动
     chkconfig iptables off
     
 
二、安装Java JDK
     这里使用的是 jdk-7u60-linux-i586.tar.gz,这里我使用VMware-->共享文件夹,(需要安装好)VMware Tool工具,这样我们就可以使用共享文件夹方式将windows下的文件,共享到linux平台。共享在/mnt/hdfs/
 
     mkdir /usr/java
     tar -zxvf jdk-7u60-linux-i586.tar.gz -C /usr/java
     
     将java添加到环境变量中
     vim /etc/profile
    
     在文件的末尾添加如下内容
     export JAVA_HOME=/usr/java/jdk1.7.0_60
     export PATH=$PATH:$JAVA_HOME/bin
 
     刷新配置
     source /etc/profile
 
三、安装hadoop
下载hadoop
https://archive.apache.org/dist/
https://archive.apache.org/dist/hadoop/core/hadoop-2.2.0/
本次下载的是: hadoop-2.2.0.tar.gz
 
1.上传hadoop包,我这里使用FileZilla上传到 linux下root 目录下
    
2.解压hadoop包
     首先在根目录创建一个/itcast 目录
          mkdir /itcast
          tar -zxvf hadoop-2.2.0.tar.gz -C /itcast
 
3.配置hadoop伪分布式(要修改etc/下的4个文件)
 
第一个:hadoop-env.sh
     vim hadoop-env.sh
     export JAVA_HOME=/usr/java/jdk1.7.0_60
 
第二个:core-site.xml
<configuration>
          <!-- 用来指定hdfs的老大(NameNode)的地址 -->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://itcast01:9000</value>
        </property>
          <!-- 用来指定Hadoop运行时产生文件的存放目录 -->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/itcast/hadoop-2.2.0/tmp</value>
        </property>
</configuration>
 
第三个:hdfs-site.xml
     <configuration>
            <!-- 指定HDFS保存数据副本数量 --> 
          <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
</configuration>
 
第四个:mapred-site.xml (需要从此文件复制mapred-site.xml.template)
     <configuration>
          <!-- 告诉hadoop以后MR运行在yarn上 -->
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
     </configuration>
 
第五个:yarn-site.xml
 
<configuration>
          <!-- NodeManager获取数据的方式是shuffle-->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
          <!-- 指定YARN的老大(resourcemanager)的地址 -->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>itcast01</value>
        </property>
</configuration>
 
4.将Hadoop添加到环境变量中
vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.7.0_60
export HADOOP_HOME=/itcast/hadoop-2.2.0
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
          
          #刷新配置
          source /etc/profile
 
5.初始化HDFS(格式化文件系统,此步类似刚买U盘需要格式化)
     
     #hadoop namenode -format(过时了)
     hdfs namenode -format
 
6.启动文HDFS和YARN
     ./start-all.sh(过时了)This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
Starting namenodes on [it]
 
     #有个小问题(需要多次输入密码)
     接下来,使用jps查看进程情况
     jps(jps 在Linux/unix平台上简单察看当前java进程的一些简单情况),如果有以下进程则表示测试通过
          4334 NodeManager
3720 NameNode
4060 ResourceManager
3806 DataNode
4414 Jps
 
     另外,我们也可以在windows平台下,使用浏览器进行查看,是否搭建成功
     http://192.168.8.88:50070 ( hdfs管理界面)
     http://192.168.8.88:8088 (yarn管理界面)
 
     在这个文件中添加linux主机名和IP的映射关系
     c:\Windows\System32\drivers\etc
     在末尾,添加
     192.168.8.88     itcast01
          

linux平台下Hadoop下载、安装、配置