首页 > 代码库 > MapReduce简介以及详细配置
MapReduce简介以及详细配置
1.MapReduce(一个分布式运算框架)将数据分为数据块,发送到不同的节点,并行方式处理。
2.NodeManager和DataNode在一个节点上,程序与数据在一个节点。
3.内容分为两个部分
1) Map
读取文件,将数据分块,输入输出都是<key,value>
2) Reduce
输入输出都是<key,value>,输入的key是Map输出的key,输入的value是map输出的所有key一样的value
4.修改配置文件hadoop-2.6.0/etc/hadoop/mapred-site.xml
这个文件在Hadoop中没有,需要复制一份,cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
5.修改配置文件hadoop-2.6.0/etc/hadoop/yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
6.启动集群sbin/start-all.sh
一块启动了HDFS与MapReduce,依次执行了sbin/start-dfs.sh与sbin/start-yarn.sh
7.打开jps查看进程
32033 Jps
31718 SecondaryNameNode
31528 DataNode
31852 ResourceManager
31437 NameNode
31949 NodeManager
8.HDFS与MapReduce启动成功,关闭集群:sbin/stop-all.sh
MapReduce简介以及详细配置
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。