首页 > 代码库 > Hadoop里的Partitioner
Hadoop里的Partitioner
人们对于Mapreduce程序刚开始时都认为只需要一个reduce就够了。毕竟,在你处理数据之前一个reducer已经把数据都分好类了,有谁不喜欢分好类的数据呢。但是这样我们就忽略了并行计算的优势。如果只有一个reducer,我们的云计算就退化成了一个小雨点。
在多个reducer的情况下,我们需要某种机制来控制mapper的结果的分配问题。这是就Partitioner的工作了。
在默认情况下,hadoop通过比较key的hash值来分配,默认使用HashPartitioner。有时默认的功能不能满足我们的要求,比如我们以前自定义的Edge类(http://blog.csdn.net/on_way_/article/details/8589187)。当我们想要知道每个机场乘客起飞的数量时。我们有如下数据
(北京, 上海) 张三
(北京, 青岛) 李四。。。。。。。
如果我们用HashPartitioner来分配,那么这两行就会被送往不同的reducer上,机场起飞的数量就会被算两次,而且每次都是错误的。
我们需要为我们的应用程序定制一个partitioner。
[java] view plaincopyprint?
- import org.apache.hadoop.io.Writable;
- import org.apache.hadoop.mapred.JobConf;
- import org.apache.hadoop.mapred.Partitioner;
- public class EdgePartitioner implements Partitioner<Edge, Writable>{
- @Override
- public void configure(JobConf job) {
- // TODO Auto-generated method stub
- }
- @Override
- public int getPartition(Edge key, Writable value, int numPartitions) {
- // TODO Auto-generated method stub
- return key.getDepartureNode().hashCode() % numPartitions;
- }
- }
下面的这张图给出了Partitioner的具体解释
在map和reduce两个阶段之间,一个MapReduce程序必须把mapper的输出分配到多个reducer上,这个过程叫做shuffling,因为一个mapper的输出结果有可能被分配到集群中的多个节点中去。
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。