首页 > 代码库 > Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)
Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)
需求
计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行,单词和频数之间有间隔。
比如,输入一个文件,其内容如下:
hello world
hello hadoop
hello mapreduce
对应上面给出的输入样例,其输出样例为:
hadoop 1
hello 3
mapreduce 1
world 1
方案制定
对该案例,可设计出如下的MapReduce方案:
1. Map阶段各节点完成由输入数据到单词切分的工作
2. shuffle阶段完成相同单词的聚集再到分发到各个Reduce节点的工作 (shuffle阶段是MapReduce的默认过程)
3. Reduce阶段负责接收所有单词并计算各自频数
小结
WordCount是一个很经典的Hadoop示例,它虽然简单,但具有很大的代表性。
从某个程度上来说也反映了其设计的初衷,对日志文件的分析。
Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。