Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)

2024-08-06 23:26:00 222人阅读

需求

　　计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行，单词和频数之间有间隔。

　　比如，输入一个文件，其内容如下：

　　hello world

　　hello hadoop

　　hello mapreduce

　　对应上面给出的输入样例，其输出样例为：

　　hadoop 1

　　hello 3

　　mapreduce 1

　　world 1

方案制定

　　对该案例，可设计出如下的MapReduce方案：

　　1. Map阶段各节点完成由输入数据到单词切分的工作

　　2. shuffle阶段完成相同单词的聚集再到分发到各个Reduce节点的工作 (shuffle阶段是MapReduce的默认过程)

　　3. Reduce阶段负责接收所有单词并计算各自频数

小结

　　WordCount是一个很经典的Hadoop示例，它虽然简单，但具有很大的代表性。

　　从某个程度上来说也反映了其设计的初衷，对日志文件的分析。

Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们