首页 > 代码库 > Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构

Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构

声明:

  1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。

    2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》

    3)本文由于过长,无法一次性上传。下面是五个部分的简介:

    一是简要介绍百度云;

    二是作基本的英文词频统计(在百度云下)。至于Ubuntu下的基本词频统计,仍然可以看《Hadoop之词频统计小实验初步配置》;

    三是改进英文词频统计,简单修改了部分代码,在此要感谢Joyce0625的《查看Hadoop-1.2.1里面的例子jar并对WordCount进行修改》。是参考了他的博文才写出来的;

    四是单机Hadoop(Ubuntu)下的中文分词并作词频统计的,为什么不在百度云上作,具体原因参见博文,并深刻感激网友岁月如歌的《Hadoop中文词频统计》,没有他的博文指导我写不出来,并与他邮件请教几次,真的很感谢他!

    五是由于上述都是java程序,那么想利用hadoop的python接口,即Streaming模式下用python去做英文词频统计。这个是简单试水,希望后来人继续探索!

        本文抛砖引玉,感谢帮助我的人!

-----------------------------------------------------------------------------------------------------------------------

《Hadoop的改进实验(中文分词词频统计及英文词频统计)》全文有五个部分,我尝试一次性上传,总是不成功。

现发布博文,决定分成四篇。

《Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)》,主要描述第一部分,第二部分,第三部分

《Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)》,主要描述第四部分的前半部分

《Hadoop的改进实验(中文分词词频统计及英文词频统计)(3/4)》,主要描述第四部分的后半部分(= =因为第四部分实在是太长,只能分隔开上传)

《Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)》,主要描述第五部分