首页 > 代码库 > Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构
Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。
2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》
3)本文由于过长,无法一次性上传。下面是五个部分的简介:
一是简要介绍百度云;
二是作基本的英文词频统计(在百度云下)。至于Ubuntu下的基本词频统计,仍然可以看《Hadoop之词频统计小实验初步配置》;
三是改进英文词频统计,简单修改了部分代码,在此要感谢Joyce0625的《查看Hadoop-1.2.1里面的例子jar并对WordCount进行修改》。是参考了他的博文才写出来的;
四是单机Hadoop(Ubuntu)下的中文分词并作词频统计的,为什么不在百度云上作,具体原因参见博文,并深刻感激网友岁月如歌的《Hadoop中文词频统计》,没有他的博文指导我写不出来,并与他邮件请教几次,真的很感谢他!
五是由于上述都是java程序,那么想利用hadoop的python接口,即Streaming模式下用python去做英文词频统计。这个是简单试水,希望后来人继续探索!
本文抛砖引玉,感谢帮助我的人!
-----------------------------------------------------------------------------------------------------------------------
《Hadoop的改进实验(中文分词词频统计及英文词频统计)》全文有五个部分,我尝试一次性上传,总是不成功。
现发布博文,决定分成四篇。
《Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)》,主要描述第一部分,第二部分,第三部分
《Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)》,主要描述第四部分的前半部分
《Hadoop的改进实验(中文分词词频统计及英文词频统计)(3/4)》,主要描述第四部分的后半部分(= =因为第四部分实在是太长,只能分隔开上传)
《Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)》,主要描述第五部分