Hadoop的改进实验（中文分词词频统计及英文词频统计）博文目录结构

2024-07-06 06:38:23 224人阅读

声明：

　　1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。

2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》

3）本文由于过长，无法一次性上传。下面是五个部分的简介：

　　　　一是简要介绍百度云；

　　　　二是作基本的英文词频统计（在百度云下）。至于Ubuntu下的基本词频统计，仍然可以看《Hadoop之词频统计小实验初步配置》；

　　　　三是改进英文词频统计，简单修改了部分代码，在此要感谢Joyce0625的《查看Hadoop-1.2.1里面的例子jar并对WordCount进行修改》。是参考了他的博文才写出来的；

　　　　四是单机Hadoop（Ubuntu）下的中文分词并作词频统计的，为什么不在百度云上作，具体原因参见博文，并深刻感激网友岁月如歌的《Hadoop中文词频统计》，没有他的博文指导我写不出来，并与他邮件请教几次，真的很感谢他！

　　　　五是由于上述都是java程序，那么想利用hadoop的python接口，即Streaming模式下用python去做英文词频统计。这个是简单试水，希望后来人继续探索！

本文抛砖引玉，感谢帮助我的人！

-----------------------------------------------------------------------------------------------------------------------

《Hadoop的改进实验（中文分词词频统计及英文词频统计）》全文有五个部分，我尝试一次性上传，总是不成功。

现发布博文，决定分成四篇。

《Hadoop的改进实验（中文分词词频统计及英文词频统计）（1/4）》，主要描述第一部分，第二部分，第三部分

《Hadoop的改进实验（中文分词词频统计及英文词频统计）（2/4）》，主要描述第四部分的前半部分

《Hadoop的改进实验（中文分词词频统计及英文词频统计）（3/4）》，主要描述第四部分的后半部分（= =因为第四部分实在是太长，只能分隔开上传）

《Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）》，主要描述第五部分

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们