首页 > 代码库 > Hadoop学习笔记:使用Mrjob框架编写MapReduce
Hadoop学习笔记:使用Mrjob框架编写MapReduce
1.mrjob介绍
一个通过mapreduce编程接口(streamming)扩展出来的Python编程框架。
2.安装方法
pip install mrjob,略。初学,叙述的可能不是很细致,可以加我扣扣:2690382987,一起学习和交流~
3.代码运行方式
下面简介mrjob提供的3种代码运行方式:
1)本地测试,就是直接在本地运行代码;
2)在本地模拟hadoop运行;
3)在hadoop集群上运行。
本地测试:
在脚本、数据所在的路径下(如果不在此路径下,就要把路径写完整):
python usergoodsscore_1.py sales.data > 1.data
第一个蓝框:mr的python脚本所在位置
第二个蓝框:数据所在的位置
第三个蓝框:输出结果存放的位置
命令执行后在相应的路径下就多了1.data的文件:
在本地模拟hadoop运行:
在脚本、数据所在的路径下(如果不在此路径下,就要把路径写完整):
python usergoodsscore_1.py -r local <sales.data> hadooplocal.data
第一个蓝框:mr的python脚本所在位置
第二个蓝框:数据所在的位置
第三个蓝框:输出结果存放的位置
命令执行后在相应的路径下就多了hadooplocal.data的文件:
在hadoop集群上运行:
python usergoodsscore_1.py sales.data -r hadoop > hadoop1.data
参考资料:
http://www.cnblogs.com/orchid/archive/2013/04/14/3021211.html
http://www.cnblogs.com/joyeecheung/p/3760386.html
http://blog.rainy.im/2016/03/13/python-on-hadoop-mapreduce/
Hadoop学习笔记:使用Mrjob框架编写MapReduce
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。