Hadoop学习笔记：使用Mrjob框架编写MapReduce

2024-09-05 04:37:03 217人阅读

1.mrjob介绍

一个通过mapreduce编程接口（streamming）扩展出来的Python编程框架。

2.安装方法

pip install mrjob，略。初学，叙述的可能不是很细致，可以加我扣扣：2690382987，一起学习和交流~

3.代码运行方式

下面简介mrjob提供的3种代码运行方式：

1)本地测试，就是直接在本地运行代码；

2)在本地模拟hadoop运行；

3)在hadoop集群上运行。

本地测试：

在脚本、数据所在的路径下（如果不在此路径下，就要把路径写完整）：

python usergoodsscore_1.py sales.data > 1.data

第一个蓝框：mr的python脚本所在位置

第二个蓝框：数据所在的位置

第三个蓝框：输出结果存放的位置

技术分享

命令执行后在相应的路径下就多了1.data的文件：

技术分享

在本地模拟hadoop运行：

在脚本、数据所在的路径下（如果不在此路径下，就要把路径写完整）：

python usergoodsscore_1.py -r local <sales.data> hadooplocal.data

第一个蓝框：mr的python脚本所在位置

第二个蓝框：数据所在的位置

第三个蓝框：输出结果存放的位置

技术分享

命令执行后在相应的路径下就多了hadooplocal.data的文件：

技术分享

在hadoop集群上运行：

python usergoodsscore_1.py sales.data -r hadoop > hadoop1.data

技术分享

参考资料：

http://www.cnblogs.com/orchid/archive/2013/04/14/3021211.html

http://www.cnblogs.com/joyeecheung/p/3760386.html

http://blog.rainy.im/2016/03/13/python-on-hadoop-mapreduce/

Hadoop学习笔记：使用Mrjob框架编写MapReduce

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们