mahout入门指南之基于mahout的itembased算法

首页 > 代码库 > mahout入门指南之基于mahout的itembased算法

mahout入门指南之基于mahout的itembased算法

2024-08-09 10:26:26 221人阅读

基于mahout的itembased算法

其实mahout分布式上只是实现了部分算法。比如推荐算法中Item-based和slopone都有hadoop实现和单机版实现，User-based没有分布式实现。

Mahout已实现的算法（单机版和分布式版）

https://mahout.apache.org/users/basics/algorithms.html

大多数情况下，我们只是调用mahout的算法，要么单机版，要么分布式版。

那么mahout的分布式算法怎么调用呢？

其实mahout分布式算法调用有两种方式，

一种是命令行提交hadoop任务，

一种是java程序提交hadoop任务。

1 命令行方式

./mahout recommenditembased -sSIMILARITY_LOGLIKELIHOOD -i /home/linger/j2ee-workspace/linger/data/dataset.csv-o /home/linger/j2ee-workspace/linger/data/out.csv --numRecommendations 3

可以参考官方文档

http://mahout.apache.org/users/recommender/intro-itembased-hadoop.html

2 java程序调用其实就是先把数据拷贝到hdfs，然后在hadoop中做运算。

可以参考这篇文章

http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/

Mahout分步式程序开发基于物品的协同过滤ItemCF

PS：mahout有个坑，就是uid和itemid必须为long型。

可以参考下面这篇文章解决

mahout做推荐时uid，pid为string类型

http://blog.csdn.net/pan12jian/article/details/38703569

看到这里，大家应该会觉得，对于mahout已实现算法，调用是很简单的。

欲更近一层楼，必须学会源码分析和源码修改，最后还要学会基于map-reduce实现分布式算法。

学会源码分析和源码修改，是为了更好地使用mahout，因为有时需要根据自己的特定需求来做调整，甚至优化。

学会基于map-reduce实现分布式算法，是因为有些算法mahout并没有实现，所以要自己开发。

本文链接：http://blog.csdn.net/lingerlanlan/article/details/42087071

本文作者：linger

mahout入门指南之基于mahout的itembased算法

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > mahout入门指南之基于mahout的itembased算法

mahout入门指南之基于mahout的itembased算法

Mahout分步式程序开发基于物品的协同过滤ItemCF

看完仍有疑问？有类似问题直接问程序猿