首页 > 代码库 > 初学Mahout测试kmeans算法
初学Mahout测试kmeans算法
预备工作:
启动hadoop集群
准备数据
Synthetic_control.data数据集下载地址
http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data
在集群中创建 /user/root/testdata 目录,必须是这个目录,不能改变,若是改变的话,得对应的去改变源码。
将准备好的数据上传到集群的/user/root/testdata下。
预备工作结束。
正式测试:
运行:[hadoop001@hadoop001 apache-mahout-distribution-0.12.2]$ hadoop jar mahout-examples-0.12.2-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
查看测试结果:
将集群上面的测试结果下载到本地中进行预览。
运行:mahout seqdumper -i output/data/part-m-00000 -o /opt/data/testdata
testdata: 文件名,自动定义。不需要去目录中手动创建,自动生成。
初学Mahout测试kmeans算法
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。