首页 > 代码库 > mahout 随机森林RF算法
mahout 随机森林RF算法
在随机森林中的随机性体现在:1.训练数据的随机性 2. 选择分割属性的随机性
能解决分类与回归问题,并且都有很好的估计表现
1.生成数据说明文件
mahout describe -p input.csv -f input.info-d2 I 3 N I 5 N I 3 C L(执行describe生成数据的说明文件)
2.训练模型
mahout buildforest -d input.csv -ds input.info -sl 5 -p -t 5 -o forest_result(生成随机森林模型结果)
3.测试
Mahout testforest -i input.csv -ds input.info -m forest_result -a -o predictions
-a 运行后在命令行界面可以看到分析结果,包括准确率等信息
-d:数据路径
-ds:数据集
-sl:选取每个子节点应该具备的训练变量个数,对于regresstion问题默认为全部变量的三分之一
-nc:可选的,树不互补
-ms:可选的,如果分支数据大小小于此值(默认为2),则树不分离。
-mp:可选的,如果分支数据的方差的比例小于这个值,则树不分离。(In the case of a regression problem, this value is used. The default
is 1/1000(0.001).)
-sd:可选的,种子值,用来初始化随机数发生器。
-p:使用部分数据实现
-t:设置共多少棵树
-o:输出路径,包含决策森林模型
mahout 随机森林RF算法
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。