首页 > 代码库 > 2014-08-4
2014-08-4
今天做的就是将fpg跑出来的结果进行各种指标计算,但是因为用python还是不是特别熟悉,因为没有找到python能处理类似SequenceFile这样的类库,所以就用java编写,这下就是折腾各种包引用,就是classpath的引用。由于涉及到hadoop和mahout的包,这样需要添加到classpath里面的包就很多很多,如果自己一个一个的添加,也许一天下来就差不多完了(我自己就这样折腾了好几个小时),最后在网上到处搜找到了“classpath多个包添加”这个方法。还有用shell的,但是自己还不会。程序差不多就跑通了。那今天目前遇到的问题:
1、classpath的添加
2、java的OutOfMemoryError:Java heap space:分开处理了part-r-00000,和part-r-00001
3、还有就是最后关联规则的度量标准,虽然知道有哪些,但是还是不是特别明白其数值大小代表什么意思。
http://www.cnblogs.com/fengfenggirl/p/3255173.html;
http://web.engr.illinois.edu/~hanj/pdf/pkdd07_twu.pdf;
http://www.nyu.edu/classes/jcf/g22.3033-002/slides/session6/MiningFrequentPatternsAssociationAndCorrelations.pdf;
4、一开始的数据的处理就有问题:对于关联规则,一、不存在时间顺序问题,二、每一个事物里面不要用重复的数据,这样用python处理的话,就要考虑用到数据结构。python处理: http://woodpecker.org.cn/diveintopython/native_data_types/lists.html;http://woodpecker.org.cn/diveintopython/index.html;http://sebug.net/paper/python/ch09s04.html;
http://wangwei007.blog.51cto.com/68019/903426
5、数据的report和action,不能每一个都有记录,只保留需要加载的:view0,view1,related。