首页 > 代码库 > 分布式并行关联规则挖掘

分布式并行关联规则挖掘

  经典的关联规则挖掘算法Apriori和FP-growth,在大数据或者海量数据面前,由于候选集和生成的FP树大而无法存储到内存,同时也由于算法本身单机的特点,决定了它串行处理数据的方式,这在效率上很难满足大数据处理的要求,数据迁移到平台需要传输和转储,在大数据面前,也是一大难题。

  一般而言"关联规则的挖掘过程分为两步
  1 找出所有的频繁项集,根据定义这些项集的每一个频繁出现次数至少与预定义的最小支持度计数
  2 由频繁项集产生强关联规则。这些规则必须满足最小支持度和最小置信度。
  由于第二步的开销远低于第一步,挖掘关联规则的总体性能由第一步决定,因此重点研究产生频繁项集的过程。

  已有的学者再分布并行处理方面做得改进:

  1 数据划分思想

  2 多线程内存共享

  3 FP子树的分布并行处理

  4 条件模式基的并行分布挖掘

  5 采用多个局部FP树代替全局FP(二者是等价的,为了便于分布到各个Map上)

  待续。

分布式并行关联规则挖掘