适用场合

Apriori算法包含两部分内容：1，发现频繁项集 2，挖掘关联规则。

通俗地解释一下，就是这个意思：1.发现哪些项目常常同时出现 2.挖掘这些常常出现的项目是否存在“如果A那么B”的关系。

举个例子：网店购物订单常常会出现这样一种情况：那就是某几种物品常常一起买。比如锅和铲子、手机和手机壳等就会常常出现在同一个订单中，因此挖掘出哪些项目常常同时出现就是1中的问题。再进一步，对于这些常常出现的频繁项集，如果能挖掘出“若A则B”的更强关系，那就更好了。比如买了手机的常常会再买个手机壳，但是反过来不成立。

发现频繁项集

发现频繁项集最直观的想法，就是想办法对所有的项目进行全组合，也就是产生2ⁿ种，然后对这些不同的种类挨个计算出现最频繁的组合。但是这种方法的搜索空间太大，速度非常慢。Apriori定理可以很大程度上缩小搜索空间，其内容是：任一频繁项集的所有非空子集也必须是频繁的，也就是说，任何一个非频繁项集的超集一定也是非频繁项集。这样就可以直接删除所有包含非频繁项集的集合，很大程度上减少了搜索空间。

转载了一张图，非常明晰地说明了其中的道理：

技术分享

（图片来源：http://www.jianshu.com/p/00103435ef89）

挖掘关联规则

挖掘关联规则是以频繁项集为基础的。假设我们已经找到了几个频繁项集，现在要找到其中是否蕴含“若A则B”的因果关系。

要想计算是否存在因果关系，很直观的想法就是计算条件概率P(B|A)，看看在A条件下B的概率是否足够高。

术语

假设项集有A，B。

有了上述的铺垫，现在引入术语定义：

支持度(support)：P(AB)，A和B同时出现概率。越大越频繁。

置信度(confidence)：P(B|A)，条件概率。越大说明英国越强。

提升度(lift)：P(B|A)/P(B)，有A这个条件和没有A这个条件时，B出现的概率之比。

[机器学习] Apriori算法

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > [机器学习] Apriori算法

[机器学习] Apriori算法

适用场合

发现频繁项集

挖掘关联规则

术语

看完仍有疑问？有类似问题直接问程序猿