首页 > 代码库 > 【炼数成金 RapidMiner 三 】关联分析、关联规则
【炼数成金 RapidMiner 三 】关联分析、关联规则
关联分析
1) 关联模型的部分局限有哪些?
在关联模型中一般需要寻找频繁项集,这就有可能产生大量的候选集,需要重复扫描数据库并计算候选集中每个候选项集的支持度,无法对稀有的信息进行分析,开销大。
2) 什么是关联系数? 如何解读?
相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
相关系数ρ取值在-1到1之间,ρ = 0时,称X,Y不相关; |ρ| = 1时,称X,Y完全相关,此时,X,Y之间具有线性函数关系; |ρ| < 1时,X的变动引起Y的部分变动,ρ的绝对值越大,X的变动引起Y的变动就越大, | ρ| > 0.8时称为高度相关,当,即 | ρ| < 0.3时,称为低度相关,其他为中度相关。
但是相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。
3) 正关联和负关联之间的区别是什么? 如果两个属性的值以基本相同的速率下降,是否为负关联? 为什么?
正关联和负关联基本相似于正比与反比,只是关系不是线性的,是大致趋势相似。正相关就是两个变量一个随另一个增加而增加,负相关是两个变量一个随另一个增加而减少。如果两个属性的值以基本相同的速率下降,不是负关联,他们变化趋势相同,属于正关联。
4) 如何衡量关联强度? 关联强度介于什么范围之间?
关联强度是两个研究对象之间的相似程度,一般用它们共同被引的次数来表征。关联强度越大,相似度越高,"距离"也越近。常用的相似度测算方法--Person系数适用呈现正态分布的数据。描述两个变量之间线性相关强度的参数r取值范围为[-1,1]。
5) 有人建议热燃油消费设备的数量是一个可能相关并可添加到本章示例数据集中的属性。 您还可以想到其他属性吗? 它们为什么可能相关? 您认为您建议的属性可能与数据集中的哪些其他属性之间存在关联? 如果知道它们之间存在关联,会有哪些帮助?
除了示例中的属性,认为家庭成员平均室内的时间也与热燃油需求有一定的关系。家庭成员平均室内时间会直接影响到保持室内温度的时间和对热燃油的消耗,如果家庭成员在室内的平均时间越长则热燃油的需求越大,这样就可以更加精确地定位Sarah所在公司的投放目标。
关联规则
1) 什么是关联规则? 它们有哪些用处?
关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品X的出现对物品Y的出现有多大的影响。可以用在购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等各个方面。
2) 在关联规则中计算的两个主要指标是什么,如何计算?
(1)规则X->Y在交易数据集D中的支持度是对关联规则重要性的衡量,反映关联是否是普遍存在的规律,说明这条规则在所有交易中有多大的代表性。即在所有交易中X与Y同时出现的频率记为:support(X->Y)。 计算方法:交易数据集中同时包含X和Y的交易数与所有交易数之比:support(X->Y) = P(X∪Y) = |{T: X ∪Y∈T,T∈D}|/|D|×100%(其中|D|是交易数据集D中的所有交易数)
(2)规则X、Y在交易数据集D中的置信度是对关联规则准确度的衡量。度量关联规则的强度。即在所有出现了X的活动中出现Y的频率,即规则X、Y的必然性有多大。记为confidence(X->Y)。
计算方法:包含X和Y的交易数与包含X的交易数之比:confidence(X->Y) = P(Y∣X) = |{T: X∪Y∈T,T∈D}|/|{T:X∈T,T∈D}|×100%
同时满足最小置信度阈值和最小支持度阈值的关联规则为强关联规则。
3) 数据集的属性必须是什么数据类型,才能在 RapidMiner 中使用频率模式操作符?
必须是二值类型的数据。
4) 如何解读规则结果? 在本章的示例中,最强的规则是什么? 我们是如何知道的?
可以从结果集中读取可能选在关联的一对元素之间的支持度和置信度,在本章中最高关联强度是Religious->Rule,支持度为0.239,置信度为0.796。