首页 > 代码库 > 相关性分析方法(Pearson、Spearman)

相关性分析方法(Pearson、Spearman)

  有时候我们根据需要要研究数据集中某些属性和指定属性的相关性,显然我们可以使用一般的统计学方法解决这个问题,下面简单介绍两种相关性分析方法,不细说具体的方法的过程和原理,只是简单的做个介绍,由于理解可能不是很深刻,望大家谅解。

1、Pearson相关系数 

  最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适用条件如下: (适合做连续变量的相关性分析)

(1)两变量呈直线相关关系,如果是曲线相关可能不准确。 

(2)极端值会对结果造成较大的影响 

(3)两变量符合双变量联合正态分布。 

2、Spearman秩相关系数 

  对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。但其属于非参数方法,检验效能较Pearson系数低。(适合含有等级

变量或者全部是等级变量的相关性分析)

3、无序分类变量相关性

  最常用的为卡方检验,用于评价两个无序分类变量的相关性。根据卡方值衍生出来的指标还有列联系数、Phi、Cramer的V、Lambda系数、不确定系数等。

OR、RR也是衡量两变量之间的相关程度的指标。

  卡方检验用于检验两组数据是否具有统计学差异,从而分析因素之间的相关性。卡方检验有pearson卡方检验,校正检验等,不同的条件下使用不同的卡方检验方

法,比如说满足双大于(40,5)条件的情况下要使用pearson卡方检验方法,另外的情况下要使用校正卡方检验方法。

 

  说的不多,只是想在大家使用相关方法的时候清楚他们之间的差别,以及不同方法的适用条件是什么

相关性分析方法(Pearson、Spearman)