首页 > 代码库 > 卡方检验的用途
卡方检验的用途
卡方检验是基于卡方分布的一种检验方法,属于非参数检验,它统计样本的实际观测值与理论推断值之间的偏离程度,以此计算统计量χ2,χ2越大,二者偏差越大;卡方值越小,二者偏差越小,若两个值完全相等时,χ2值就为0,表明实测值与理论值完全吻合。
很多文献资料中都注明卡方检验适用于分类变量,而一提到分类变量的分析,卡方检验也是首先考虑的分析方法之一,这可能会给人一种感觉是卡方检验只适用于分类变量、计数资料。其实不是,卡方检验也是可以用于连续资料的,我们可从以下两个方面考虑:
1.根据卡方分布的概率密度函数可知
卡方分布的函数曲线形状依赖于自由度,随着自由度增大,曲线越来越趋于正态分布曲线,正态分布是我们熟知的连续分布,而自由度对应分类变量的类别数,抛开取值范围不谈,当一个分类变量的类别无限大时,它其实也就类似于连续变量了。其他的连续分布如t分布、F分布也和卡方分布有关,如F分布是由两个卡方分布构成、t分布是由一个正态分布和一个卡方分布构成。
2.原假设总体X的分布函数为F(x),如果总体分布为离散型,也就是分类变量,则原假设换为:总体X的分布律为P{X=xi}=pi, i=1,2,...,现将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f1+f2+...+fk等于样本容量n。当原假设为真时,根据其总体理论分布,可算出总体X的值落入第i个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)。若原假设为真,则n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近,若原假设不为真,则fi/n与pi相差很大。正是基于这种思想,Pearson引进如下卡方统计量 ,在原假设成立的情况下服从自由度为k-1的卡方分布。
从上可以看出,如果我们将一个连续变量的每个取值看成一个类别,也就是将其“离散化”,那就可以按照上述理论使用卡方检验,只是连续变量取值通常很多,而且可能会使每个小区间样本数小于5,所以一般我们直接使用连续分布进行处理了。
由于卡方检验对于分类变量使用起来很方便,而连续变量又有很多连续分布可以选择,所以卡方检验才广泛用于分类变量上。
================================================
卡方检验的用途有很多种,归纳起来只有两类:拟合优度检验和独立性检验,如:
(1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。
(2)检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。
(3)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。
(4)检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。
(5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。
其中(1)(2)属于拟合优度检验、(3)(4)(5)属于独立性检验,下面举两个例子:
1.拟合优度检验
卡方拟合优度检验对变量的每个类别里的比例或频数与原假设下指定的比例或频数是否一致进行检验。
某心理学家想研究责任感是否随团体大小而变化,他设计了三个场景、每个场景中均有一名需要被帮助的妇女,三个场景中可以为这名妇女提供帮助的人数分布为1人、5人、25人,随机抽取90名受访者,告知三个场景中均无人帮助该妇女,让受访者在三个场景中选择一个,认为该场景为无人帮助该妇女付最多责任。调查结果如下:
原假设H0:责任感不会随团体大小而变化,即选择每个场景的人数是相同的,为90/3=30人
备择假设H1:责任感会随团体大小而变化,即选择每个场景的人数是不同的
计算卡方值
结果可知拒绝原假设,即责任感会随团体大小而变化,至于变化的方向,根据实测人数,1人团体中实测人数为42,理论人数为30,25人场景中实测人数为18,理论人数为30,可以认为,随着团体人数增多,人责任感呈下降趋势。
2.独立性检验
卡方独立性检验是对两个分类变量是否有关联进行检验。
某心里学家想研究性格类型和休闲活动的选择是否有关系,随机抽取100人进行性格测试,区分内向和外向两种,要求他们在外出逛街和在家休息两种休闲活动中选择一种,最终数据如下:
原假设H0:性格和休闲活动的选择之间没有关系
备择假设H1:性格和休闲活动的选择上存在某种联系
计算卡方值
结果可知拒绝原假设,即性格和休闲活动的选择之间存在某种联系,至于存在什么联系,也可以和拟合优度一样,可以通过实际频数和理论频数的比较进行判断:
性格内向的人:实测12人选择外出逛街,理论上应有22人,实测少于理论,实测28人选择在家休息,理论上应有18人,实测多于理论,说明内向的人更喜欢在家休息
性格外向的人:实测43人选择外出逛街,理论上应有33人,实测多于理论,实测17人选择在家休息,理论上应有27人,实测少于理论,说明外向的人更喜欢外出逛街。
卡方检验的用途