首页 > 代码库 > 假设检验

假设检验

假设检验分参数假设和非参数假设。

假设

先假设原假设H0,对应的反面叫做备择假设H1。SAS一般沿用的规则是NEYMAN和PEARSON提出的:在控制犯第一类错误的原则下,是犯第二类错误的概率尽量小(即,原假设受到保护,不能轻易否定。若原假设被否定了,其理由一定是充分的)。反过来思考,若为了是假设更加有说服力,可是让本猜想本身作为H1,得到的结论为否定H0,就能更加充分证明原本的猜想(类似反证法)。

假设检验判断原则以犯第一类错误概率为判断依据:

P>=α,则接收H0;P<α,则拒绝H0。

检验

有了假设就要有检验,这里先介绍T检验。

进行T检验数据源要满足数据正态性条件:①样本来自正态分布总体。或者②样本容量足够大(若样本对称分布,样本容量>=30即可)。

T检验分为:单样本均值T检验、双样本均值T检验(分为独立双样本均值T检验、配对样本均值T检验)。

单样本均值T检验

PROC TTEST DATA=http://www.mamicode.com/SASHELP.FISH H0=14 PLOTS(SHOWNULL)=INTERVAL;
    WHERE SPECIES="Bream";
    VAR HEIGHT;
RUN; 

如上代码中指定H0=14原假设均值为14,默认值为0。PLOTS(SHOWNULL)=INTERVAL指定画出置信区间图,SHOWNULL标出假设值在置信区间图的位置。

看下图:

技术分享

首先看到上面的直方图中核的曲线为样本数据值的曲线,可以看出分布基本对称可以用T检验进行均值检验。这里也可以用PROC UNIVARIATE进行计算偏度也可以判断分布的对称性。

再看到图的下半部分:有盒形图和置信区间图重叠了,可以看出样本均值为◇符号所在地方15多点,置信区间是蓝色区域,假设的H0的值在蓝色区域外面的14.0的位置。假设值在置信区间之外就已经可以拒绝H0了。

还可以看别的结果,如下图:

技术分享

表格中详细的写明了一些上图中无法明确读出来的值,样本均值为15.183,95%置信区间为14.508到15.858。重点是T检验的结果P=0.001<0.05所有可以拒绝原假设H0。

除了这些结果以外还有:

技术分享

 

技术分享

 

分开独立的图方面阅读,下面的Q-Q 同样说明样本数据基本满足正态性(点分布在直线左右)。

独立双样本均值T检验

进行独立双样本均值T检验要满足三个条件:①双样本之间相互独立②双样本均来自正态分布总体③双样本方差想等。

PROC TTEST DATA=http://www.mamicode.com/EX.SCORE PLOTS(SHOWNULL)=INTERVAL;
    CLASS GENDER;
    VAR SCORE;
RUN;

GENDER中的两个分类为两个样本,结果如下:

技术分享

第四个表,这里多加了一个F检验,假设方差等价H0,其F趋近于1,P>0.05,所以接受原假设,即男女的分数没有显著差异(注意:用F检验要求无论数据样本量大小,必须服从正态分布,所以这里仅仅是个参考,还不确定数据是否服从正太分布)。

第三个表,这里用两种方法做的检验,汇总法,齐性方差条件满足时用,T=1.92,P=0.0582>0.05,所以先接受HO,即即男女的分数没有显著差异。用第二种方法,SATTERTHWAITE法,齐性方差条件不满足时用,得出来的结论是接受,即即即男女的分数有显著差异。

但是由第二张表看到两分类的标准差几乎相等,所以是齐性方差条件已经满足了所以看汇总发输出的结果。

第二张表中的置信区间包括0,也可以判断在0.95 的置信水平下,两分类显著性差异不大。

技术分享

由直方图看出两实际数据并不都服从正态分布,所以F检验结果仅供参考,不做依据。

技术分享

 

看置信区间图,两种方法所算出来的置信区间和均值方差一直,和上表结果一致,在此论证男女分数无显著性差异。

技术分享

 

服从正态性,但不完全是正态分布。

单边T检验即检验的是υ1-υ2的值,后面加上SIDES=U即可。

匹配样本均值T检验

条件:①两样本具有匹配关系②服从正态分布,或者样本量足够大;

加入有个条件的前后数据,判断该条件对样本有无显著性影响。

PROC TTEST DATA=http://www.mamicode.com/PRESSURE;
    PAIRED SBPBEFORE*SBPAFER;
RUN;

 

假设检验