首页 > 代码库 > 主成分和因子分析原理及比较

主成分和因子分析原理及比较

一、主成分分析原理

      主成分分析试图在力保数据信息丢失最少的原则下,对多个变量进行最佳综合简化,即对高维变量空间进行降维处理。

      假设原来有p个变量(或称指标),通常的做法是将原来p个变量(指标)作线性组合,以此新的综合变量(指标)代替原来p个指标进行统计分析。如果将选取的第一个线性组合,即第一个综合变量(指标),记为F1,则自然希望F1尽可能多地反映原有变量(指标)的信息。

    如何衡量信息的含量,经典的做法就是采用“方差”来表示。F1的方差越大,F1所包含的信息就越多。这样,F1的选取方法是,在所有的原来p个变量(指标)的线性组合中,选取方差最大的线性组合作为F1,称为第一主成分。如第一主成分不足于代表原来p个变量(指标)的信息,则考虑选取第二主成分F2。为有效反映原信息,F1已有的信息不需要再现在F2中,即要求F1与F2的协方差为零,即Cov(F1, F2)=0。依此下去,我们可以构造出第三、第四、…、第p个主成分。在主成分之间,不仅不相关,而且方差依次递减。在实际经济工作中,我们往往选取前面几个较大的主成分。虽然损失一部分信息,但我们抓住了原来p个变量的大部分信息(一般要求超过85%),分析的结果应该是可靠的、可信的。

主成分的基本思想:

 

 

 

     对所选主成分作经济解释:

     主成分分析的关键在于能否给主成分赋予新的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性分析来进行。

     主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。

     线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。

二、因子分析原理

     因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。假想变量是不可观测的潜在变量,称为因子。

     假定这p个有相关关系的随机变量含有m个彼此独立的因子,可表示为

 

 或用矩阵表示为 X=AF+ε

     F1, F2, …, Fm 称为公共因子,是不可观测的变量,它们的系数称为因子载荷,A称为因子载荷矩阵。ε是特殊因子,是不能包含在公共因子的部分。

    需要满足:

     m≤ p,即公共因子数不超过原变量个数

     公共因子之间互不相关,且每个Fi方差为1,即F的协方差矩阵为I

     公共因子和特殊因子之间彼此互不相关,即Cov(F,ε)=0

     特殊因子之间彼此互不相关,但方差不一定相同,记εI的方差为。理想的情况是,对于每个原始变量而言,其在因子载荷矩阵中,在一个公共因子上的载荷较大,在其他的因子上载荷较小。可以通过因子旋转方法调整因子载荷矩阵。

三、成分分析和因子分析的区别

1,因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。主成分分析仅仅是变量变换:用原始变量的线性组合表示新的综合变量,即主成分。因子分析需要构造因子模型:用潜在的假想变量和随机影响变量的线性组合表示原始变量。因子模型估计出来后,需要对所得的公共因子进行解释。

2,主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之 间的协方差。

3主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。

4主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。

5,在因子分析中,因子个数需要分析者指定(spss)根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指 定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。

 

     和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这种区分不是绝对的。

      总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前 ,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用(我觉得不一定,可以单独用):a,了解数据。(screening the data),b,和cluster analysis一 起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

在算法上,主成分分析和因子分析很类似,不过,在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。