2。2。主成分分析法
各指标间既然有一定的相关性,就必然存在着起一定作用的共同因素,我们根据这一点,通过对原始变量相关矩阵内部结构关系的研究,找出一些影响某一过程的几个新的综合指标,使新的综合指标为原来变量的线性组合,并且能够使新的综合指标尽可能多的反映原来指标的信息。新的综合指标反映的信息量用其方差来表达,即综合指标的方差越大,则表示其包含的信息越多。在全部的线性组合中方差最大的称为第一主成分,如果第一主成分不能完全的代表原来P个指标的信息,需要再选取第二个线性组合作为第二主成分,那么第一主成分已有的信息就不会再出现在第二主成分中,依次可以得出P个主成分。这些主成分之间不仅相互之间不相关,而且它们的方差是依次递减。在解决实际问题时,一般不是取P个主成分,而是根据累计贡献率的大小取前几个最大的主成分,这样既保留了原指标大部分的信息,又达到降维的目的。
2。3 主成分分析的原理及模型:
主成分分析方法是多元统计分析中的一种分析方法,它是研究如何将多指标问题化为较少的新的指标问题,并且这些新指标之间既是互不相关,又能够综合反映原来多个指标的信息,是原来多个指标的线性组合。
假设现在有P个原始观测指标,分别为 , ,…, ,且这P个指标构成的p随机向量为X= 。
将X进行线性变换,可以得到新的综合变量,用Y表示,即:
由于我们可以任意的对原始变量进行这样的线性变换,那么由不同的线性变换得到的综合变量Y也不尽相同。因此,为了能够取得更好的效果,我们总是希望 的方差尽可能的大而且各个 之间互相独立。现在设随机向量X的均值为μ,协方差阵为 。由于有:
Var( )=var( )=
而对任意常数c,又有
var(c )=
所以,对 不加限制的时候,可以使Var( )任意的增大,但是这样的话问题就变得毫无意义,因此,我们将线性变换约束在下面的原则之下:
(1) =1(i=1,2,…,p)。
(2) 与 相互无关(i≠j;i,j=1,2,…,p)。
(3) 是 , ,…, 的满足一切原则(1)的线性组合中的方差的最大者。 和 是不相关的 , ,…, 所有的线性组合中方差的最大者;…, 是和 , ,…, 都不相关 , ,…, 的所有线性组合中的方差的最大者。
对以上的三条原则所决定的综合变量 , ,…, 分别叫做原始指标变量的第一、第二…第p个主成分。其中,各个综合变量在总方差中所占的比重依次递减。我们在实际的研究工作中,通常只会选择前几个方差大的主成分,这样就可以达到简化系统结构、抓住问题实质的目的。
2。4主成分分析
主成分分析(Principal Component Analysis,PCA),又称为主分量分析。是一种将多个变量通过线性变换的方式以选出较少个数新的重要变量的多元统计分析方法,在实际课题研究中,为了全面的分析问题,往往会提出很多个与此有关的变量(或因素),因为每个变量都有在不同程度上反映了这个课题的某些信息。主成分分析最初是由K。皮尔森对非随机变量引入的,而后由H。霍特林将此方法推广到随机向量的情形之中,而信息的大小通常用方差来衡量。来*自~优|尔^论:文+网www.youerw.com +QQ752018766*
2。4。1主成分分析的步骤
(1)选取初始分析变量,搜集数据资料;