统计学上,主元分析法被定义为用几个较少的综合指标来替代原先较多的综合指标,即对原有的高维空间进行一个可测的变换,将原有数据投影到低维空间中。而这些较少的综合指标,一方面能尽可能多地地反映原来综合指标的有用信息,且相互之间又是线性无关的。主元分析法的主要目的就是去除多个向量间复杂无关的信息,使高度冗余的数据得到最精简的浓缩。
主元分析法建立在统计最优原则基础上,是K.Pearson在一个多世纪前提出的一种数据分析方法[10]。在1901年,主元分析法首先被用在生物学领域,K.Pearson对线性回归重新做了分析,获得新的变换形式,。随后在1933年,主元分析法被用在心理测验学领域,Hotelling将离散的变量转变为无关联系数。当概率论建立之后,主元分析法作为一种单独的研究方法于1947年被Karhunen提出,而在1963年由Loeve对其进行了归纳和总结。故而主元分析法作为一种特征提取的方法,其核心部分在于K-L变换。文献综述
2.2 主元分析法的原理
2.2.1 K-L变换
K-L变换具体又称Karhunen-Loeve变换,是由Karhunen提出,Loeve总结而成,是模式识别问题解决时最常用的方法之一。K-L变换的实质是一种旋转变换,通过建立一个新的坐标系,将一个对象的主轴沿特征向量对齐。从大体上看,虽然K-L变换的原理和主元分析是相同的,但其能对不同信息进行综合考虑,从而实现监督的特征提取。通过这个变换,原有数据中各个分量间的相关性被解除,只含有较少信息的那些坐标系会被放弃,只选择含有较多信息的坐标系,进而实现降低特征空间维数的目标。
我们可以假设有 维的随机向量 ,对于 可以由一个完整的正交基 , 进行表示:
(2-1)
式中的 表示加权系数, 表示基向量。也可用矩阵的形式表示:
(2-2)
其中,
(2-3)
将式(2-1)两边同时左乘 ,得到系数向量
(2-4)
在通常情况下,想要获取系数向量矩阵,我们需要先求得自相关矩阵或协方差矩阵的特征值和特征向量。然而在获取随机向量的自相关矩阵时,往往会缺少类别信息的样本集的均值向量,使得自相关矩阵失去意义。所以在计算中,我们常常使用数据的协方差矩阵 作为K-L坐标系的产生矩阵。这里的 代表所有数据的均值向量。来~自^优尔论+文.网www.youerw.com/
在使用协方差矩阵进行坐标系计算时,K-L变换就等同于常规的主元分析法了。而这种非监督的特征提取方法也被称为SELFIC方法[11]。
2.2.2 主元分析法的基本原理
主元分析法(Principal Component Analysis, PCA)属于线性降维方法中的一种,主要考虑了样本矩阵中列向量间的线性相关性,从而实现高维降成低维、去除数据相关性和概率估计等三种目的。在降维过程中,我们通常会以每个主元的贡献率,即加权系数来进行主元的选取。能够反映系统最大信息量的指标作为第一主元,其次为第二主元,以此类推。选取的主元都是两两互不相关的。将所有顺序排列的主元的加权数累加,通过和需要反映的信息量百分比进行比较,可以获得选用的主元数。