分解形式 : Am*n Um*mΣm*nVT
在求奇异值分解过程中,我们首先将矩阵 A 与其转置矩阵 AT 相乘得到一个方阵,用方阵 来求特征值如(2。2)式所示:
这里得到的 v 就是上述的右奇异向量。
进而, 我们可以得到公式(2。3)和(2。4):
这里的 σ 就是上述的奇异值矩阵中的值,u 就是上述的左奇异值矩阵中的向量。奇异值与 特征值的结果类似,在矩阵 Σ 中是按照大到小的顺序排列的,而且奇异值 σ 的减小速度很快, 在多数情况下,奇异值矩阵前面一小部分的数据的和就占全部数据的 99%。文献综述
2。2。2 主成分分析(PCA)
PCA[8]的问题实际上是一种基变换的问题,将原始数据通过线性变换投影到子空间中,使 得变换后的数据有着最大的方差。方差研究的是与平均数据的偏离程度,方差越大说明类别 间的差距越大,则更容易进行分类。
本科毕业设计说明书 第 7 页
主成分分析的及变化就是对原始的空间顺序地找一组与之正交的向量,第一个向量是使 得方差最大的,第二个向量是在与第一个向量正交的平面中使得方差最大的,第三个向量是 在与第一、第二个向量相正交的平面中方差最大的。假设在 N 维空间中,我们则能够找到 N 个如上所述的向量,取前 r 个向量子空间进行投影,这样就能够从一个 N 维的数据空间压缩 到 r 维的子空间了。
假设有一个 m n 的矩阵 A , A 矩阵的每一行表示一个样本的数据,每一列表示该数据的 一个特征。此时对 A 进行变换,则存在变换矩阵 P ,使得 A 矩阵从一个 N 维空间转换到另外 一个 N 维空间,变换公式(2。5)如下:
而将一个 A 这个 m n 的矩阵变成一个 m r 的矩阵,就要将原有的 n 个特征压缩为 r 个特征
(r<n),变换公式(2。6)如下:
上述过程,就是 PCA 工作的过程[1]。
2。2。3 主成分分析与奇异值分解
之前提到的用 SVD 后所得到奇异向量就是按所对应的是奇异值 Σ 从大到小排列的,依照 PCA 的观点来看,奇异值最大的就是第一个奇异向量,奇异值次大的向量就是第二个奇异值 向量,依次类推。用公式(2。1) ,等式两边同时乘上一个矩阵 V 得到公式(2。8):来`自+优-尔^论:文,网www.youerw.com +QQ752018766-
与公式(2。6)对照来看,V 就是 P ,也就是变换的基。将一个 m n 的矩阵压缩成一个 m r 的 矩阵,就是对矩阵的列进行压缩变换。则可得到一个通用的行压缩公式(2。9):
利用这个压缩公式,就可以将一个 m n 的矩阵压缩成为 m r 的矩阵,对奇异值分解的公式 两边乘以 U 的转置 UT 得到公式(2。10):
UT r*mAm*n ≈ Σr*rVT
利用(2。10)这个公式同样可以对行进行压缩。可以看出主成分分析几乎与奇异值分解的 计算是相同,只是在最后利用奇异值分解结果得到的 V 和 UT 对的结果进行变换,所以,如果 我们实现了奇异值分解也就实现了主成分分析,而且,在求得奇异值分解后结果后,可以得 到两个方向的主成分分析结果。