2 理论原理
2.1主成分分析
主成分分析是最常用的分析方法之一.其主要思想是降维,它把多个指标(假设 个指标),转化为几个综合指标.新的综合指标就是主成分,这些综合指标集中了原始变量的绝大多数信息,实现了人们在定量研究中希望通过较少的变量得到较多的信息量的愿望.每个主成分也是原始变量的线性组合.选取第一个综合指标,记为 , 的方差越大,说明 包含原始信息越多,方差最大的 就是第一主成分.如果 对 个指标信息解释不够充分,我们取第二个线性组合,记为 ,这里 互不相关,即 此时 为第二主成分.依此类推,根据需要我们可以构造多个主成分.文献综述
2.2聚类分析
聚类分析是一种将研究对象分为相对同质的群类的统计分析方法.它根据样本或变量的特性对其进行合理地定量分类,使同一类中个体的特质尽可能相似,而类别之间要有较大差异.该方法基本的原理:根据一批样本的多个指标,找到能够度量样本或指标之间相似程度的统计量,以此作为划分类型的依据.按照相似性程度对样品(或指标)逐一分类,把关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有样本或指标都聚合完毕,形成一个亲疏关系谱系图,能够更自然、更直观地显示分类对象(个体或指标)之间的差异和联系.
3 实际问题的分析应用
接下来利用主成分分析和聚类分析对2014年江苏省城镇居民消费情况进行统计分析.数据取自2014年江苏统计年鉴中人民生活指标,对分地区人民消费情况的统计,详见附表.这里我们选取8个指标,它们分别是: ——食品烟酒(单位:元), ——衣着(单位:元), ——居住(单位:元), ——生活用品及服务(单位:元), ——交通通信(单位:元), ——教育文化娱乐(单位:元), ——医疗保健(单位:元), ——其他用品及服务(单位:元).
3.1主成分分析
首先用主成分分析方法对这个问题进行分析研究,把数据导入SPSS统计分析软件,利用SPSS数据分析得到分析结果如下表,主成分得分表是根据软件输出结果和相应公式计算而得出的.
表3-1 相关矩阵表来~自^优尔论+文.网www.youerw.com/
相关矩阵
x1食品烟酒 x2衣着 x3居住 x4生活用品及服务 x5交通通信 x6教育文化娱乐 x7医疗保健 x8其他用品和服务
相关 x1食品烟酒 1.000 .917 .935 .906 .955 .737 .790 .898
x2衣着 .917 1.000 .913 .873 .846 .671 .786 .958
x3居住 .935 .913 1.000 .939 .943