聚类分析也叫点群分析、群分析,是分析如何对样本(变量)进行量化分类的问题。聚 类分析根据样本的属性,按照某种相似性或者差异性指标,利用数学方法来定量地确定样本
(变量)之间的亲疏关系,并按照这种关系对其进行分类的多元统计方法。聚类分析的基本 思想:在样本(变量)间定义距离(相似系数),它们代表样本或者变量之间的相似程度,把 样本(变量)按照相似程度的大小来进行逐一归类,关系密切的样本(变量)先聚集到一个 小的分类之中,然后再逐步扩大,将关系较为疏远的聚集到一个较大的分类之中,直到所有 的样本(变量)都聚集完成,形成了一个聚类谱系图,依次按照要求进行分类。文献综述
聚类分析有非常丰富的内容,按照对象不同,可以分成 Q 型聚类分析与 R 型聚类分析, 前者是对样本进行分类,它根据样本的各种特征,把相似的样本归为一类;后者是对指标或 者变量分类,它根据被观测的变量之间相似性,把相似的变量分成一类。另外,聚类分析还 可按照其分类方法,分为系统聚类法、模糊聚类法、有序样品聚类法、图论聚类法、动态聚 类法等。使用较多的聚类方法是系统聚类法以及动态聚类法。系统聚类法又称作分层聚类法, 是聚类分析中应用最广泛的一种方法。它的思想是:刚开始把所有样本或者变量指标看作一 类,根据类与类之间的距离把相似的类加以合并,再计算新的类与其他类之间的相似程度, 再把相似的类加以合并,这样依次合并后,直到所有的样本合并成为一类。动态聚类法也称 作 K 均值聚类法。它的思想是:根据某种方法选取一批聚类中心,使样品向最近的聚心凝聚, 形成初始分类,然后按照最近距离原则修改不合理分类,直到合理为止。
第 4 页 本科毕业设计说明书
2。1。2 相似性度量
一、 样品间距离
假设有 n 个样品, p 个指标,则形成如下的一个矩阵
把这 n 个样品看成是 p 维空间的 n 个点,我们便可以用距离来衡量两个样品之间的接近 程度。我们用 dij 表示样品 i 和样品 j 之间的距离。
(1)闵氏距离来,自,优.尔:论;文*网www.youerw.com +QQ752018766-
其中当 q 等于 1 时,称作绝对距离。当 q 等于 2 时,称作欧几里得距离。当 q 为∞时,称为 切比雪夫距离。
(2)马氏距离
表示指标的协差阵,它又称作广义欧几里得原理,用这个距离公式考虑到了变量之间 的相关性以及变异性。
(3)兰氏距离
此距离公式可以避免量纲对指标之间的影响。 二、 变量相似性的度量
在多元数据中我们用向量的形式表现其中的变量,在几何中我们用多维空间的有向线段 表示。对多元数据分析时,我们更多的是分析变量变化的趋势。因此,我们用“夹角余弦法” 以及“相关系数法”来考察变量之间的相似性。