采用PCA的K-means聚类(4)

1.1.5 基于密度的聚类模型

在基于密度的聚类模型中，集群被定义为相比其余的数据集的高密度区域，在这些稀疏的区域，对象所需要的单独的集群通常被认为是噪声和边界点[4]。

最流行的基于密度的聚类模型算法是 DBSCAN。与许多较新的方法，具有一个良好定义的集群模型称为“密度可达性”。类似与基于连通性的聚类算法，它是基于连接在一定距离的阈值点。然而，它只是连接满足密度标准的点，满足密度标准的点在原始变量定义为在此半径内的其他对象的最小数目。一个集群包含所有密度连接对象加上在这些连接对象范围内的所有的对象。DBSCAN 的另一个有趣的特性是，它的复杂性是相当低的，它需要一个线性数量范围内的数据库查询，它在每次运行中会发现本质上相同的结果，因此不需要运行多次。

1.2 主成分分析

1.2.1 主成分分析概述

在多元统计分析中，主成分分析（英语：Principal components analysis，

PCA）是一种分析、简化数据集的技术[28]。主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。由于主成分分析依赖所给数据，所以数据的准确性对分析结果影响很大。

主成分分析由卡尔·皮尔逊于 1901 年发明，用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解，以得出数据的主成分（即特征向量）与它们的权值（即特征值）。主成分分析是最简单的以特征量分析多元统计分布的方法[17]。其结果可以理解为对原数据中的方差做出解释：哪一个方向上的数据值对方差的影响最大？换而言之，主成分分析提供了一种降低数据维度的有效办法；如果分析者在原数据中除掉最小的特征值所对应的成分，那么所得的低维度数据必定是最优化的，即这样降低维度必定是失去信息最少的方法。主成分分析在分析复杂数据时尤为有用，比如人脸识别。

主成分分析是最简单的以特征量分析多元统计分布的方法。通常情况下，这种运算可以被看作是揭露数据的内部结构，从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来，那么主成分分析就能够提供一幅比较低维度的图像，这幅图像即为在信息最多的点上原对象的一个“投影”。这样就可以利用少量的主成分使得数据的维度降低了。

主成分分析跟因子分析密切相关，并且已经有很多混合这两种分析的统计包。而真实要素分析则是假定底层结构，求得微小差异矩阵的特征向量。

1.2.2 奇异值分解

奇异值分解（singular value decomposition)是线性代数中一种重要的矩阵分解，在信号处理、统计学等领域有重要应用[9]。奇异值分解在某些方面与对称矩阵或自共轭矩阵基于特征向量的对角化类似。然而这两种矩阵分解尽管有其相关性，但还是有明显的不同。对称阵特征向量分解的基础是谱分析，而奇异值分解则是谱分析理论在任意矩阵上的推广。

假设�是一个� × �阶矩阵，其中的元素全部属于域�，也就是实数域或复

数域。如此则存在一个分解使得：

� = �

上一篇：生物信息云平台上的微生物群落拓扑分析

下一篇：游戏平台中行为规则抽取研究

采用PCA的K-means聚类(4)

基于Apriori算法的电影推荐

PHP+IOS的会议管理系统的设计+ER图

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

LiMn1-xFexPO4正极材料合成及充放电性能研究

麦秸秆还田和沼液灌溉对...

张洁小说《无字》中的女性意识

老年2型糖尿病患者运动疗...

我国风险投资的发展现状问题及对策分析

网络语言“XX体”研究

互联网教育”变革路径研究进展【7972字】

安康汉江网讯

ASP.net+sqlserver企业设备管理系统设计与开发

新課改下小學语文洧效阅...