聚类分析算法研究k-means算法(4)

2.2 聚类分析算法的分类
    聚类分析算法一般分为以下几类:划分方法、层次法基于密度的方法、基于网格的方法，基于模型的方法。聚类方法的分类如图2.1所示。
自下而上自上而下                       统计学方法神经网络
                                                DBSCAN
                                               BIRCH
CLARANS      PAM
                                                CLIQUE           COBWEB      SOM
CURE       DBNCLUE   WaveCluster
图2.1 聚类算法的分类

2.2.1 划分方法
给定一个具有个变量的数据集，利用划分法将数据分成K个分组，其中满足。对于给定的k，算法首先给出一个原始的划分方法，之后通过反复迭代方法改变划分，使得每一次改进之后的划分方案都比前一次好。划分聚类中比较流行的算法有k-means算法、k-medoids算法、CLARANS算法。K-means算法的分析在下章节中详尽的讲解。
2.2.2 层次方法
    层次分解可以分为自底向上和自顶向下两个方向。典型算法有BIRCH算法和CURE算法。层次聚类的缺陷表现在聚类过程要按照先前的规则分类，层次方法对孤立点和噪声敏感。
Birch算法：该算法使用了特殊的CF-树（Clustering Feature Tree）分层结构，对数据进行聚类。CF-树是一个加权平衡树，它包含了层次方法中的聚类特征信息，CF-树存储于一个聚类特征树里。特征数有两个参数，即每个节点的包含最大的子节点数和子聚类的范围。有数据运行时，程序自动构建树结构，把数据加到聚类中。Birch算法不能很好的运算大型数据集，因此需通过构建初始聚类树来对数据进行预聚类，再采取其他的聚类算法对数据聚类。该算法对输入数据的顺序很敏感，并且算法的效率高。
Cure算法：算法选择基于质心和基于代表对象方法之间的中间策略。该算法使用多个代表点来定义一个类，这些代表点能够描述类的形状和大小，一旦确定了代表点，他们就向类中心收缩，因此，该算法能够识别非球形状的类。
2.2.3 基于密度的方法
    基于密度的聚类方法是以球形聚类的，此方法可用来处理孤立点数据。此方法中，只要临近区域的数据数目大过某个值，就把他加到相近的聚类里去，每个给定的区域必须有一组数据。典型的算法有DBSCAN算法、OPTICS算法和CLIQUE算法等。
DBSCAN算法：是一种典型基于密度的聚类方法。
DBSCAN（D, Eps, MinPts）
Begin
init C=0;
for each unvisited point p in D
mark p as visited;

聚类分析算法研究k-means算法(4)

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

python基于决策树算法的球赛预测

现代虚拟制造技术及應用前景分析【1935字】

流控制传輸协议SCTP的分析与研究【1047字】

校园一卡通数据系统的學...

中国学术生态细节考察《...

医院财务风险因素分析及管理措施【2367字】

AT89C52单片机的超声波测距...

承德市事业单位档案管理...

公寓空调设计任务书

神经外科重症监护病房患...

C#学校科研管理系统的设计

国内外图像分割技术研究现状

10万元能开儿童乐园吗，我...

志愿者活动的调查问卷表