摘要:聚类分析是数据挖掘中非常重要的一步,多样化的聚类方法可以加快数据挖掘的速度和提高数据挖掘的质量。本课题介绍了聚类分析的分类及算法,主要有系统聚类、K-means聚类、模糊聚类、有序样品聚类和K-medoids聚类中的PAM聚类和CLARA聚类,并运用开源软件R3.3.3实现各种算法。其中重点介绍混合型数据聚类分析的处理方法,包括混合型数据综合距离的计算方法、混合型数据聚类个数的确定和混合型数据聚类方法的选择及R实现。本文首先采用Gower方法计算混合型数据的距离,其次根据轮廓系数的大小选择最佳聚类个数,再次采用PAM算法和CLARA算法实现混合型数据的聚类分析及其比较,最后选取了Byar前列腺癌数据集进行实证分析。通过实证分析,发现两种聚类方法均较好地对混合型数据进行了聚类,但是,这两种方法对Byar数据集的聚类结果存在一定的差异,针对这两种聚类结果的差异,分析了其中的原因,为进一步研究提供了一些依据。

关键词:聚类分析,混合型数据,PAM算法,CLARA算法,R

Abstract:Clustering analysis is a very important step in data mining. A variety of clustering methods can speed up the process of data mining and improve the quality of data mining. This paper introduces the classifications and algorithms of clustering analysis, including hierarchical clustering, K-means clustering, fuzzy clustering, ordered  sample clustering and PAM clustering and CLARA clustering in K-medoids clustering, and using the open source software R 3.3.3 to achieve the algorithms. The paper focuses on the methods of how to deal with the clustering analysis for mixed data, including how to calculate the integrated distance of mixed data, how to determine the best number of clusters for mixed data, which methods should be choose to achieve the clustering analysis for mixed  data and the application of software R. In this paper, the Gower method is used to calculate the distance of the mixed data first. Secondly, the optimal number of clusters is determined according to the width of silhouette coefficient. Thirdly, PAM algorithm and CLARA algorithm are used to realize the clustering analysis for mixed data and further comparative analysis. Finally, select Byar prostate cancer data set for empirical analysis. Through the empirical analysis, it is found that the two kinds of clustering methods can cluster well for mixed data. However, there are some differences in the results of clustering between the two methods for the Byar dataset. According to the differences between the two clustering results, we can analysis some reasons, these provides some basis for the further study.

Keywords: Clustering Analysis, Mixed Data, PAM Algorithm, CLARA Algorithm, R

目录

第一章 绪论 1

1.1研究背景及意义 1

1.1.1研究背景 1

1.1.2研究意义 1

1.2混合型数据的聚类方法及研究现状 1

1.2.1混合型数据的聚类方法 1

1.2.2K-medoids算法的研究现状 2

1.2.3K-medoids算法存在的问题 3

1.3本文的主要研究内容及框架 3

第二章 聚类分析的分类及算法 4

2.1聚类分析的概念、数据类型及聚类统计量 4

2.1.1聚类分析的概念 4

2.1.2聚类分析的相异度度量

上一篇:Logistic回归分析模型的应用及R软件实现
下一篇:因子分析法对近年来食品上市公司经营绩效的研究

基于模糊集理论的聚类分析及其应用

因子分析法对近年来食品...

Logistic回归分析模型的应用及R软件实现

大学生网购服装的问卷调查分析

齐次马尔科夫过程在金融保险方面的应用

常微分方程在金融工程中的若干应用

因子分析法在医药上市企...

从里仁为美”探析孔子的...

高浓度臭氧分解催化剂制备与性能研究

百家姓系列字体海报设计及推广

网络流行语的研究现状

3ds Max自行火炮随动系统调炮过程动画仿真

观测数据随机缺失下的时间序列预测任务书

叠合楼板流水线布料机设计+CAD图纸

浚县社火民俗体育发展研究

浅谈企业税务筹划与會计政策选择【2553字】

医护人员感知的高绩效工...