At the end of this paper, At the end of this paper, we present a summary and prospect on the previous article.

Keywords: Data mining; clustering algorithm; K-means; partition.

目录

1.绪论 5

1.1研究背景和意义 5

1.2国内外研究现状 5

1.3研究内容和研究方法 6

2聚类算法 6

2.1聚类的定义和主要研究的问题 6

2.1.1聚类的定义 6

2.1.2聚类主要研究的问题 7

2.2典型的聚类方法 7

2.2.1基于划分的聚类方法 7

2.2.2基于层次的聚类方法 8

2.2.3基于密度的聚类方法 8

2.2.4基于网格的聚类方法 9

2.2.5基于模型的聚类方法 9

3.K-means算法 9

3.1K-means聚类算法描述 9

3.1.1K¬-means聚类算法基本思想 10

3.1.2 K-means聚类算法主要流程 10

3.2 K-means 聚类算法研究现状 11

3.3 K-means聚类算法应用举例 12

3.3.1 K-means聚类算法二维数据的聚类应用 12

3.3.2 K-means文档聚类算法的应用 14

3.4 K-means聚类算法的主要缺陷分析 17

4.总结与展望 18

参考文献 19

致谢 20

1.绪论

1.1研究背景和意义

近年来,随着计算机科学和信息技术的高速发展,在银行、保险业、移动通信生物技术、金融投资等行业每天都会有数以千计万计的数据在产生,大型数据库的应用,以及数据库的应用范围和深度在不断扩大,大数据时代已经到来。海量的数据蕴含了各种各样的,光凭人的直和经验无法获取的重要信息。如今,人们面临的主要问题不再是缺乏信息可以利用,而是如何从能够众多的资源数据中发现有用的信息,在数据分析的基础上进行科学探索、医学研究或者企业管理等活动。在此基础上,出现了数据挖掘与信息发现技术,并取得了蓬勃的发展,显示了强大的生命力。

数据挖掘是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘就是从大量的数据中揭示出其隐含的、先前未知的,并且是具有潜在利用价值的信息的过程。本文将介绍数据挖掘中非常重要的一个分支聚类算法分析。

1.2国内外研究现状

聚类分析作为统计学中的一个重要分枝,已经有几十年的研究历史了,目前研究人员所进行的研究主要是集中在基于距离的聚类分析上,为大型数据库的有效使用和实际的聚类分析寻求最适当的方法,目前的研究方向主要包括:(1)算法对初始值的选择敏感度问题;(2)提高算法效率的问题;(3)基于不同数据库的算法研究问题等。

K-means聚类算法是最常见的聚类算法之一。因结构简单、快速高效且适用于处理大数据集,在众多科研领域得到广泛的应用。但它同时一也存在着一些缺陷和不足,例如聚类数目K 值需事先给定、聚类结果对初始聚类中心的选取敏感、易陷入局部最优解、难以发现球状簇以外其他形状的簇、对孤立点数据十分敏感等问题。在 K-means聚类算法的发展过程中,为了弥补它的缺陷和不足,国内外的研究人员提出了各种各样的有效改进措施,在众多科研领域获得了广泛的应用。

上一篇:VB+access某钢铁企业能源数据库的设计+源代码+答辩PPT
下一篇:大型机的外汇业务管理系统的设计与实现挂牌外汇对私外汇业务

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

python基于决策树算法的球赛预测

现代虚拟制造技术及應用前景分析【1935字】

流控制传輸协议SCTP的分析与研究【1047字】

校园一卡通数据系统的學...

10万元能开儿童乐园吗,我...

中国学术生态细节考察《...

神经外科重症监护病房患...

国内外图像分割技术研究现状

志愿者活动的调查问卷表

C#学校科研管理系统的设计

公寓空调设计任务书

医院财务风险因素分析及管理措施【2367字】

AT89C52单片机的超声波测距...

承德市事业单位档案管理...