摘要关联规则挖掘算法是数据挖掘算法中的重要研究方向之一,经过了长期的研究与发展,已经在频繁模式挖掘算法的设计和优化方面趋于成熟,广泛的应用在互联网、金融生物信息等领域。本文就对关联规则算法进行了系统的学习和研究。86910

本文介绍了关联规则挖掘算法的研究现状,全面的介绍了关联规则算法的基本概念:频繁项集、支持度、置信度等概念,以及关联规则算法的思想与关联规则挖掘的步骤。重点介绍了经典的关联规则算法Apriori算法具体步骤,分析了Apriori算法的缺点,并且简单介绍了Apriori算法的改进方法。

最后,本文使用python语言编写了一个完整的Apriori算法程序,并收集了关于超市交易方面的数据集。然后,使用编好的程序对数据集进行测试,并给出其中的关联规则。

毕业论文关键词:关联规则;Apriori算法;频繁项集

Abstract The association rule mining is an important research field of data mining。 After a long period of research and development, the association rule mining algorithm has already been matured in design and optimization of frequent pattern and the association rule mining, and widely used in the areas of Internet, finance, and bioinformatics。 In this paper, we make a systematic study and research into the association rule algorithm。

This article introduce the research status of the association rule mining algorithm, the basic concepts of the association rules algorithm which include concepts of frequent itemsets, support and confidence, the thought of association rules algorithm and steps of association rule mining。 We focus on concrete steps of the classical apriori algorithm in association rule algorithms and analyze the shortcomings of apriori algorithm, and briefly describes an improved method of apriori algorithm。

Finally, based on the theory above, using python language we write a complete program about apriori algorithm, and collecte the supermarket transaction data collection。 Then this article use this program to test data sets and give association rules。 

Keywords: the association rule; apriori algorithm; frequent itemsets

目  录

第一章 绪论 1

1。1 数据挖掘 1

1。2 关联规则算法的研究现状与发展前景 1

第二章 关联规则算法原理 3

2。1 关联规则的定义 3

2。2 关联规则的挖掘过程 4

2。3  Apriori算法 5

2。4  Apriori算法的缺点 6

2。5  Apriori算法的优化方法 6

第三章 Apriori算法的python实现 7

3。1 关联分析 7

3。2  Apriori原理 8

3。3 用Apriori算法寻找频繁项集 9

3。3。1 生成候选项集 10

3。3。2 完整的Apriori算法 11

3。4 从频繁项集中挖掘关联规则 12

3。5 挖掘超市交易数据集中的关联规则 15

结论 20

致谢 21

参考文献 22

第一章 绪论

1。1 数据挖掘

数据库技术从20世纪80年代开始,在这30年不断的普及与应用,并随着最近10年互联网的发展,业务数据量急剧增长,呈现出“数据爆炸”的现象。但是,据调查在产生大量数据的同时,占比很大的一部分数据在进入业务系统以后,未得到有效的使用,也就是“数据丰富,信息贫乏(Data Rich and Information Poor)”。所以,如何从庞大的现有数据中挖掘出有价值的信息就成为一个很重要的研究课题。

上一篇:信息系统开发与应用中的政府作用分析
下一篇:交通运输网络的最短路线问题

python基于决策树算法的球赛预测

电子商务的特殊等价交换规则【1357字】

Python船联网传感器感知模块研究与实现

Python网络爬虫设计与实现

Python网络舆情监控网络爬虫研究与实现

python暗网爬虫的设计scrapy+django

防火墙安全规则漏洞测试与优化设计与实现

老年2型糖尿病患者运动疗...

互联网教育”变革路径研究进展【7972字】

新課改下小學语文洧效阅...

LiMn1-xFexPO4正极材料合成及充放电性能研究

我国风险投资的发展现状问题及对策分析

网络语言“XX体”研究

ASP.net+sqlserver企业设备管理系统设计与开发

安康汉江网讯

张洁小说《无字》中的女性意识

麦秸秆还田和沼液灌溉对...