目前,无论是国内还是国外,对数据关联规则挖掘的研究都已经变得非常时髦,但是国外很多计算机公司很注重数据挖掘的开发运用,并能够将研究结果很好地投入到应用中,并且得益;但是国内的研究却稍晚,它们仅仅存在于学术上、纸面上,而且没有形成整体力量,没有运用到实际生活中。近来,商家逐渐意识到通过对超市的消费来研究顾客的购买行为的重要性,迫切地希望有可信的规则来指导他们摆放商品,如果我们将超市运用中普遍关注的关联规则挖掘与消费清单间潜藏的关系这一问题解决,那么帮助商家获利,提升国家GDP将指日可待。
1。2 研究的必要性
改革开放以来,居民的人均收入不断提高,购买能力呈正比上涨,我国的消费基础结构正发生着变化,这种转变带来了数据的膨胀与杂乱,人们急需在这些繁杂的数据中找到有用的信息,来获得最大的利益。首先,现有的关联规则挖掘方法都要很长的时间来生成规则,因此,在经典算法基础上要创建一些新的算法来提高数据挖掘的效率,进一步推进关联规则算法在行业中的运用;其次,从大量的零售记录中找到潜在的关联规则能够帮助商家制定决策,如分类设计、促销分析等。那么,怎样才能在超市大量的数据和不确定的因素中挖掘出对商家有用的信息,即消费者潜在的消费规律,来指导生产与消费的良性运营呢?本文将用与关联规则有关的算法——Apriori算法及其的改进算法来挖掘超市消费之间的关联性,从而帮助商家制定决策,发现客户的购买习惯,找到各个商品的合理位置,来达到增加销售量,获得最大利润,使企业拥有更强大竞争力的目标。论文网
1。3 论文的研究内容与结构
本文各章节内容安排如下:
第一章 简要介绍课题研究的背景与现状、研究的必要性。
第二章 详细介绍了数据挖掘、关联规则和基本算法——Apriori算法。
第三章 对基本算法进行了改进,引进其他算法:AprioriTid算法、DHP算法、Partition算法,进行了有详有略的介绍和计算分析。
第四章 对这些改进的算法进行全面分析,发现相对于基本算法来说的优势与劣势。
第五章为本文的总结章,对本文进行了简单的概括,并对今后的发展作了展望。
2 关联规则挖掘算法 —— Apriori算法
2。1 数据挖掘
数据挖掘 ,即data mining,又翻译成数据采矿或者资料探勘,它是数据库知识发现里的一个非常重要的步骤,如下图2-1。数据挖掘是跟计算机有关系的,它是指从计算机数据库存储的大量数据中(这些数据是模糊的、不完全的、随机的并且有噪声的),通过算法发现到隐藏在其中的人们感兴趣的信息的过程,这些信息是人们之前所不知道的但却是潜在的有价值的知识。我们不仅可以对数据库进行挖掘,也可以对文件系统,或者是别的组织在一起的数据集合进行挖掘。
图2-1 数据挖掘
数据挖掘主要有6种分析方法 :预测、估计、聚类、分类、关联规则或相关性分组、复杂数据类型挖掘(图形图像、视频、音频等)。
预测,就是通过估值或分类得出模型,即通过对历史数据的输入和输出做出关联性的学习,找到变化规律,得出预测模型,再利用得出的模型对未来的输入进行输出的预测。通常,我们可以通过DM建立预测模型。一般用预测方差来度量,它关心的是不确定性和精度。
估计,即估值,能够作为分类的前一步,它处理连续值的输出,它的量是不确定的,然后根据事先设定的临界值,进行分类。