聚类,作为数据挖掘的第一步,就是把相似的数据放在一起,这样就使得同一类中的数据相类似,不同类中的数据相异。聚类与分类不同的是,不需要事先定义好类,还可能发现数据属性之间的关系。
分类,就是找出一个类别的概念描述,这个描述代表着这一类数据的内涵描述,并来构造模型,常常用决策树模式或规则表示。类的个数是预先定义好的,是确定的,这一点与聚类是不同的。
关联规则或相关性分组,是由Agrawal等人首先提出,分为因果关联、时序关联、简单关联,旨在发现重复出现的数据之间的某种规律,找出关联规则。就如尿布与啤酒的故事一样,超市里客户在购买尿布的同时常常会买啤酒,关联规则就决定了买尿布与买啤酒这两件事情会一起发生。这一方法也是本文用到的方法。
数据挖掘是研究多个领域的知识的交叉,并且应用于多个领域。我将它分为四个步骤:问题定义、数据准备、数据挖掘实施、数据挖掘结果评估。
首先,必须明确任务的具体要求,也要确定将要使用的方法;其次,就是比较重要的步骤数据准备,它直接影响准确度和效率,这个过程包括选择、预处理和转换;接着,就是最关键的也是最难的一步——选择适合的算法,进行数据挖掘;最后,对获得的结果进行过滤处理,如果符合要求就直接拿出有用信息,反之,就还需要重新回到挖掘阶段,选择数据变换方法,重复以上挖掘过程直到得出有价值的信息。
2。2 关联规则
关联规则 (Association Rules)就是像 的蕴含表达式,其中, 是关联规则的先导, 是关联规则的后继,先导 可以含有一个甚至多个条件,而后继 一般只有一种情况,并且 和 是不相交的两个项集。关联规则中,存在支持度(support)亦即覆盖度和置信度(confidence)亦即可信度。
支持度 ,置信度 ,其中 表示同时出现 和 的事务数, 表示事务的总数, 表示含有 的事务数。
则支持度表示数据库中事务同时包含 的百分比,即概率;置信度表示数据库中事务已经包含 的情况下,又包含 的百分比,即条件概率。
根据韩家炜等人的观点 ,又可以将关联规则描述为:假设 是项的集合,由m个不同的项目组成。给定一个数据库D,其中每个事务 是 的非空子集, 是所有事务的集合,其中n为所有事务的总个数,每一个交易都有唯一的对应,即标识符TID。文献综述
关联规则可以分为多种类型,我们可以根据不同的标准将关联规则分为以下类别:
1。 基于关联规则中数据所涉及的抽象层次,可以将其分为多层关联规则、单层关联规则。如果数据项描述充分考虑了数据的多层性,像买bb霜、隔离霜的人也会买护肤品,这就叫多层关联规则;相反,如果数据项描述没有充分考虑数据的多层性,只涉及单一层次的概念,就叫单层关联规则。
2。 基于关联规则中数据所涉及的维数,可以将其分为单维、多维。其中项或属性只涉及一维就叫单维关联规则,它处理单个项中的关系,比如买的东西:啤酒=>尿布;如果涉及两个或更多的维就叫多维关联规则,它处理各个项之间的关系,比如性别=‘男’=>职业=‘保镖’。
3。 基于关联规则中所处理的变量的类型,可以将其分为布尔型、数值型。如果只考虑项的存在与不存在,就叫布尔关联规则,它表明了分类对象间的联系;而数值型关联规则就是形如性别=‘男’=>收入=5000,这里的收入是一个数值类型。
关联规则挖掘技术已经广泛应用于许多领域,如金融领域,对银行、保险业务的数据进行挖掘,发现隐藏的规律;教育领域,对学生信息库里的信息进行挖掘,防患于未然;电子商务领域,对销售数据进行挖掘,设置捆绑包或者进行交叉销售。但是,挖掘技术在商业银行中并没有流行起来,金融业的大多数数据库还只是停留在数据的录入、查询等基本功能上。