定义2 设A I,B I并且A∩B= 。关联规则就是形如A B的蕴涵式。
定义3 设A B是一个关联规则,,则同时包含A、B的事务在D中所占的比例称为该关联规则的支持度(Support),它的值为:
式中,support_count(A∪B)是包含项集A∪B的事务数,support_count(D)是事务数据库D的事务总数。
定义4 设A和B是项目的集合,给定一个任务相关的数据元组集合A B的置信度(Confince)定义为:
式中,support_count(A)是包含项集A的事务数。
定义5 果一个k-项集,它的支持度≥min_up,则称该k-项集为频繁k-项集,所有频繁k-项集的集合记作 。
定义6 如果关联规则的支持度和置信度分别大于等于给定的最小支持度阈值(min_sup)和最小置信度阈值(min_conf),则这样的规则称为强关联规则。
2。2 关联规则的分类
我将从不同角度对关联规则进行分类:
1、按照处 理 的 变 量 的 类 别分为布尔 型 和 数 值型。布尔型 关 联 规则 的 值 是 离 散 的、种 类 化的,它 关 心 的 是 项 是 不 是 存在,并 不 考 虑 它 的 量 是 多 少。但 是 数 值 型 关 联 规 则 描 述 的 是 量 化 的 项 之 间 的 关 联,处 理 的 项 中 有的 项 的 属 性 是 数 值型的。
2、按照数据的抽象层次分类,可分为单层和多层。现实数据有多个不同层次,如果对规则的层次进一步细化和深入,对我们发现更为实用的规则是十分有利的,所以会出现了多层的关联规则。举个例子来说,对于规则“啤酒 尿布”来说,“雪花牌啤酒 宝宝牌牌尿布”就是它的细化,雪花牌啤酒在抽象层次上位于啤酒的下一层,所以称这样的规则是同层关联规则,但是对于规则“雪花牌啤酒 宝宝牌尿布”,因为规则中所提及到的项集在不同的抽象层次上,因此被称为层间关联规则。
3、按照 规 则 中 提 及 到 的 数 据 的 维 数 进 行 分类,可 将 其 分为单维和多维。在 关 联 规则“X Y”中,如果 项 集 包 含 了 多个属性,就 称 它 是多 维 关联规则。单维只涉及到一个维数,而多维则有多个维数。举个例子来说,规则“性别=`女',年龄=`20-35',啤酒=尿布”就涉及到了多个属性。单维只涉及到一个属性,多维是多个属性之间的关系。
第3章 Apriori的算法来*自-优=尔,论:文+网www.youerw.com
3。1 Apriori算法的介绍
Apriori算法是当今世界研究关联规则算法中最具代表性的方法之一,后来虽然有许多新算法被提出,但都是根据此架构做出的一些改进,如今的优化方法有AprioriTid,DHP,DIC……等。Apriori算法是按照层次顺序搜索的循环 方 法 来完成频繁项集的挖掘工作,同时根据下面的Apriori定理来对搜索空间进行压缩,使频繁项集产生的效率提高。
Apriori算法的定理:频繁 项 集 的 所 有 非 空 子 集 也 一 定 是 频 繁的[10]。频繁项集也被称作是向下封闭的,因为一个项集满足最小支持度的要求,其所有子集也同样满足要求。
实际上Apriori算法是一个递推的过程。通过频繁一项集生成候选二项集,它的中心思想就是首先产生频繁一项,然后在候选二项集中产生频繁二项集,接着再生成候选三项集,……,依此类推,直到不能再生成新的频繁项集为止。以下为算法的具体描述:
算法:Apriori找出频繁项集的方法是候选生成的逐层迭代法。