一、前提介绍:
啤酒与尿布:
在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父 亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购 买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会 出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一则他很有可能会放弃购物而到另一家商店,直到可以一 次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域让年轻的父亲可以同时找到这两件商品,并很快地完成购物,从而获得了很好的商品销售收入, 这就是“啤酒与尿布”故事的由来。婴儿宝宝说:“喝了啤酒的我尿布换的更快了”!!
二、基础知识点
1.关联规则:
在典型的情况下,被认为是有趣的,如果它满足最小置信度阈值和最小支持度阈值。这些阈值都是专家设定。
规则兴趣度的两种度量:
支持度(support)、置信度(confidence)
2. 支持度(support)、置信度(confidence)和支持度计数的计算关系方法如下:
3.关联规则的挖掘过程:
(1)找出所有频繁项集:每个项集出现的次数要大于等于最小支持度计数。
(2)由频繁项集产生强关联规则(强关联规则就是这些规则必须满足最小支持度和最小置信度)
(3)闭频繁项集:如果X是频繁的,并且不存在真超项集Y使Y与X在D中具有相同的支持度计数。
(4)极大频繁项集:如果X是频繁的,并且不存在超项集Y 使得 X Y Ì 并且Y在D中是频繁的。
先验原理(超级好用):频繁项集的所有非空子集也一定是频繁 的。反之,所有非频繁项集的超集也一定是非频繁的。
三、Apriori算法
Apriori算法是Agrawal和R.Srikant于1994年提出的,为布尔关联规则挖掘频繁项 集的原创性算法
- 过程:
Apriori算法为逐层搜索的迭代方法: 首先,扫描数据库,累计每个项的计数, 并收集满足最小支持度的项, 找出频繁1项集L1; 然后,使用L1找出频繁2项集L2, 使用L2找出L3, … 如此下去,直到不能再找到频繁k项集。
手算例题: