关联规则(Association Rules)笔记

article/2025/9/7 4:06:00

1 关联规则产生的原因:购物篮问题

        关联规则最初是为了解决购物篮问题而产生。上世纪九十年代,美国的沃尔玛超市发现,啤酒和尿布这两种完全不着边际的商品竟然有很高的概率一起被购买。

        在一段时间之后,他终于分析出了原因:

        在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲去超市买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒。所以尿布和啤酒一起出现的概率就很高。

2 关联规则

        关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(left-hand-side, LHS)和后继(right-hand-side, RHS) 。

3 几个重要的概念

在说概念之前,我们看一下我们这一小节涉及的数据集:

3.1 项

每一小件商品(如A、B、C、D),称之为一个项

3.2 记录

每一组商品的组合(如ABCD),称之为一条记录

3.3 项(目)集

        由项组成的集合(不一定是记录里面有的组合),如{A,B,C},{A,B,D}都是项集

3.4 K项集

        项集中的元素个数为K,如{A,B,C}就是一个三项集

3.5 事务集

所有的记录构成的集合称之为事务集

在上图中,{ABCD,ABCE,BDEF,BCDE,ACDF,ABC,ABE}称之为一个事务集

3.6  支持度

        ’        

        简单理解就是频率。而在数据量大的时候,频率又可以近似为概率

        Sup(X)可以理解为某个项集出现的概率

以数据集

为例 sup({A,C})=4/7 (一共有7组数据,{A,C}同时出现的有4组)

3.7 置信度

简单理解就是条件概率(XY同时出现的概率/X出现的概率)

如果X={A},Y={C},那么Con(X->Y)=\frac{Sup(AC)}{Sup(A)}=\frac{\frac{4}{7}}{\frac{5}{7}}=0.8

换言之,置信度等于X出现的基础上,出现Y的概率。这样想也是0.8

3.8 最小支持度

人为规定的一个支持度(后面会说明)

3.9 最小置信度

人为规定的一个置信度(后面会说明)

3.10 提升度

理解为B在A发生的基础上再发生的概率,和B单独发生的概率的比值 

如果提升度大于1,表示A的出现对于B的概率有推动作用。

3.11 频繁K项集

支持度比最小支持度大的K项集

 比如我们最小支持度为0.5,sup({A,C})=4/7 >0.5 所以{A,C}是一个频繁2项集

3.12 候选K项集

用来生成频繁K项集的项集(后面会说明)

这个值不等价于所有K项集(后面会说明)

4 关联规则定理

定理1:如果X是一个频繁K项集,那么它的所有子集也是

        X的子集出现的数量肯定大于等于X出现的数量(子集可能出现在非X的K项集里面),所以X子集的支持度肯定大于X的支持度。那么既然X都是频繁K项集了,它的子集更是。

定理2:如果X的子集不是k-1项频繁,那么它一定不是频繁K项集

        和定理1同样的说明方法,X的子集的支持度肯定比X要大。那么既然子集都没有大于最小支持度,那么X更没有。

5 关联准则主要步骤(Apriori算法)

  1. 令K=1,计算每个商品的支持度,并筛选出频繁1项集
  2. 从K=2开始,根据K-1项的频繁K-1项集,生成K项候选集,并进行预剪枝
  3. 从候选K项集生成频繁K项集

重复2和3 直到无法筛选出满足最小支持度的项集

     4. 将前面循环获得的最终频繁K项集依次取出。同时计算取出的这个K项集的所有真子集,以排列组合的方式形成关联规则,并计算关联规则的置信度和提升度,将符合要求的关联规则提出

算法结束

6 关联规则案例研究

我们令最小支持度是0.3(2.1/7)

第一步: 令K=1 计算所有单个商品的支持度,筛选出频繁1项集 

K=2 时的第二步:根据k-1(即1)的频繁1项集生成候选二项集,并进行预剪枝。

这一步得到的是所有的二项组合(并没有做划去{A,D}这些的操作)

(这一步还没有预剪枝)

 K=2时的第三步 从候选K项集生成频繁K项集

将上一步得到的候选二项集中支持度小于最小支持度的去掉(即去掉{A,D}这一类项集)

 K=3 时的第二步:根据k-1(即2)的频繁2项集生成候选三项集,并进行预剪枝。

 K=3时的第三步 从候选K项集生成频繁K项集

 

第四步

细心的话会发现,这里没有{A,C}和{A,B}的组合,因为这两个的组合和{C}和{B}之间的组合没有区别

7 算法缺点

  •   时间复杂度大(每次计算一个K项集的支持度时,都需要扫描一遍事务集)
  •   频繁项目集长度变大的情况下,运算时间显著增加
  • 采用唯一支持度,没有考虑各个属性的重要程度

8 总结

如果一个规则 X->Y 是一个最小支持度s,最小置信度c的关联规则,那么它需要满足:

1) X ∪ Y 的 支持度大于s

2)X->Y的置信度大于c

参考资料:通俗易懂讲算法-关联规则_哔哩哔哩_bilibili


http://chatgpt.dhexx.cn/article/hAOYtBp4.shtml

相关文章

关联规则(Apriori、FP-grpwth)

什么是关联规则 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。 所谓数据挖掘就是以某种方式分析源数据&#…

大数据分析笔记 (4) -关联规则(Association Rules)

大数据分析笔记 - 关联规则 总览Apriori算法算法流程评估候选规则 (Evaluation of Candidate Rules)置信度 (Confidence)提升度 (Lift)杠杆率 (leverage)对比结合方法 (Combination of Measures) 验证和测试诊断 应用 总览 关联规则是一种无监督学习方法。这是一种描述性(desc…

机器学习-关联规则

关联规则:关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品A的出现对物品B的出现有多大影响 A与B是独立的两个非空事务,且A、B同属于一个事务集,那么关联规则是形如A=>B的蕴含式。 关联规则有两种度量标准:…

关联规则算法学习—Apriori

关联规则算法学习—Apriori 一、实验项目:关联规则算法学习 项目性质:设计型 二、实验目的: 理解并掌握关联规则经典算法Apriori算法,理解算法的原理,能够实现算法,并对给定的数据集进行关联规则挖掘 三、实…

统计分析 -- t分布

t 分布的图形与特征 以0为中心,左右对称的单峰分布;t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t 值越分散,t分布曲线的峰部越矮而尾部翘得越高;说明尾部面积(概率P&…

t分布表

非常需要,保存下来,随时可以取

正态分布/卡方分布/F分布/T分布

正态分布: 正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布…

t分布(Student t distribution)——正态分布的小样本抽样分布

目录 大样本抽样分布 正态分布小样本抽样分布—t分布 运用t分布构建小样本抽样均值的置信区间 运用t分布进行小样本抽样均值检验 大样本抽样分布 对于大样本的抽样分布,由中心极限定理,无论总体分布是否为正态分布,其均值x_bar的抽样分布…

t分布的构造

t分布是在正态分布和卡方分布的基础上构造的, 我们通过代码实现一下 import numpy as np import seaborn as sns import matplotlib.pyplot as plt import warnings warnings.filterwarnings("ignore")# 正态分布 N np.random.normal(0, 1, 100000)# 自由度为 2, …

数理知识:偏t分布

Hello,大家好!最近有在学习一些有关偏态分布的数理知识,但在搜偏 t t t分布的相关资料的时候感觉比较散,所以做个整理,主要参考的书籍是Azzalini在2014年出版的一本有关偏态分布族的书《The Skew-Normal and Related F…

正态分布、t分布、卡方分布、F分布的关系与差异

要理解这些分布,要从基础的正态分布开始。 1. 正态分布 下面是维基百科对正态分布的介绍: 正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian distribution),是一个非常常见的连续概率分布。若随机变量 X服从一个位置参数为 ?、尺度参数为 σ 的正态分…

t分布与t检验详解

最近又遇到了t分布及t检验方面的内容,发现有些地方自己当初没有很明白,就又查了些资料,加深了一下自己的理解,这里也将自己的一些理解记录下来。 1. 理论基础——大数定理与中心极限定理 在正式介绍t分布前,还是再强调一下数理统计学中的两大基石般的定理:大数定理与中心…

抽样分布之χ2 分布,t分布,F分布

文章目录 1. χ 2 \chi^2 χ2 分布2. t t t分布3. F F F分布 统计量的分布称为 抽样分布,在使用统计量进行统计推断时需要知道它的分布,当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般…

t检验、t分布、t值

1. t检验的历史 阿瑟健力士公司(Arthur Guinness Son Co.)是一家由阿瑟健力士(Arthur Guinness)于1759年在爱尔兰都柏林建立的一家酿酒公司: 不过它最出名的却不是啤酒,而是《吉尼斯世界纪录大全》&#xf…

详解三大抽样分布:t分布、卡方分布、F分布

转载自https://www.cnblogs.com/think-and-do/p/6509239.html T分布:温良宽厚 本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-…

几大分布:正态分布、卡方分布、t分布、F分布整理

一、正态分布 正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ、方差为σ2的高斯分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ…

数理统计三大分布:卡方分布、t分布、F分布

数理统计三大分布:卡方分布、t分布、F分布 正态分布卡方分布定义概率密度函数性质 t分布定义概率密度函数性质 F分布定义概率密度函数性质 Attention 正态分布 由于 χ 2 \chi^2 χ2(chi-squard)分布、t分布、F分布都是由正态分布构造的&…

卡方分布、F分布、t分布和正态分布的关系

这三个分布都是基于正态分布变形得到的,在实际中只能用来做假设检验。比如卡方分布(chi-square distribution, χ-distribution,或写作χ分布),已知样本X都是服从正态分布的样本,而且方差未知,那…

T 分布(近似标准正态分布)

1.1 定义 定义:假设X服从标准正态分布N(0,1),Y服从卡方分布,那么的分布称为自由度为n的t分布,记为。 T分布密度函数其中,Gam(x)为伽马函数。