关联规则

article/2025/9/7 4:13:49

    何为关联规则,关联规则是发现事物之间关联关系的分析过程,其典型的例子就是购物篮分析。购物篮分析就是确定顾客在一次购物过程中一起购买的商品,通过分析发现不同商品之间的购买习惯,发现顾客购买的行为习惯,从而发现它们之间的关联。(在一次购买商品时,发现购买尿不湿的人会购买啤酒)。

    关联规则的一般表现为蕴含式规则形式:X->Y。

    x称为关联规则的前提或先导条件。y称为关联规则的结果或后继。为了更好地定义和表示关联规则,我们在这里引入置信度和支持度。置信度,也称为可靠度,或置信水平、置信系数,指总体参数值落在样本统计值某一区内的概率 。 支持度:两种或两种事件同时出现的概率。

   下面我以实例来对置信度和可信度进行分析:

    总共有10000个消费者购买了商品,其中购买尿布的有1000人,购买啤酒的有2000人,购买面包的有500人,  同时购买尿布和啤酒的有800人,同时购买尿布的面包的有100人。

 

   置信度:购买X的人,同时购买Y的概率,例如:购买尿布的人,同时购买啤酒的概率,而这个概率就是购买尿布时购买啤酒的置信度。

     confidence(x->y) = 同时购买{x,y}的人数/购买X的人数

     confidence(y->x) = 同时购买{x,y}的人数/购买Y的人数

    (尿布->啤酒)的置信度 = 800 / 1000 =0.8

      (啤酒->尿布) 的置信度 = 800 / 2000 =0.4

   由于规则置信度并未提供这条关联关系在所有交易中所占的比例(覆盖程度很低),即包含在关联关系中的购买行为是普遍交易行为,还是个别行为不得而知。下面我们可以使用支持度这个统计量来度量。用支持度度量包含了关联关系中出现的属性值的交易占所有交易的百分比。

     支持度:{X,Y}同时出现的概率,例如:{尿布,啤酒}同时出现的概率:support=同时购买{X,Y}的人数/总人数。

     {尿布,啤酒}的支持度 = 800/10000 =0.08

     {尿布,面包}的支持度 = 100/10000 = 0.01

   注意:支持度没有先后顺序之分。

关联分析过程中设置置信度和支持度的阈值,当得到的关联关系达到置信度和支持度的阈值时,这样的关联关系被认为是有趣的,而保留下来应用到实际问题中。(阈值又叫临界值,是指一个效应能够产生的最低值或最高值)。

  为了更好地研究关联分析,我们引入-Apriori算法。

     (1)生成条目集(Item Sets)。条目集是符合一定的支持度要求的“属性-值”的组合。例如:所有购买尿布=1的集合。那些不符合支持度要求的“属性-值”组合被丢弃,因此,规则的生成过程可以在合理的时间内完成。 (2)使用生成的条目集创建一组关联规则。

   例2:将表1作为数据集,使用Apriori算法进行关联分析,产生描述网络购买行为的关联规则。

     表1网络购物交易记录表

序号

Book

Sneaker

Earphone

DVD

Juice

1

1

1

1

1

1

2

1

1

1

1

0

3

0

1

1

0

0

4

0

1

0

1

1

5

0

0

1

1

0

6

1

0

1

1

0

7

1

0

1

1

1

8

0

1

0

1

1

9

0

0

1

1

1

10

1

0

0

0

1

利用Apriori算法步骤:

(1)设置支持度阈值为50%,创建第一个条目集表,包含单项条目。

条目集

条目个数

符合支持度要求

结果

Book = 1

5

Yes

保留

Sneaker = 1

5

Yes

保留

Earphone = 1

7

Yes

保留

DVD = 1

8

Yes

保留

Juice = 1

6

Yes

保留

Book = 0

5

Yes

保留

Sneaker = 0

5

Yes

保留

Earphone = 0

3

No

删除

DVD = 0

2

No

删除

Juice = 0

4

No

删除

(2)设置支持度阈值为40%,创建第二个条目集表,包含双项条目。

条目集

条目个数

符合支持度要求

结果

Book =1 & Earphone = 1

4

Yes

保留

Book =1 & DVD = 1

4

Yes

保留

Book =0 & DVD = 1

4

Yes

保留

Sneaker =1 & DVD = 1

4

Yes

保留

Sneaker =0 & Earphone = 1

4

Yes

保留

Sneaker =0 & DVD = 1

4

Yes

保留

Earphone = 1& DVD = 1

6

Yes

保留

DVD = 1 & Juice =1 

5

Yes

保留

(3)仍将支持度阈值设置为40%,使用双项条目表中的“属性-值”组合生成三项条目集,有两条条目。 Book =1 & Earphone = 1& DVD = 1 Sneaker =0 & Earphone = 1 & DVD = 1 。

(4)再次将支持度阈值设置为40%,以三项条目集为基础,生成四项条目集,没有符合支持度要求的条目,条目集生成工作结束。

(5)以生成的条目集为基础创建关联规则。 首先设置置信度阈值为80%;然后从双项和三项条目集表中生成关联规则;最后,所有不满足置信度阈值的规则将被删除。

用Apriori算法输出的实验结果:

最后对关联规则的优缺点进行分析:

优势 关联规则不受因变量个数的限制,能够在大型数据库中发现数据之间的关联关系,所以其应用非常广泛。

局限性 一次关联分析输出的规则往往数量较多,且多数并无利用价值,所以对关联规则的解释和应用必须谨慎。

 


http://chatgpt.dhexx.cn/article/CNnj7SB9.shtml

相关文章

python 关联规则

文章目录 一、基本概念定义1. 记录(事务)定义2. 事务集定义3. 项目(项)定义4. 项目集(项集)定义5. k项集定义6. 支持度(Support)定义7. 置信度(Confidence)定…

关联规则分析

文章目录 一、经典案例二、相关概念由k个项构成的集合X>Y含义事务仅包含其涉及到的项目,而不包含项目的具体信息支持度 (support)置信度 (confidence)提升度 (lift) 三、实验分析自制数据集电影数据集题材 一、经典案例 在美国,一些年轻的父亲下班后…

关联规则(Association Rules)笔记

1 关联规则产生的原因:购物篮问题 关联规则最初是为了解决购物篮问题而产生。上世纪九十年代,美国的沃尔玛超市发现,啤酒和尿布这两种完全不着边际的商品竟然有很高的概率一起被购买。 在一段时间之后,他终于分析出了原因&#xf…

关联规则(Apriori、FP-grpwth)

什么是关联规则 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。 所谓数据挖掘就是以某种方式分析源数据&#…

大数据分析笔记 (4) -关联规则(Association Rules)

大数据分析笔记 - 关联规则 总览Apriori算法算法流程评估候选规则 (Evaluation of Candidate Rules)置信度 (Confidence)提升度 (Lift)杠杆率 (leverage)对比结合方法 (Combination of Measures) 验证和测试诊断 应用 总览 关联规则是一种无监督学习方法。这是一种描述性(desc…

机器学习-关联规则

关联规则:关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品A的出现对物品B的出现有多大影响 A与B是独立的两个非空事务,且A、B同属于一个事务集,那么关联规则是形如A=>B的蕴含式。 关联规则有两种度量标准:…

关联规则算法学习—Apriori

关联规则算法学习—Apriori 一、实验项目:关联规则算法学习 项目性质:设计型 二、实验目的: 理解并掌握关联规则经典算法Apriori算法,理解算法的原理,能够实现算法,并对给定的数据集进行关联规则挖掘 三、实…

统计分析 -- t分布

t 分布的图形与特征 以0为中心,左右对称的单峰分布;t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t 值越分散,t分布曲线的峰部越矮而尾部翘得越高;说明尾部面积(概率P&…

t分布表

非常需要,保存下来,随时可以取

正态分布/卡方分布/F分布/T分布

正态分布: 正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布…

t分布(Student t distribution)——正态分布的小样本抽样分布

目录 大样本抽样分布 正态分布小样本抽样分布—t分布 运用t分布构建小样本抽样均值的置信区间 运用t分布进行小样本抽样均值检验 大样本抽样分布 对于大样本的抽样分布,由中心极限定理,无论总体分布是否为正态分布,其均值x_bar的抽样分布…

t分布的构造

t分布是在正态分布和卡方分布的基础上构造的, 我们通过代码实现一下 import numpy as np import seaborn as sns import matplotlib.pyplot as plt import warnings warnings.filterwarnings("ignore")# 正态分布 N np.random.normal(0, 1, 100000)# 自由度为 2, …

数理知识:偏t分布

Hello,大家好!最近有在学习一些有关偏态分布的数理知识,但在搜偏 t t t分布的相关资料的时候感觉比较散,所以做个整理,主要参考的书籍是Azzalini在2014年出版的一本有关偏态分布族的书《The Skew-Normal and Related F…

正态分布、t分布、卡方分布、F分布的关系与差异

要理解这些分布,要从基础的正态分布开始。 1. 正态分布 下面是维基百科对正态分布的介绍: 正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian distribution),是一个非常常见的连续概率分布。若随机变量 X服从一个位置参数为 ?、尺度参数为 σ 的正态分…

t分布与t检验详解

最近又遇到了t分布及t检验方面的内容,发现有些地方自己当初没有很明白,就又查了些资料,加深了一下自己的理解,这里也将自己的一些理解记录下来。 1. 理论基础——大数定理与中心极限定理 在正式介绍t分布前,还是再强调一下数理统计学中的两大基石般的定理:大数定理与中心…

抽样分布之χ2 分布,t分布,F分布

文章目录 1. χ 2 \chi^2 χ2 分布2. t t t分布3. F F F分布 统计量的分布称为 抽样分布,在使用统计量进行统计推断时需要知道它的分布,当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般…

t检验、t分布、t值

1. t检验的历史 阿瑟健力士公司(Arthur Guinness Son Co.)是一家由阿瑟健力士(Arthur Guinness)于1759年在爱尔兰都柏林建立的一家酿酒公司: 不过它最出名的却不是啤酒,而是《吉尼斯世界纪录大全》&#xf…

详解三大抽样分布:t分布、卡方分布、F分布

转载自https://www.cnblogs.com/think-and-do/p/6509239.html T分布:温良宽厚 本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-…

几大分布:正态分布、卡方分布、t分布、F分布整理

一、正态分布 正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ、方差为σ2的高斯分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ…