第四章 数据关联分析方法

article/2025/9/17 20:12:53

基本概念和方法

关联规则和算法应用

基本概念和术语

关联规则算法应用:

一个关联规则分析的例子—————超市购物篮分析

 

 不要看

后面数字看不懂

 

 

 项集:是指项的集合。包含k个项的项集称为k-项集

支持度:若A是一个项集,则A的支持度表示在所有事务T中同时出现A项集的概率

置信度:A出现的次数除以A和B同时出现的次数。

 频繁项集:支持度满足最小支持度阈值的项集称为频繁项集。通常k-项集如果满足最小支持度阈值,称为频繁集,记作Lk。

关联规则(Association Rule):可以表示为一个蕴含式。

如:X=>Y,X和Y分别称为关联规则的前件和后件。

关联规则是否可用,需要考察他的支持度和置信度(可信度)两个指标。

 可以通过以下实例来理解:

 置信度等于两者出现的支持度和前者出现的支持度之比。

  

 

 

 经典的Apriori关联规则算法

 Apriori关联规则算法基本思想

Apriori的基本思想:频繁项集的任何非空子集也一定是频繁的。

核心思想:扫描数据获得所有的频繁1项集L1,利用L1查找频繁2项集,如此循环直到不再有新的频繁集被找到为止。而获取不同长度的频繁项集之前,都需要先查找到候选集(支持度满足最小支持度阈值的项集)。

 如何生成候选集呢?

 先自连接再进行修剪。

这个例子非常重要,比较容易理解。

支持度(sup)就是数出在数据集D中itemset出现的次数

{1,2,3}.{1,2,3,5},{1,3,5},{2,3,5}再进行修剪,他们的子集都必须在L2里面。

去除{1,2,3},{1,2,3,5},{1,3,5}

得到C3{2,3,5}

Apriori算法的缺点:

多次扫描数据库,产生巨大数量的候选集,繁琐的支持度计算。

下面我们来讲解FP-Growth算法

FP-Growth算法不产生候选项集,而是采用分而治之的策略。

(1)构建FP树:压缩数据库,并将频繁项放入频繁模式树(FP树),他仍然保留项集的关联信息。

(2)从FP树中挖掘频繁项集:
1.从FP中获得条件模式基

2.利用条件模式基,构建一个条件FP树

3.根据条件FP树,进行排列组合,挖掘出频繁项。

以下示例较为简单:重点理解

 设定最小支持度为2,得到频繁集,并按照大小重新排列。

 第二次扫描排序后的数据库。并且构建FP树。

开始从FP树中进行挖掘——频繁项集

 那什么是条件模式基呢?

 为什么每个条件模式基的计数为1呢?
由于i5的计数为1,最终到达i5的重复次数也只能为1,所以条件模式基的计数是根据路径中的结点的最小计数来决定的。


http://chatgpt.dhexx.cn/article/TeMTrwxb.shtml

相关文章

关联性——典型相关分析

1、作用 典型相关分析是研究多个变量和多个变量之间的线性相关关系,能够揭示出两组变量之间的内在联系。首先在每组变量中找到变量的线性组合,使得两组的线性组合之间具有最大的相关系数。然后选取和最初挑选的这对线性组合不相关的线性组合&#xff0c…

数据挖掘——关联分析基础介绍(上)

一、前提介绍: 啤酒与尿布: 在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父 亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购 买啤酒,这样就会出现啤酒与尿布这两件看上去不相干…

R语言做关联分析

目录 (一)案例简介 案例使用 数据预处理 分析结果 完整代码 目录 关联分析 理解关联分析的相关概念:关联分析、支持度、置信度、强规则、项集、频繁项集等。 掌握关联分析的基本方法:数据是事务的或关系的,如何由大量…

数据关联分析

数据挖掘算法:关联分析一(基本概念) 一.基本概念 我们来看上面的事务库,如同上表所示的二维数据集就是一个购物篮事务库。该事物库记录的是顾客购买商品的行为。这里的TID表示一次购买行为的编号,items表示顾客购买了…

关联性——灰色关联分析

1、作用 对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之&#xff…

【关联分析实战篇】为什么 BI 软件都搞不定关联分析

文章目录 做不好关联分析的原因在数据模型层面解决关联给业务人员看的懂的数据结构多级关联表自关联表互关联表重复关联表 结语润乾报表资料 事物都是普遍联系的,很难有一个独立的事物不和其它发生关联,数据表也一样,很多有业务意义的查询都会…

因果分析与关联分析的联系

因果分析中的关联分析 因果分析的发现在大数据背景下变得越发重要,在数据分析领域,人们开始尝试着利用人工智能对数据进行因果分析,但一个因果关系的得出是错综复杂的,不单单是通过机器就能够解决的。 在数据分析中,…

灰色关联分析步骤

什么是灰色关联分析 灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法,其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧密,它反映了曲线间的关联程度。 通常可以运用此方法来分析各个因素对于结…

四.数据关联性分析

数据关联分析用于挖掘数据对象之间的关系,例如啤酒和尿布的案例 一.基本概念 通过实例认识项集,支持度,频繁项集,关联规则,置信度,强关联规则,支持度,置信度 运动器的历史购买数据 TID网球拍网球运动鞋羽毛球111102110031000410105011161100 TID: 表示每一次购物单的序号0…

关联分析(Association analysis)

关联分析(Association analysis) 简介 大量数据中隐藏的关系可以以‘关联规则’和‘频繁项集’的形式表示。rules:{Diapers}–>{Beer}说明两者之间有很强的关系,购买Diapers的消费者通常会购买Beer。 …

关联度分析法-灰色关联分析

目录 灰色关联分析介绍灰色关联分析的步骤实例 灰色关联分析介绍 对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高&#…

关联分析之Apriori学习笔记

关联分析(Association analysis) 简介 大量数据中隐藏的关系可以以‘关联规则’和‘频繁项集’的形式表示。rules:{Diapers}–>{Beer}说明两者之间有很强的关系,购买Diapers的消费者通常会购买Beer。 …

关联分析(一)

目录 一 关联分析的应用 二 关联分析定义 关联分析(又称关联挖掘) 常见关系分类 四 基本原理 ​编辑 五 常用算法 5.1 先验算法Apriori 5.2 FP-Growth算法 一 关联分析的应用 在美国国会投票记录中发现关联规则发现毒蘑菇的相似特征在Twitter源中发现一些共现词从网站…

数据分析五、Apriori 算法之关联分析

Apriori 算法 一、相关概念:二、Apriori 算法2.1、确定最小支持度和最小置信度2.2、找出频繁项集和强关联规则2.3、Python 调用 apriori 函数 Apriori---[əpriˈɔri] ---先天的,推测的一、相关概念: 关联分析,是一门分析技术&a…

数据的结构分类:结构化数据,半结构化数据以及非结构化数据

数据结构分类 结构化数据:具有域名与域值,可用二维表表示。例如关系数据库和CSV文档半结构数据:具有域值和域名,但每一笔数据的字段可能不一样。例如JSON以及XML非结构化数据:不具有域值和域名,例如文章&a…

结构化数据与非结构化数据有什么区别?

结构化数据和非结构化数据是大数据的两种类型,这两者之间并不存在真正的冲突。客户如何选择不是基于数据结构,而是基于使用它们的应用程序:关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据。 然而&#xff0…

结构化数据和非结构化数据有何区别?

员工离职,老板最关心的可能并不是工作交接是否滴水不漏,而是离职员工会如何处理他手里的数据。 例如设计人员的设计图纸、项目经理的项目文档等,这些文档属于企业珍贵的资产,而大部分企业却从未真正管控过这部分资产。 可以确定的…

什么是结构化数据、半结构化数据、非结构化数据

一、 结构化数据 结构化数据:即以关系型数据库表形式管理的数据,例如: idnameage1马百万262马龙台1 机构化数据的数据存储和排列都是具有规律性的,对于增删改查等功能支持友好 二、半结构化数据 半结构化数据:非关…

总结非结构化数据分析「十步走」

注:诚然,本文中所提到的内容并使非结构化数据结构化的唯一步骤,但该步骤的可行性,以及在创造可持续模式方面的表现已在实践中得到证实。 如今,数据分析逐渐在企业发展中扮演起愈加重要的角色,为求在业务成长…

【黑马】JavaWeb开发教程(涵盖Spring+MyBatis+SpringMVC+SpringBoot等)目录合集

​Java Web 传统路线: 课程讲述路线: 视频链接: 2023新版JavaWeb开发教程,实现javaweb企业开发全流程 学习时间: 断断续续,按照课程安排正常学习,历时15天,完结撒花!…