数据挖掘——关联分析基础介绍(上)

article/2025/9/18 7:10:38

一、前提介绍:

啤酒与尿布:

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父 亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购 买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会 出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一则他很有可能会放弃购物而到另一家商店,直到可以一 次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域让年轻的父亲可以同时找到这两件商品,并很快地完成购物,从而获得了很好的商品销售收入, 这就是“啤酒与尿布”故事的由来。婴儿宝宝说:“喝了啤酒的我尿布换的更快了”!!

二、基础知识点

1.关联规则:

在典型的情况下,被认为是有趣的,如果它满足最小置信度阈值和最小支持度阈值。这些阈值都是专家设定。

规则兴趣度的两种度量:

支持度(support)、置信度(confidence)

2. 支持度(support)、置信度(confidence)和支持度计数的计算关系方法如下:

3.关联规则的挖掘过程:

(1)找出所有频繁项集:每个项集出现的次数要大于等于最小支持度计数。

(2)由频繁项集产生强关联规则(强关联规则就是这些规则必须满足最小支持度和最小置信度)

(3)闭频繁项集:如果X是频繁的,并且不存在真超项集Y使Y与X在D中具有相同的支持度计数。

(4)极大频繁项集:如果X是频繁的,并且不存在超项集Y 使得 X Y Ì 并且Y在D中是频繁的。

先验原理超级好用):频繁项集的所有非空子集也一定是频繁 的。反之,所有非频繁项集的超集也一定是非频繁的。

三、Apriori算法

Apriori算法是Agrawal和R.Srikant于1994年提出的,为布尔关联规则挖掘频繁项 集的原创性算法

  1. 过程:

Apriori算法为逐层搜索的迭代方法: 首先,扫描数据库,累计每个项的计数, 并收集满足最小支持度的项, 找出频繁1项集L1; 然后,使用L1找出频繁2项集L2, 使用L2找出L3, … 如此下去,直到不能再找到频繁k项集。

手算例题:

 


http://chatgpt.dhexx.cn/article/EElbqWbL.shtml

相关文章

R语言做关联分析

目录 (一)案例简介 案例使用 数据预处理 分析结果 完整代码 目录 关联分析 理解关联分析的相关概念:关联分析、支持度、置信度、强规则、项集、频繁项集等。 掌握关联分析的基本方法:数据是事务的或关系的,如何由大量…

数据关联分析

数据挖掘算法:关联分析一(基本概念) 一.基本概念 我们来看上面的事务库,如同上表所示的二维数据集就是一个购物篮事务库。该事物库记录的是顾客购买商品的行为。这里的TID表示一次购买行为的编号,items表示顾客购买了…

关联性——灰色关联分析

1、作用 对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之&#xff…

【关联分析实战篇】为什么 BI 软件都搞不定关联分析

文章目录 做不好关联分析的原因在数据模型层面解决关联给业务人员看的懂的数据结构多级关联表自关联表互关联表重复关联表 结语润乾报表资料 事物都是普遍联系的,很难有一个独立的事物不和其它发生关联,数据表也一样,很多有业务意义的查询都会…

因果分析与关联分析的联系

因果分析中的关联分析 因果分析的发现在大数据背景下变得越发重要,在数据分析领域,人们开始尝试着利用人工智能对数据进行因果分析,但一个因果关系的得出是错综复杂的,不单单是通过机器就能够解决的。 在数据分析中,…

灰色关联分析步骤

什么是灰色关联分析 灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法,其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧密,它反映了曲线间的关联程度。 通常可以运用此方法来分析各个因素对于结…

四.数据关联性分析

数据关联分析用于挖掘数据对象之间的关系,例如啤酒和尿布的案例 一.基本概念 通过实例认识项集,支持度,频繁项集,关联规则,置信度,强关联规则,支持度,置信度 运动器的历史购买数据 TID网球拍网球运动鞋羽毛球111102110031000410105011161100 TID: 表示每一次购物单的序号0…

关联分析(Association analysis)

关联分析(Association analysis) 简介 大量数据中隐藏的关系可以以‘关联规则’和‘频繁项集’的形式表示。rules:{Diapers}–>{Beer}说明两者之间有很强的关系,购买Diapers的消费者通常会购买Beer。 …

关联度分析法-灰色关联分析

目录 灰色关联分析介绍灰色关联分析的步骤实例 灰色关联分析介绍 对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高&#…

关联分析之Apriori学习笔记

关联分析(Association analysis) 简介 大量数据中隐藏的关系可以以‘关联规则’和‘频繁项集’的形式表示。rules:{Diapers}–>{Beer}说明两者之间有很强的关系,购买Diapers的消费者通常会购买Beer。 …

关联分析(一)

目录 一 关联分析的应用 二 关联分析定义 关联分析(又称关联挖掘) 常见关系分类 四 基本原理 ​编辑 五 常用算法 5.1 先验算法Apriori 5.2 FP-Growth算法 一 关联分析的应用 在美国国会投票记录中发现关联规则发现毒蘑菇的相似特征在Twitter源中发现一些共现词从网站…

数据分析五、Apriori 算法之关联分析

Apriori 算法 一、相关概念:二、Apriori 算法2.1、确定最小支持度和最小置信度2.2、找出频繁项集和强关联规则2.3、Python 调用 apriori 函数 Apriori---[əpriˈɔri] ---先天的,推测的一、相关概念: 关联分析,是一门分析技术&a…

数据的结构分类:结构化数据,半结构化数据以及非结构化数据

数据结构分类 结构化数据:具有域名与域值,可用二维表表示。例如关系数据库和CSV文档半结构数据:具有域值和域名,但每一笔数据的字段可能不一样。例如JSON以及XML非结构化数据:不具有域值和域名,例如文章&a…

结构化数据与非结构化数据有什么区别?

结构化数据和非结构化数据是大数据的两种类型,这两者之间并不存在真正的冲突。客户如何选择不是基于数据结构,而是基于使用它们的应用程序:关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据。 然而&#xff0…

结构化数据和非结构化数据有何区别?

员工离职,老板最关心的可能并不是工作交接是否滴水不漏,而是离职员工会如何处理他手里的数据。 例如设计人员的设计图纸、项目经理的项目文档等,这些文档属于企业珍贵的资产,而大部分企业却从未真正管控过这部分资产。 可以确定的…

什么是结构化数据、半结构化数据、非结构化数据

一、 结构化数据 结构化数据:即以关系型数据库表形式管理的数据,例如: idnameage1马百万262马龙台1 机构化数据的数据存储和排列都是具有规律性的,对于增删改查等功能支持友好 二、半结构化数据 半结构化数据:非关…

总结非结构化数据分析「十步走」

注:诚然,本文中所提到的内容并使非结构化数据结构化的唯一步骤,但该步骤的可行性,以及在创造可持续模式方面的表现已在实践中得到证实。 如今,数据分析逐渐在企业发展中扮演起愈加重要的角色,为求在业务成长…

【黑马】JavaWeb开发教程(涵盖Spring+MyBatis+SpringMVC+SpringBoot等)目录合集

​Java Web 传统路线: 课程讲述路线: 视频链接: 2023新版JavaWeb开发教程,实现javaweb企业开发全流程 学习时间: 断断续续,按照课程安排正常学习,历时15天,完结撒花!…

搭建JavaWeb开发环境(Eclipse版)

1. 在使用eclipse搭建JavaWeb开发环境时,首先要确保自己电脑已经安装过Java中的JDK,以及配置好了相关的环境变量。 2. 开始下载JavaEE软件:https://www.eclipse.org/downloads/packages/。在该网址中,选择镜像然后下载。&#xf…

搭建JavaWeb开发环境(JDK+Tomcat+Eclipse/Idea)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、 安装JDK二、配置环境变量 二、TomCat1. 获取 Tomcat2. Tomcat安装和环境变量的配置 三、eclipse配置 前言 提示:这里可以添加本文要记录的大概…