四.数据关联性分析

article/2025/9/18 7:11:27

数据关联分析用于挖掘数据对象之间的关系,例如啤酒和尿布的案例

一.基本概念

通过实例认识项集,支持度,频繁项集,关联规则,置信度,强关联规则,支持度,置信度

  • 运动器的历史购买数据
TID网球拍网球运动鞋羽毛球
11110
21100
31000
41010
50111
61100
  • TID: 表示每一次购物单的序号
  • 0和1: 表示是否在本购物单中存在该商品

符号设置:

  • D: 交易数据库,实例中的表格
  • T: 每次交易事务,实例中一列的购买数据
  • I: 项的集和{I1,I2,…,In}

1.项集概念

项集: 在集和中,包含k个项的集和称为k项集

  • 实例如下
TID集和项集
1{网球拍,网球,运动鞋}3项集
2{网球拍,网球}2项集
3{网球拍,}1项集
4{网球拍,运动鞋}2项集
5{网球,运动鞋,羽毛球}3项集
6{网球拍,网球}2项集

2.关联规则

A=网球拍,B=网球
p ( A = > B ) = p ( A B ) = c o u n t ( A U B ) ∣ D ∣ p(A=>B)=p(AB)=\frac{count(AUB)}{|D|} p(A=>B)=p(AB)=Dcount(AUB)

3.支持度和置信度概念

支持度: 表示数据集D中出现项集A的概率
公 式 : s u p p o r t ( A ⊆ T ) = c o u n t ( A b a o h a n ) ∣ D ∣ 公式: support(A⊆T)=\frac{count(Abaohan)}{|D|} :support(AT)=Dcount(Abaohan)
置信度: 表示关联规则前价出现时后价查询的概率。
s u p p o r t ( A = > B ) = c o u n t ( A ∪ B ) ∣ D ∣ support(A=>B)=\frac{count(A∪B)}{|D|} support(A=>B)=Dcount(AB)

  • 实例如下
    探究网球拍和网球的支持度
    x=买网球拍事务集,y=买网球事务集求p(x=>y)=p(xy)
    x=5,y=4,x∪y=3,D=6
    支 持 度 : x ∪ y ∣ D ∣ = 3 / 6 = 0.5 支持度:\frac{x∪y}{|D|}=3/6=0.5 :Dxy=3/6=0.5
    置 信 度 : x ∪ y x = 3 / 5 = 0.6 置信度:\frac{x∪y}{x}=3/5=0.6 :xxy=3/5=0.6

4.频繁项集

自行数组阈值,若支持度>=阈值就是频繁项集
设阈值为=0.4
p(网球拍=》网球)支持度=0.5 是频繁
p(网球拍=》运动鞋)支持度=0.33 不是频繁

5.超项集

S1={ABC} ,S2={ABC?} ,?: 量子叠加态

  • S1中所有元素在S2中存在
  • S2可能包含S1中没有的元素

S2是S1的超项集
S1是S2的子集

6.闭频繁集

?: 量子叠加态

S1BC
S2ABCD
S3BCD
S4AD

S2是S1的超项集
S1支持度=3/4
S2支持度=1/4
S1!=S2则S1是闭项集
若S1>阈值S1是闭频繁集

7.极大频繁集

S1BC
S2ABCD
S3BCD
S4AD

阈值=0.6

  • S1的所有真超项集:S2,S3
  • S1是频繁项集,S2不是频繁项集S3不是频繁项集
  • S1是极大频繁项集。声明S1项集进一步扩展就不是频繁项集
    S 1 ⊆ S 1 所 有 的 真 超 项 集 , S 1 是 频 繁 项 集 , S 1 所 有 的 真 超 项 集 不 是 频 繁 项 集 , S 1 是 极 大 频 繁 项 集 S_1⊆S_1所有的真超项集,S_1是频繁项集,S_1所有的真超项集不是频繁项集,S_1是极大频繁项集 S1S1S1,S1,S1

8.反单调性

若项集A是频繁项集,则其所有子集为频繁项
若项集A不是频繁项集,则A所有超项集为不频繁项集

9.APriori算法

  • 连接步:
  • 减枝步:

示例

S1ABC
S2BCD
S3CE
S4ABC

阈值=0.3

N项集N=1N=2N=3
频繁项集{A}{B}{C}{D}{AC}{BC}{ABC}


http://chatgpt.dhexx.cn/article/MvCfiIW2.shtml

相关文章

关联分析(Association analysis)

关联分析(Association analysis) 简介 大量数据中隐藏的关系可以以‘关联规则’和‘频繁项集’的形式表示。rules:{Diapers}–>{Beer}说明两者之间有很强的关系,购买Diapers的消费者通常会购买Beer。 …

关联度分析法-灰色关联分析

目录 灰色关联分析介绍灰色关联分析的步骤实例 灰色关联分析介绍 对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高&#…

关联分析之Apriori学习笔记

关联分析(Association analysis) 简介 大量数据中隐藏的关系可以以‘关联规则’和‘频繁项集’的形式表示。rules:{Diapers}–>{Beer}说明两者之间有很强的关系,购买Diapers的消费者通常会购买Beer。 …

关联分析(一)

目录 一 关联分析的应用 二 关联分析定义 关联分析(又称关联挖掘) 常见关系分类 四 基本原理 ​编辑 五 常用算法 5.1 先验算法Apriori 5.2 FP-Growth算法 一 关联分析的应用 在美国国会投票记录中发现关联规则发现毒蘑菇的相似特征在Twitter源中发现一些共现词从网站…

数据分析五、Apriori 算法之关联分析

Apriori 算法 一、相关概念:二、Apriori 算法2.1、确定最小支持度和最小置信度2.2、找出频繁项集和强关联规则2.3、Python 调用 apriori 函数 Apriori---[əpriˈɔri] ---先天的,推测的一、相关概念: 关联分析,是一门分析技术&a…

数据的结构分类:结构化数据,半结构化数据以及非结构化数据

数据结构分类 结构化数据:具有域名与域值,可用二维表表示。例如关系数据库和CSV文档半结构数据:具有域值和域名,但每一笔数据的字段可能不一样。例如JSON以及XML非结构化数据:不具有域值和域名,例如文章&a…

结构化数据与非结构化数据有什么区别?

结构化数据和非结构化数据是大数据的两种类型,这两者之间并不存在真正的冲突。客户如何选择不是基于数据结构,而是基于使用它们的应用程序:关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据。 然而&#xff0…

结构化数据和非结构化数据有何区别?

员工离职,老板最关心的可能并不是工作交接是否滴水不漏,而是离职员工会如何处理他手里的数据。 例如设计人员的设计图纸、项目经理的项目文档等,这些文档属于企业珍贵的资产,而大部分企业却从未真正管控过这部分资产。 可以确定的…

什么是结构化数据、半结构化数据、非结构化数据

一、 结构化数据 结构化数据:即以关系型数据库表形式管理的数据,例如: idnameage1马百万262马龙台1 机构化数据的数据存储和排列都是具有规律性的,对于增删改查等功能支持友好 二、半结构化数据 半结构化数据:非关…

总结非结构化数据分析「十步走」

注:诚然,本文中所提到的内容并使非结构化数据结构化的唯一步骤,但该步骤的可行性,以及在创造可持续模式方面的表现已在实践中得到证实。 如今,数据分析逐渐在企业发展中扮演起愈加重要的角色,为求在业务成长…

【黑马】JavaWeb开发教程(涵盖Spring+MyBatis+SpringMVC+SpringBoot等)目录合集

​Java Web 传统路线: 课程讲述路线: 视频链接: 2023新版JavaWeb开发教程,实现javaweb企业开发全流程 学习时间: 断断续续,按照课程安排正常学习,历时15天,完结撒花!…

搭建JavaWeb开发环境(Eclipse版)

1. 在使用eclipse搭建JavaWeb开发环境时,首先要确保自己电脑已经安装过Java中的JDK,以及配置好了相关的环境变量。 2. 开始下载JavaEE软件:https://www.eclipse.org/downloads/packages/。在该网址中,选择镜像然后下载。&#xf…

搭建JavaWeb开发环境(JDK+Tomcat+Eclipse/Idea)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、 安装JDK二、配置环境变量 二、TomCat1. 获取 Tomcat2. Tomcat安装和环境变量的配置 三、eclipse配置 前言 提示:这里可以添加本文要记录的大概…

好文分享:Javaweb开发环境搭建常用工具类型

随着互联网的不断发展,无论是前端开发还是后端开发都越发垂直细分化,而今天我们就通过案例分析来了解一下,Javaweb开发环境搭建常用工具类型。 一:Web相关概念 Web程序也就是一般所说的网站,由服务器、客户端浏览器和…

JavaWeb开发相关版本对应关系

Eclipse与Java Eclipse版本与Java Eclipse版本代号Eclipse版本号Java版本Mars4.5JDK7Neon-Photon-2020.064.6-4.16JDK82020.09-2021.094.17-4.21JDK11 Eclipse/Installation - Eclipsepediahttps://wiki.eclipse.org/…

如何利用Java,Javaweb开发网站

需求分析 基于Javaweb整合三大组件(servletFilterlisten)设计并实现一个工作室网站开发, 对于工作室的日常宣传,企业形象,简单管理来说, 如何通过计算机技术对工作室进行管理非常重要, 通过编写一个在线的工作室网站源代码, 可以直接在网站上查看并了解…

javaweb开发环境搭建-mac版

一、安装jdk 1.检查:终端输入 java -version (mac自带jdk, 但版本较低,如果自带版本满足需求,请跳过23步) 2.安装或升级:官网下载 MAC OS版本的jdk安装 3.配置jdk环境变量:其实就是修改~/.bash_profile文件内容(此文件…

黑马《2023最新JavaWeb开发教程》发布啦~

急你所急,解你所需,黑马《2023最新JavaWeb开发教程》发布啦!!! JavaWeb传统学习路线中的jQuery、JDBC、Servlet、JSP、EL & JSTL等技术点都已经过时啦。2023年了,学JavaWeb,一定要跟着黑马程…

JavaWeb开发入门

JavaWeb开发笔记 十年生死两茫茫,不思量,自难忘,华年短暂,陈辞岁月悠悠伤, 满腔热血已芜荒,展未来,后生强,战战兢兢,如履薄冰心彷徨, 青丝化雪、鬓角成霜&a…

JAVAweb开发资源库

JAVAweb开发资源库内含各种JAVAweb项目的代码模板,方便JAVAweb初学者进行学习,各种功能应有尽有,请自行下载体验: