数据挖掘—数据探索

article/2025/9/26 22:45:46

文章目录

  • 数据探索
    • 数据探索的角度
      • 1 数据质量分析
        • 缺失值分析
        • 异常值分析
        • 一致性分析
      • 2 数据特征分析
        • 分布分析
        • 对比分析
        • 统计量分析
        • 周期性分析
        • 贡献度分析
        • 相关性分析

数据探索

根据观测、调查收集到初步的样本数据集后,接下来要考虑的问题是:

  • 样本数据集的数量和质量是否满足模型构建的要求?
  • 有没有出现从未设想过的数据状态?
  • 其中有没有明显的规律和趋势?
  • 各因素之间有什么样的关联性?

数据探索的角度

通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。通常从以下两个角度入手:

  • 数据质量分析
  • 数据特征分析

1 数据质量分析

数据质量分析的主要任务是:检查原始数据中是否存在脏数据。

脏数据一般是指不符合要求以及不能直接进行相应分析的数据,主要包括:缺失值、异常值、不一致的数据、重复的数据以及含有特殊符号( #、¥、* )的数据。

缺失值分析

缺失值产生的原因:

  • 有些信息暂时无法获取,或者获取信息的代价太大。

  • 有些信息是被遗漏的。

    • 人为因素:

      • 输入是认为不重要

      • 忘记填写

      • 对数据错误理解

    • 非人为因素:

      • 数据采集设备故障

      • 存储介质故障

      • 传输媒体故障

  • 属性值不存在:缺失值并不意味着数据有错误。有一些对象的某些属性值是不存在的。例如:未婚者的配偶姓名、一个儿童的固定收入。

缺失值的影响:

  • 数据挖掘建模将丢失大量的有用信息。
  • 数据挖掘建模所表现出的不确定性更加显著,模型中蕴含的规律更难把握。
  • 包含控制的数据会使建模过程陷入混乱,导致不可靠的输出。

缺失值的分析:

  • 使用简单的统计分析,可以得到含有缺失值的属性的个数以及每个属性的未缺失数、缺失数与缺失率等。
  • 对于缺失值的处理
    • 删除存在缺失值的记录
    • 对可能值进行插补
    • 不处理

异常值分析

异常值分析是检验数据是否有录入错误,是否含有不符合常理的数据。

异常值指样本中的个别值,其数值明显偏离其他的观测值。异常值也成为离群点,异常值分析也成为离群点分析。

常见的异常值分析方法:

💠简单统计量分析

最常使用最大值和最小值,来判断某个变量是否超出了合理的范围。

• 例如,客户年龄的最大值为199岁,则判断年龄这个变量的取值存在异常值。

💠3 δ原则

• 如果数据服从正态分布,在3 δ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。

P(|x- μ |> 3 δ) ≤0.003

• 如果不服从正态分布,也可以永远离平均值的标准差倍数来描述。

💠箱型图分析

• Qu(上四分位数):全部观察之中有四分之一的数据取值比它大。

• Ql(下四分位数):全部观察之中有四分之一的数据取值比它小。

• IQR(四分位间距,=Qu-Ql):包含了全部观察值的一半。

• 上界:非离群点中的最大值。

• 下界:非离群点中的最小值。

• 离群点(异常点):通常定义为Ql-1.5IQR或 者Qu+1.5IQR的值。

image-20220826230646261

例:T餐饮的异常值分析

image-20220826233217643

image-20220826233245138

image-20220826233332933

image-20220826233423979

image-20220826233436314

一致性分析

  • 数据不一致性是指数据的矛盾性、不相容性。
  • 不一致数据主要发生在数据集成过程中,可能是由于被挖掘数据来自于不同的数据源、对于重复存放的数据未能进行一致性更新造成的。
  • 例如:两张表中都存放了用户的电话号码,但在用户电话号码发生改变时,只更新了其中一张表中的数据,那么,这两张表中就有了不一致的数据。

2 数据特征分析

  • 分布分析
  • 对比分析
  • 统计量分析
  • 周期性分析
  • 贡献度分析
  • 相关性分析

分布分析

分布分析能解释数据的分布特征和分布类型。

  • 对于定量数据,要想了解其分布形式是对称的还是非对称的、发现某些特大或特效的可疑值,可作出频率分布表、绘制频率分布直方图、绘制茎叶图进行直观分析。
  • 对于定性数据,可疑用饼图和条形图直观的显示其分布。

定量数据(‘捞起生鱼片’的销售布情况)

image-20220826233512675

image-20220826233524943

定性数据

image-20220826233557549

image-20220826233620297

image-20220826233628987

对比分析

  • 对比分析是把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢以及各种关系是否协调。

  • 对比分析特别适用于指标间的横纵向比较、时间序列的比较。

  • 选择合适的对比标准

  • 对比分析的两种形式:

    • 绝对数比较

    • 相对数比较:它是由有联系的指标对比计算的,是用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。

      • 结构相对数:将统一总体内的部分数值与全部数值进行对比求得比重,用以说明事物的性质、结构或质量。如,居民食品支出额占消费支出总额的比重、产品合格率等。

      • 比例相对数:将同一总体内不同部分的数值进行比较,表明总体内各部分的比例关系。如人口性别比例、投资与消费比例等。

      • 比较相对数:将同一时期两个性质相同的指标数值进行比较,说明同类现象在不同空间条件下的数量对比关系。如不同地区的商品价格对比,不同行业、不同企业间某项指标对比等。

      • 强度相对数:将两个性质不同但有一定联系的总量指标进行对比,用以说明现象的强度、密度和普遍程度,如人均国内生产总值用“元/人”表示,人口密度用“人/平方公里”表 示。

      • 计划完成程度相对数:将某一时期实际完成数与计划数进行对比,用以说明计划完成程度。

      • 动态相对数:将同一现象在不同时期的指标数值进行比较,用以说明发展方向和变化速度。如发展速度、增长比例等。

image-20220826233655813

image-20220826233757091

image-20220826233710907

统计量分析

用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势进行分析。

  • 集中趋势度量
    • 均值、中位数和众数
  • 离中趋势度量
    • 极差、标准差、变异系数、四分位数间距

image-20220826233814523

image-20220826233827240

周期性分析

周期性分析时探索某个变量是否随着时间的变化而呈现出某种周期变化趋势。

  • 年度性、季节性周期性趋势
  • 月、周、天、小时周期性趋势

image-20220826232538566

image-20220826232609598

image-20220826232621340

贡献度分析

贡献度分析又称为帕累托分析,他的原则是帕累托法则,又称20/80法则。

  • 同样的投入在不同的地方会产生不同的效益。如对一个公司来说,80%的利润常常来自20%最畅销的产品,而其他80%的产品只产生了20%的利润。
  • 因此,我们应该重点改善盈利最高的80%的产品。

image-20220826232722014

image-20220826232741655

A1-A7七个菜品占了菜品种类的70%,总营业额占了85%。根据帕累托原则,应该增加对菜品A1-A7的成本投入,减少A8-A10的成本投入,以获的更高的盈利额。

相关性分析

分析连续变量之间相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析:

  • 直接绘制散点图
  • 绘制散点图矩阵
  • 计算相关系数
    • Pearson相关系数
    • Spearman秩相关系数
    • 判定系数

image-20220826232931638

image-20220826233016942

image-20220826233027647

image-20220826233100969

image-20220826233110000


http://chatgpt.dhexx.cn/article/vQpTreU1.shtml

相关文章

数据分析项目实战——Airbnb数据分析

爱彼迎官网: 1、业务背景与分析目的 Airbnb是一款短租产品,作为旅行者和房东之间的媒介颠覆了酒店行业。目前,Aribnb作为短租产品的头部品牌,业务涉及到190个国家的34,000 个城市。 在Airbnb发展如此迅速的同时,是否…

一个企业级数据挖掘实战项目|教育数据挖掘

数据集描述 本案例数据集来自Balochistan的6000名学生。其基本情况:一共13个字段,其中RESULT为结果标签; 语言字段是经过独热编码后的四个字段,分别为Lang1, Lang2, Lang3, Lang4; 另外性别、学校、是否残疾、宗教信仰…

二、大数据实践项目——数据分析与处理

一、数据处理主要任务 二、数据集处理 1、查看数据集基本情况 调用 info() 函数来查看数据data的基本情况,包括数据维度,字段名称和类型以及有无缺失值,数据占用内存等。(以下为部分字段信息) 可见总的数据47447行&a…

数据挖掘项目总结文档

数据挖掘项目总结文档 1、文档概述 1.1 编写目的 记录本次实验思路及流程,备忘用。 1.2 适用对象 个人学习总结,描述有偏差之处陆续更进。 2、业务理解与分析定义 2.1 需求概述 针对传统网络入侵检测系统存在的误判以及漏检情况,采用数据挖掘…

数据挖掘开源项目立项

项目背景 因为最近一直都在搞数据挖掘类的项目,且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法,以前也搞过一个开源的项目,当时只是想把权限集中化做一下,项目的名称和地址是: …

数据挖掘项目(1)对数据进行探索和分析

1.数据类型的分析(假设数据为data.csv) 首先读入数据,这个数据是csv格式,可以用pandas来读,如果读不进来的时候,可以用记事本打开data.csv然后另存为data_2.csv并且保存为utf-8的编码格式。然后读取数据。…

python数据挖掘项目——航空公司客户价值分析(详解)

一、选题背景 信息时代的来临使得企业营销的焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题,客户关系管理的关键问题是客户分类,通过客户分类,区分不同客户的价值,企业针对不同价值的客户制定个性化的服…

网络通信协议分类

协议分类 通信的协议还是比较复杂的,java.net 包中包含的类和接口,它们提供低层次的通信细节。我们可以直接使用这些类和接口,来专注于网络程序开发,而不用考虑通信的细节。 java.net 包中提供了两种常见的网络协议的支持&#…

各种基础协议

了解几个概念: 1. HTTP 协议:基于TCP协议,超文本传输协议,对应于应用层,用于如何封装数据.。也就是在底层是基于socket, http只不过是在收发数据的时候定义了很多规则,http头信息之类。 TCP/I…

TCP协议格式

1、16位源端口号:16位的源端口中包含初始化通信的端口。源端口和源IP地址的作用是标识报文的返回地址。 2、16位目的端口号:16位的目的端口域定义传输的目的。这个端口指明报文接收计算机上的应用程序地址接口。 3、32位序号:32位的序列号由…

以太网各种协议详解

板子处于复位状态时,先做好一系列的准备工作。 1、从EEROM中读取板子的MAC 地址(事先已经写在地址0xFA to 0xFF 中了)。 2、配置PHY 寄存器,并读取该寄存器的值,检查一下,此时的寄存器配置时候是合理的&am…

汽车通信协议系列1_通信协议类型

当前比较通用的五种协议,任何一款标准OBD2的车辆都会采用以下五种协议中的一种。以下几种按照物理层编码相关性来划分 ISO9141,ISO 14230.这类是以UART为基础的。 CAN ISO 11898(车载网络),ISO15768,SAE J…

网络协议分类

Http协议:应用层。 tcp/udp协议:传输层。udp提供不可靠通信:无流控等。 ip协议:网络层。 TCP/IP是是一套协议族,是一种说法,由早期的某标准化组织制定,规定了使用tcp和ip等一系列协议的规范。…

IP协议及分类

文章目录 TCP/IP协议IP地址分类默认子网掩码网关公有IP地址和私有IP地址 基本环境设置连网介质及设备重点 TCP/IP协议 TCP/IP通信协议是目前最完整、最被广泛支持的通信协议,它可以让不同网络架构、不同操作系统的计算机之间通信,是Internet的标准通信协…

常见的协议汇总(小白个人理解,大佬勿喷)

背景 接触了一些芯片,发现所有的芯片而言,库和API接口随着芯片,开发环境甚至开发情况,公司都有着明显的区别。基于这种情况的话,了解协议的底层个人觉得是十分必要的,同时也是找工作的必备选项。所以对常见…

常用协议类型值

Ethertype ( 十六进制 ) 协议 0x0000 - 0x05DC IEEE 802.3 长度 0x0101 – 0x01FF 实验 0x0600 XEROX NS IDP 0x0660 0x0661 DLOG 0x0800 网际协议(IP) 0x0801 X.75 Internet 0x0802 NBS Internet 0x0803 ECMA Internet 0x0804 Chao…

TCP协议格式和特点

文章目录 1.协议格式:2.协议特性:2.1 面向链接2.1.1三次握手建立连接2.1.1四次挥手断开连接相关问题和知识点:1. 握手为啥三次,挥手是四次?2. 三次握手失败两端是如何处理的?3. SYN泛洪攻击是怎么回事?4. …

典型几种协议(协议以及作用)

一 .典型协议: 传输层: 常见的协议有 TCP/UDP 协议 应用层: 常见的协议有 HTTP,FTP 协议 网络层: 常见的协议有 IP 协议,ICMP 协议,IG…

ICMP协议 详解,ICMP协议的功能及实现原理,ICMP协议报文类型。

「作者主页」:士别三日wyx 「作者简介」:CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「专栏简介」:此文章已录入专栏《计算机网络零基础快速入门》 ICMP协议 一、工作原理二、数据报格式三、报文类型 ICMP协议是IP的…

几个的常见基础协议类型数据格式以及协议内容简介

给大家简单梳理一下几种学习中常会出现的协议格式,咋们数通就像交通,各种各样的协议规则来规范大家,制定科学的管理手段来帮助大家快速,安全的到家。 一、 HDLC协议 HDLC叫高级链路控制协议(High Level Data Link Cont…