数据清洗的主要类型及步骤

article/2025/9/16 22:22:32

一、数据清洗的定义

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

二、数据清洗的主要类型

1、残缺数据

这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。

2、错误数据

这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。

3、重复数据

对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确认并整理。

数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。

三、数据清洗步骤

数据清洗的主要路径如图:

在这里插入图片描述

1、对缺失值进行清洗

一般来说,缺失值是最常见的数据问题,处理缺失值也有很多方法,我们需要按照步骤来做,第一就是确定缺失值范围:对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略。

2、去除不需要的字段

实际操作中是十分简单的,直接删掉就可以了,不过需要提醒大家的是,清洗数据的时候每做一步都备份一下,或者在小规模数据上试验成功再处理全量数据,如果删错数据就会追悔莫及。

3、填充缺失内容

这是因为某些缺失值可以进行填充,方法有三种,分别是以业务知识或经验推测填充缺失值、以同一指标的计算结果(均值、中位数、众数等)填充缺失值、以不同指标的计算结果填充缺失值。

4、重新取数

由于某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。这就是缺失值清洗的步骤。

5、关联性验证

如果你的数据有多个来源,那么有必要进行关联性验证。如果不关联,这个数据据需要我们清洗。

以上就是思迈特软件今天分享的数据清洗相关信息。
感谢您的阅读,更多知识,请继续关注我们,下期再见!
广州思迈特软件有限公司(简称:思迈特软件Smartbi)是国家认定的“高新技术企业”,专注于商业智能(BI)与大数据分析软件产品和服务。我们在BI领域具有15年以上产品研发经验,提供完整的大数据分析软件产品、解决方案、以及配套的咨询、实施、培训及维护服务。

思迈特软件统一登录平台


http://chatgpt.dhexx.cn/article/dHAbOZ7P.shtml

相关文章

数据清洗的一些梳理

(欢迎转载到个人朋友圈,转载时请带原文链接,公众号和其他媒体转载前请私信联系本人获取授权) 首先对MayaG表示感谢,这篇文章是被你提的问题激发出的灵感,非常感谢~ 数据清洗, 是整个数据分析过程…

Linux awk命令详解

Linux awk命令详解 一、awk 工作原理 逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令。 sed命令常用于一整行的处理,而awk比较倾向于将一行分成多个“字段…

shell脚本——awk命令详解

每日分享: 也许你错过了今天的落日,但你可以去追逐下一个黎明! 文章目录 一、awk1、工作原理2、格式3、常见的内建变量 二、awk命令使用——根据行输出内容输出所有内容输出指定行的内容输出奇数偶数行输出指定字符行的内容 三、awk命令使用—…

linux之awk详解

前言 awk不仅仅是Linux系统中的一个命令,而且其还是一种编程语言,可以用来处理数据和生成报告(Excel)。处理的数据可以是一个或多个文件,它是Linux系统最强大的文本处理工具,没有之一。 【语法格式】 aw…

Linux - awk命令详解

目录 1. awk命令 1.1 awk工作原理 1.2 awk语法 1.2.1 awk完整语法 示例: 1.2.1 awk工作流程 1.3 指定分隔符 1.3.1 -F 指定分隔符 1.3.2 指定输出分隔符 2. free命令 2.1 free命令各项含义 2.1.1 什么时候会使用交换分区? 2.1.2…

awk 命令详解

目录 一、awk概述 二、awk 工具原理 三、awk内置变量 四、awk用法示例 1、awk常用内置变量 2、BEGIN、END的用法 3、模糊匹配 4、数值与字符串的比较 5、逻辑运算&&和|| 6、其他内置变量的用法 7、awk高级用法 定义引用变量 awk通过管道符号、双引号调用she…

如何选择适合你的项目管理认证

前言 越来越多的小伙伴开始去考项目管理认证,目前互联网行业内主流的项目管理认证还是PMP的认证。 我想从几个方面来深度讲一讲项目管理认证的内容和价值,帮助大家做一个选择和辨别,避免在众多的项目管理认证中迷失了方向,一不小…

【敏捷方法落地之旅】-PMI_ACP敏捷认证交流会

会议名称:PMI_ACP敏捷认证交流会 会议时间:3月26日(星期六)14:00-16:30 会议举办具体地址:黄浦区成都北路500号峻岭广场16楼 票价:免费 参会规模(人数):50 会议主办方:光环国际 一、会议简介 项目管…

CSM(Certified Scrum Master) 敏捷认证是什么?

Scrum 是用于开发和持续支持复杂产品的一个框架。Scrum 基于试验性过程控制理论,借鉴了精益思想、时间盒、模块化设计等,并完整地体现了敏捷宣言和敏捷原则。Scrum 采用一种迭代、增量式的方法来优化对未来的预测和管理风险,建立组织响应变化…

权威的国际敏捷认证Certified Scrum Master (CSM)

权威的国际敏捷认证Certified Scrum Master (CSM) A. 认证前 在学习Certified Scrum Master (CSM)之前,你需要了解: 什么是CSMCSM认证与其他敏捷认证有什么区别常见问题CSM培训课程大纲1. 什么是CSM 什么是Certified Scrum Master (CSM)2. Scrum国际敏捷认证 敏捷认证的对比…

PMI-ACP敏捷认证:敏捷开发的6个实战经验

敏捷开发,相对传统软件开发模式,它主要是针对快速变化的需求,不断优化管理流程,最终推出优质软件。 1. 快速迭代 相对那种半年一次的大版本发布来说,小版本的需求、开发和测试更加简单快速。一些公司,一年仅发布仅2~3 个版本,发布流程缓慢,它们仍采用瀑布开发模式,更严…

2021PMI-ACP®国际敏捷项目管理师认证招生简章

敏捷管理专业人士(PMI-ACP)认证要求敏捷培训、敏捷项目工作经验以及包含敏捷实践、工具、技巧考试的结合,结合了其他敏捷方法,包括SCRUM(敏捷开发),XP(极限编程)和Lean D…

Scrum master敏捷认证全真试题截图PDF CSM敏捷认证考题真题题目试题2022年试题和答案下载

Scrum master敏捷认证全真试题截图PDF CSM敏捷认证考题真题题目试题2022年试题和答案下载 一、CSM敏捷认证简介 更多的介绍大家可以自行去百度搜索了解一下。 市面上的敏捷认证有两个: 一个是PMI的PMI-ACP认证; 一个是Scrum联盟的Certificated Scrum…

记一次CRM敏捷认证培训学习总结

前言 最近公司组织了一次关于CRM敏捷认证的培训和考试活动。为了加深记忆和留待以后回顾复习,也为了想要了解敏捷的同学提供一定的帮助,特此写了一篇关于敏捷培训的总结。 学习链接: Scrum指南2020版本下载地址:https://scrumgui…

敏捷认证_新敏捷–认证

敏捷认证 上次我们看情况如何。 事情如何在滑雪胜地的一群软件开发人员之间汇聚:在该领域进行了实际实验,并取得了成功。 有一个沟通渠道可以传播这些想法。 现在有了共同的愿景和名字。 除非肯施瓦伯 ( Ken Schwaber )具有精明的…

C语言之#include用法详解

学习Linux C,必须要理解include,只要弄清以下几个问题,就能完全理解include了! 1.#include 实质是什么? 预编译的时候copy include头文件的内容到当前行 (疑问:预编译命令 $gcc -E test.c -o …

CMake中include的使用

CMake中的include命令用于从文件或模块(file or module)加载并运行CMake code。其格式如下&#xff1a; include(<file|module> [OPTIONAL] [RESULT_VARIABLE <var>][NO_POLICY_SCOPE]) 从给定的文件加载并运行CMake code。变量读写访问调用者的范围(Variable rea…

Makefile基础教学(include的使用方法)

文章目录 前言一、include在makefile中的概念介绍二、include使用示例三、include中需要注意的一些操作1. 在include前加-选项2. include触发规则创建了文件会发生什么3. include包含的文件夹存在 总结 前言 本篇文章将讲解include的使用方法&#xff0c;在C语言中使用include…

django urls include用法

在Django框架中&#xff0c;提供了非常清晰简洁的url管理方法&#xff0c;在新建一个project之后(此处为myproject),然后在项目中建立一个app(此处为myapp)&#xff0c;会看到有如下的目录结构&#xff1a; 一般所熟知的就是在myproject/myproject/urls.py中的urlpatterns列表中…