数据分析学习之完整的数据挖掘项目流程

article/2025/9/26 22:01:16

1、分析问题,明确目标

有目的解决问题才会事半功倍。

2、模型可行性分析

并不是所有问题都需要数据挖掘模型或着能通过数据挖掘模型来解决。在建模之前需要进行可行性分析。判断模型可行性的流程如图所示:

在这里插入图片描述

3、 选取模型
根据问题定义选则合适的模型:决策树、随机森林、XGBoost等。
4、 选择变量
变量分类:

  • 非实时变量:基于历史数据,对时效性要求不高;
  • 实时变量:短时间内获取的最新数据。

提取和选取变量的常规步骤:

  1. 通过PRD文档、业务方需求文档,建立变量池;
  2. 组织变量讨论会,拓展对业务的认知,丰富变量池;
  3. 借助SQL语句从数据库中提取变量,一小部分数据由业务方直接通过表格提供。

5、特征工程
在确定好变量之后,对这些变量进行处理,称为特征工程。
(1)验证逻辑。常见的逻辑错误:因果关系倒置;忽略模型陕西概念后变量数据计算的时效性;在取数过程中出现错误。
(2)重复数据和测试数据:一般都是删除处理444
(3)缺失值处理:对于一些模型(如XGboost),在符合逻辑、确保缺失值具有一定意义的前提下,可以不做处理,其他情况下都要处理。
(如果缺失比例高于30%,一般放弃这个变量;如果低于30%才进行处理)
常用处理方法:

用特定值表示(如:-9999);
统计插值(均值、中值、众数),适用于数据型变量;
模型插值:SKNN,参考最邻近的K个值进行填补;
EM聚类,选择不存在缺失值的变量进行聚类,根据所在类的其他值进行填补。

(4)异常值处理:判断业务逻辑在取数计算过程中是否出现错误,如需要对数据唯一性进行验证。
判断异常值方法:

统计方法:3σ、盒形图、分位数 模型法:
iforest孤立森林。

处理异常值的方法:

删除异常数据所在的记录
将异常值标志为缺失值,用填补缺失值的方法进行处理。

6、建立模型和效果评估
7、模型上线和迭代
在模型正式陕西概念之前,通常需要将模型封装成特定的模型文件交由开发部门,开发部门定时调用模型文件。(有些模型如线性回归模型,无须交付模型文件,只需要提供变量对应的参数即可)。
目前比较常用的方法是将机器学习/数据挖掘模型打包成PMML文件。
PMML(Predictive Model Markup language)是一种基于XML的预测模型标记语言:

任何语言都可以调用模型。
不存在调用的通信消耗。
直接部署上线,无须二次开发。
支持数据转换,比如标准化和one-hot编码等。

在模型上线前需要提前定制好监控策略,保证模型效果在可控范围内。
我们要时刻保持对模型的迭代,并在相应的代码管理平台及时更新代码,做好模型版本编号,以此形成一个完整的闭环。
在这里插入图片描述


http://chatgpt.dhexx.cn/article/0mLgkICJ.shtml

相关文章

数据挖掘项目(一)Airbnb 新用户的民宿预定结果预测

摘要 本文主要根据对Airbnb 新用户的民宿预定结果进行预测,完整的陈述了从数据探索到特征工程到构建模型的整个过程。 其中: 1 数据探索部分主要基于pandas库,利用常见的:head(),value_counts(),describe()&#xff0c…

对数据挖掘的理解和项目流程

14年毕业,那会进了现在的公司,做当时很红火的数据挖掘。在有些人眼里我们很神秘,感觉研究的东西很高端;在有些人眼里就是个打杂工,哪里需要去哪里;还有些人决定我们什么都会就会吹水。 真实的情况是有数据挖掘项目的时候搞项目&am…

数据挖掘建模实战

什么是数据挖掘 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 听起来比较抽象,我们举个例子。 傍晚小街路面上沁出微雨后的湿润,和…

数据挖掘—数据探索

文章目录 数据探索数据探索的角度1 数据质量分析缺失值分析异常值分析一致性分析 2 数据特征分析分布分析对比分析统计量分析周期性分析贡献度分析相关性分析 数据探索 根据观测、调查收集到初步的样本数据集后,接下来要考虑的问题是: 样本数据集的数量…

数据分析项目实战——Airbnb数据分析

爱彼迎官网: 1、业务背景与分析目的 Airbnb是一款短租产品,作为旅行者和房东之间的媒介颠覆了酒店行业。目前,Aribnb作为短租产品的头部品牌,业务涉及到190个国家的34,000 个城市。 在Airbnb发展如此迅速的同时,是否…

一个企业级数据挖掘实战项目|教育数据挖掘

数据集描述 本案例数据集来自Balochistan的6000名学生。其基本情况:一共13个字段,其中RESULT为结果标签; 语言字段是经过独热编码后的四个字段,分别为Lang1, Lang2, Lang3, Lang4; 另外性别、学校、是否残疾、宗教信仰…

二、大数据实践项目——数据分析与处理

一、数据处理主要任务 二、数据集处理 1、查看数据集基本情况 调用 info() 函数来查看数据data的基本情况,包括数据维度,字段名称和类型以及有无缺失值,数据占用内存等。(以下为部分字段信息) 可见总的数据47447行&a…

数据挖掘项目总结文档

数据挖掘项目总结文档 1、文档概述 1.1 编写目的 记录本次实验思路及流程,备忘用。 1.2 适用对象 个人学习总结,描述有偏差之处陆续更进。 2、业务理解与分析定义 2.1 需求概述 针对传统网络入侵检测系统存在的误判以及漏检情况,采用数据挖掘…

数据挖掘开源项目立项

项目背景 因为最近一直都在搞数据挖掘类的项目,且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法,以前也搞过一个开源的项目,当时只是想把权限集中化做一下,项目的名称和地址是: …

数据挖掘项目(1)对数据进行探索和分析

1.数据类型的分析(假设数据为data.csv) 首先读入数据,这个数据是csv格式,可以用pandas来读,如果读不进来的时候,可以用记事本打开data.csv然后另存为data_2.csv并且保存为utf-8的编码格式。然后读取数据。…

python数据挖掘项目——航空公司客户价值分析(详解)

一、选题背景 信息时代的来临使得企业营销的焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题,客户关系管理的关键问题是客户分类,通过客户分类,区分不同客户的价值,企业针对不同价值的客户制定个性化的服…

网络通信协议分类

协议分类 通信的协议还是比较复杂的,java.net 包中包含的类和接口,它们提供低层次的通信细节。我们可以直接使用这些类和接口,来专注于网络程序开发,而不用考虑通信的细节。 java.net 包中提供了两种常见的网络协议的支持&#…

各种基础协议

了解几个概念: 1. HTTP 协议:基于TCP协议,超文本传输协议,对应于应用层,用于如何封装数据.。也就是在底层是基于socket, http只不过是在收发数据的时候定义了很多规则,http头信息之类。 TCP/I…

TCP协议格式

1、16位源端口号:16位的源端口中包含初始化通信的端口。源端口和源IP地址的作用是标识报文的返回地址。 2、16位目的端口号:16位的目的端口域定义传输的目的。这个端口指明报文接收计算机上的应用程序地址接口。 3、32位序号:32位的序列号由…

以太网各种协议详解

板子处于复位状态时,先做好一系列的准备工作。 1、从EEROM中读取板子的MAC 地址(事先已经写在地址0xFA to 0xFF 中了)。 2、配置PHY 寄存器,并读取该寄存器的值,检查一下,此时的寄存器配置时候是合理的&am…

汽车通信协议系列1_通信协议类型

当前比较通用的五种协议,任何一款标准OBD2的车辆都会采用以下五种协议中的一种。以下几种按照物理层编码相关性来划分 ISO9141,ISO 14230.这类是以UART为基础的。 CAN ISO 11898(车载网络),ISO15768,SAE J…

网络协议分类

Http协议:应用层。 tcp/udp协议:传输层。udp提供不可靠通信:无流控等。 ip协议:网络层。 TCP/IP是是一套协议族,是一种说法,由早期的某标准化组织制定,规定了使用tcp和ip等一系列协议的规范。…

IP协议及分类

文章目录 TCP/IP协议IP地址分类默认子网掩码网关公有IP地址和私有IP地址 基本环境设置连网介质及设备重点 TCP/IP协议 TCP/IP通信协议是目前最完整、最被广泛支持的通信协议,它可以让不同网络架构、不同操作系统的计算机之间通信,是Internet的标准通信协…

常见的协议汇总(小白个人理解,大佬勿喷)

背景 接触了一些芯片,发现所有的芯片而言,库和API接口随着芯片,开发环境甚至开发情况,公司都有着明显的区别。基于这种情况的话,了解协议的底层个人觉得是十分必要的,同时也是找工作的必备选项。所以对常见…

常用协议类型值

Ethertype ( 十六进制 ) 协议 0x0000 - 0x05DC IEEE 802.3 长度 0x0101 – 0x01FF 实验 0x0600 XEROX NS IDP 0x0660 0x0661 DLOG 0x0800 网际协议(IP) 0x0801 X.75 Internet 0x0802 NBS Internet 0x0803 ECMA Internet 0x0804 Chao…