对数据挖掘的理解和项目流程

article/2025/9/26 22:26:43

  14年毕业,那会进了现在的公司,做当时很红火的数据挖掘。在有些人眼里我们很神秘,感觉研究的东西很高端;在有些人眼里就是个打杂工,哪里需要去哪里;还有些人决定我们什么都会就会吹水。

  真实的情况是有数据挖掘项目的时候搞项目,没项目的时候就搞培训、做系统需求分析和产品设计。确实是个看起来高端,实际上打杂和吹水的活~

  4年时间里,大部分时间其实自己是很飘的,首先飘在感觉自己做的东西确实是比较高端,随便说个词都是那帮开发没听过的,所讲的概念都比较新。随着数据挖掘这个词的热度的下降,自己完成人生的三件大事(结婚、买房、生娃)后,开始回顾过去,定位现在,放眼未来,才开始思考我所从事的行业是做什么?未来在哪里?现在需要做些什么?这几年,职场经历的领域知识太多了,人生经历也够丰富,什么东西都要知道,但是什么东西都懂的不够深入,脑子里的关于这个行业的体系、职场和生活都迫切的需要通过文字的方式梳理出来。这样才能在职场第5年,梳理出未来的5年规划。

  首先梳理数据挖掘到底是什么?数据挖掘的任务、需要解决的问题和数据挖掘的流程。本文大部分是书上或商业理论,但均经过我的行业验证,也是我一个字一个字的打出来的。无比的认可的东西。

  什么是数据挖掘:从海量数据中发现未发现的有用信息

  数据挖掘任务:分类、预测、关联、聚类

  数据挖掘需要解决的问题:海量、高维、可伸缩、多类型数据:异种数据和复杂数据 (以提升性能【效率和效果】为标准)

  数据挖掘涉及的领域:数据挖掘是一门综合性强学科和应用

  {

  应用(提升建模效果):统计学、人工智能、机器学习和模式识别

  基础(提升运算效率):数据库技术、并行计算、分布式计算

  }

  数据挖掘流程

  下面介绍的数据挖掘流程是跨行业数据挖掘通用流程,运用了好的方法论,事情就成功了一半。这个方法论就是一个数据挖掘项目的流程,包括阶段性目标、工作任务和实施要点。操作性很强,也是业界公认标准。

  

 

  运用项目流程有两个要点需要记得:

  1、数据挖掘项目数据预处理可能会花费大量的工作时间;

  2、数据挖掘项目流程并非一次性执行完毕而是不断的迭代优化,最终获得最优结果。

  商业理解:

  【阶段目标】

  明确商业问题和数据挖掘目标

  制定项目计划。

  【工作任务】

  业务需求调研,了解商业问题背景

  项目环境评估,确定需要的资源(人力、成本、数据、各方)

  商业目标确定,明确商业目标和成功的标准

  挖掘目标确定,明确数据挖掘目标和成功标准

  项目计划制定,指导项目实施

  【实施要点】

  充分的需求调研和沟通交流,

  合理的资源、约束条件假设,

  合适的挖掘结果应用场景设定

  数据理解:

  【阶段目标】

  确定建模所需用的数据

  探索建模需要的目标变量

  【工作任务】

  数据字典编制,梳理内外部数据类型

  取数口径确定,明确数据业务指标含义(各特征的取数口径、取数周期、范围)

  映射规则确定,明确数据使用的业务规则

  质量校验,确保数据可用

  目标变量探索,为模型构建做准备

  【实施要点】

  必备的内外部数据可获取

  数据一致性、完整性、准确性

  目标因子初步分析确定

  数据准备:

  【阶段目标】

  建立数据集市或宽表

  有效加载数据

  【工作任务】

  数据集市或宽表设计

  ETL脚本编写

  数据清洗、加载、转换

  数据质量校验

  数据标准化

  【实施要点】

  科学的编码规范指导编码

  准确的数据映射规则

  高效的ETL保障项目进度和质量

  数据建模:

  【阶段目标】

  选择合适的技术建模

  实现数据挖掘目标

  【工作任务】

  技术选型,选择合适的模型算法

  样本选取,确定训练样本、测试样本和验证样本

  模型建立,筛选变量、模型训练、模型测试

  模型评估,评估模型是否满足数据挖掘目标

  【实施要点】

  合适的技术帮助实现挖掘目标

  样本数据真实反映业务需求

  变量因子有效解释业务现象

  全面评估模型数据挖掘效果

  模型评估:

  【阶段目标】

  进行模型的业务应用测试

  判断是否实现商业目标

  【工作任务】

  模型试用,确定业务场景,进行模型应用测试,收集反馈效果

  效果评价,对测试效果进行评估分析,判断模型是否满足商业目标

  营销建议,根据试用效果提取营销规则并给出营销建议

  【实施要点】

  合适的业务场景试用方案

  全面科学的效果评价

  针对性的营销建议

  模型部署:

  【阶段目标】

  把数据挖掘成果部署到商业环境,应用于生产

  【工作任务】

  规划部署,制定部署计划和方案

  监控与维护,实时跟踪,验证商业目标达成情况

  总结报告,经验积累

  【实施要点】

  科学规划,保障无缝部署

  即时监控及维护响应,保障运营

  全面的总结分析,积累经验

  数据挖掘的过程中所涉及到的技能包括业务理解、数据开发、统计学人工智能能方面的知识。需要个人有很强大的综合能力,比如沟通能力,比如业务分析能力,比如SQL技术,比如挖掘建模能力等等。数据挖掘的魅力就在于他需要不断的扩宽知识面,找寻最好的方法,在项目中需要与人沟通、需要了解业务、需要应用技术,还需要管理整个项目,其实更像是个项目经理的角色。未来可以走项目管理和产品经理的方向。

  


http://chatgpt.dhexx.cn/article/T18qyTp5.shtml

相关文章

数据挖掘建模实战

什么是数据挖掘 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 听起来比较抽象,我们举个例子。 傍晚小街路面上沁出微雨后的湿润,和…

数据挖掘—数据探索

文章目录 数据探索数据探索的角度1 数据质量分析缺失值分析异常值分析一致性分析 2 数据特征分析分布分析对比分析统计量分析周期性分析贡献度分析相关性分析 数据探索 根据观测、调查收集到初步的样本数据集后,接下来要考虑的问题是: 样本数据集的数量…

数据分析项目实战——Airbnb数据分析

爱彼迎官网: 1、业务背景与分析目的 Airbnb是一款短租产品,作为旅行者和房东之间的媒介颠覆了酒店行业。目前,Aribnb作为短租产品的头部品牌,业务涉及到190个国家的34,000 个城市。 在Airbnb发展如此迅速的同时,是否…

一个企业级数据挖掘实战项目|教育数据挖掘

数据集描述 本案例数据集来自Balochistan的6000名学生。其基本情况:一共13个字段,其中RESULT为结果标签; 语言字段是经过独热编码后的四个字段,分别为Lang1, Lang2, Lang3, Lang4; 另外性别、学校、是否残疾、宗教信仰…

二、大数据实践项目——数据分析与处理

一、数据处理主要任务 二、数据集处理 1、查看数据集基本情况 调用 info() 函数来查看数据data的基本情况,包括数据维度,字段名称和类型以及有无缺失值,数据占用内存等。(以下为部分字段信息) 可见总的数据47447行&a…

数据挖掘项目总结文档

数据挖掘项目总结文档 1、文档概述 1.1 编写目的 记录本次实验思路及流程,备忘用。 1.2 适用对象 个人学习总结,描述有偏差之处陆续更进。 2、业务理解与分析定义 2.1 需求概述 针对传统网络入侵检测系统存在的误判以及漏检情况,采用数据挖掘…

数据挖掘开源项目立项

项目背景 因为最近一直都在搞数据挖掘类的项目,且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法,以前也搞过一个开源的项目,当时只是想把权限集中化做一下,项目的名称和地址是: …

数据挖掘项目(1)对数据进行探索和分析

1.数据类型的分析(假设数据为data.csv) 首先读入数据,这个数据是csv格式,可以用pandas来读,如果读不进来的时候,可以用记事本打开data.csv然后另存为data_2.csv并且保存为utf-8的编码格式。然后读取数据。…

python数据挖掘项目——航空公司客户价值分析(详解)

一、选题背景 信息时代的来临使得企业营销的焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题,客户关系管理的关键问题是客户分类,通过客户分类,区分不同客户的价值,企业针对不同价值的客户制定个性化的服…

网络通信协议分类

协议分类 通信的协议还是比较复杂的,java.net 包中包含的类和接口,它们提供低层次的通信细节。我们可以直接使用这些类和接口,来专注于网络程序开发,而不用考虑通信的细节。 java.net 包中提供了两种常见的网络协议的支持&#…

各种基础协议

了解几个概念: 1. HTTP 协议:基于TCP协议,超文本传输协议,对应于应用层,用于如何封装数据.。也就是在底层是基于socket, http只不过是在收发数据的时候定义了很多规则,http头信息之类。 TCP/I…

TCP协议格式

1、16位源端口号:16位的源端口中包含初始化通信的端口。源端口和源IP地址的作用是标识报文的返回地址。 2、16位目的端口号:16位的目的端口域定义传输的目的。这个端口指明报文接收计算机上的应用程序地址接口。 3、32位序号:32位的序列号由…

以太网各种协议详解

板子处于复位状态时,先做好一系列的准备工作。 1、从EEROM中读取板子的MAC 地址(事先已经写在地址0xFA to 0xFF 中了)。 2、配置PHY 寄存器,并读取该寄存器的值,检查一下,此时的寄存器配置时候是合理的&am…

汽车通信协议系列1_通信协议类型

当前比较通用的五种协议,任何一款标准OBD2的车辆都会采用以下五种协议中的一种。以下几种按照物理层编码相关性来划分 ISO9141,ISO 14230.这类是以UART为基础的。 CAN ISO 11898(车载网络),ISO15768,SAE J…

网络协议分类

Http协议:应用层。 tcp/udp协议:传输层。udp提供不可靠通信:无流控等。 ip协议:网络层。 TCP/IP是是一套协议族,是一种说法,由早期的某标准化组织制定,规定了使用tcp和ip等一系列协议的规范。…

IP协议及分类

文章目录 TCP/IP协议IP地址分类默认子网掩码网关公有IP地址和私有IP地址 基本环境设置连网介质及设备重点 TCP/IP协议 TCP/IP通信协议是目前最完整、最被广泛支持的通信协议,它可以让不同网络架构、不同操作系统的计算机之间通信,是Internet的标准通信协…

常见的协议汇总(小白个人理解,大佬勿喷)

背景 接触了一些芯片,发现所有的芯片而言,库和API接口随着芯片,开发环境甚至开发情况,公司都有着明显的区别。基于这种情况的话,了解协议的底层个人觉得是十分必要的,同时也是找工作的必备选项。所以对常见…

常用协议类型值

Ethertype ( 十六进制 ) 协议 0x0000 - 0x05DC IEEE 802.3 长度 0x0101 – 0x01FF 实验 0x0600 XEROX NS IDP 0x0660 0x0661 DLOG 0x0800 网际协议(IP) 0x0801 X.75 Internet 0x0802 NBS Internet 0x0803 ECMA Internet 0x0804 Chao…

TCP协议格式和特点

文章目录 1.协议格式:2.协议特性:2.1 面向链接2.1.1三次握手建立连接2.1.1四次挥手断开连接相关问题和知识点:1. 握手为啥三次,挥手是四次?2. 三次握手失败两端是如何处理的?3. SYN泛洪攻击是怎么回事?4. …

典型几种协议(协议以及作用)

一 .典型协议: 传输层: 常见的协议有 TCP/UDP 协议 应用层: 常见的协议有 HTTP,FTP 协议 网络层: 常见的协议有 IP 协议,ICMP 协议,IG…