数据分析与挖掘———SPSS Moderler

article/2025/8/26 22:23:59

数据分析与挖掘———SPSS Moderler

一、Modeler给概述

1、SPSS Modeler基本认识

IBM SPSS Modeler是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。
SPSS Modeler提供了各种借助机器学习人工智能统计学的建模方法。通过建模选项板中的方法,可以根据数据生成新的信息以及开发预测模型。

2、SPSS Modeler的特点

  1. 强大的数据读取功能
  2. 丰富的数据处理方法
  3. 图形化的数据探索方式
  4. 核心挖掘算法
  5. 简洁直观的模型评估
  6. 性能卓越的三层体系架构

二、数据读取与数据清洗

1、变量类型

数据挖掘角度

  1. 数值类型变量:连续性的数字(电话)
  2. 定类型变量:分类型 (性别)
  3. 定序型变量:等级次序的变量(职称)

数据储存角度

  1. 整数型
  2. 实数型
  3. 字符串型
  4. 时间型:时间段
  5. 日期型
  6. 时间戳型:时间点

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EhJ5hSy4-1664253911313)(:/b3469e892ded4d96b152720b81b71272)]

2、数据读取

txt文件

中把 变量文件拖拽出来,右键编辑引入文件修改编码
查看结果 ,在输出中拉出表格
连接(F2) ,运行 (Ctrl+E)
在这里插入图片描述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PjNJVOpB-1664253911314)(:/78b04ad4f61b4207966a9f7fd9966c01)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jDaNw57e-1664253911314)(:/b792d6bd3ee54f3bbe469a3ab3881a85)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lTwXx1dY-1664253911315)(:/a3d48b80df814ab59ba65cd5c2e94240)]

excel文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rTqQvFFQ-1664253911316)(:/cb44f0590f3546e0904e2a4cc149c517)]

spss文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BciceZaV-1664253911316)(:/e495aec4fd2947098f774bbe4690c147)]

数据库文件

先建立数据源

管理面板管理工具ODBC数据源]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Nds2wsjb-1664253911316)(:/7060ead992ae4be39876bab5a21487c1)]
在这里插入图片描述
在这里插入图片描述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kASWBPTb-1664253911317)(:/10da020a1ada49cfa7bd0143acce3b9f)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zYm6YtHX-1664253911317)(:/a8b13e26931a4199b3cb7e7c73621787)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U8SGHoeL-1664253911318)(:/a2cc6bbbd89844c5a97e90309298a544)]

在spss modeler操作

选择

在这里插入图片描述
在这里插入图片描述

3、数据清洗

缺失值分析及处理

step1:观察缺失值

在这里插入图片描述
在这里插入图片描述

step2:缺失值定义和缺失值处理(删除or插补)

通过对比发现是因为对于无效数据没有定义,所以导致系统没有排除出无效数据

缺失值的定义

1、先对数据通过 类型 进行实例化
在这里插入图片描述
在这里插入图片描述

2、对缺失值进行定义
在这里插入图片描述在这里插入图片描述在这里插入图片描述

3、利用 数据审核 进行输出观察
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

缺失值的处理

经过缺失值/异常值的处理使完整字段完整记录达到100%,那么处理完的数据才是完美的
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GyFRKZqt-1664253911321)(:/78186a7939194f5c97645a7151a687ff)]

方法一、 缺失值删除

将数据中的缺失值直接删除
数据审核节点–>选择生成缺失值过滤节点

方法二、缺失值插补

在这里插入图片描述

将数据中的缺失值进行其他数据添补
运行数据审核节点–>对缺失插补进行操作–>编辑后确定–>生成缺失值超节点
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

最终得到:

在这里插入图片描述

异常值分析及处理

异常值的定义

异常值是在数据集中与其他观察值有很大差距的数据点,它的存在,会对随后的计算结果产生不适当的影响,因此检测异常值并加以适当的处理是十分必要的。

异常值的类型
  • 单字段异常值
    某条或者多条字段的单个变量出现异常
  • 多字段异常值
    某条或者多条字段的多个变量出现异常
异常值处理

异常值处理的原理
在这里插入图片描述

处理步骤:
数据审核节点–>质量操作–>生成
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

重复值处理

在这里插入图片描述在这里插入图片描述

(这个最后的输出应该是表格而不是审核节点 )
在这里插入图片描述在这里插入图片描述

三、数据的基本分析

1、数据质量分析

就是进行数据清洗,将数据质量达到100%

2、描述性统计分析

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3、探索性分析

统计建模常常要求变量服从正态分布如果变量不服从正态分布,应对变量进行适当的转换处理。
SPSS Modeler提供了直观的图形方式用于变量的转换,大大缩短了变量分布探索的时间。

步骤:
输出的变换节点 读入数据选择 字段 运行 生成函数图像–>选择符合正态分布的函数图像–>生成超节点变换–>表格输出
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述

4、二分类变量相关性分析

时间:01:37:26

在这里插入图片描述

➢二分类型相关性研究可以从图形分析入手,也可以采用数值方法进行分析。

问 :
➢例如,基于电信客户数据,可分析客户流失与套餐类型、婚姻状况、电子支付等是否相关。

➢这里,基于电信客户数据,分析套餐类型的分布特征,以及流失客户在不同套餐类型上的分布

图形分析

分类图:在这里插入图片描述在这里插入图片描述在这里插入图片描述
网络图:

在这里插入图片描述
在这里插入图片描述

列联分析

图形分析并不能准确反映二分类型之间精确的相关程度,因此进行数值分析
是必要的, 数值分析通常采用的方法是列联分析。

列联分析包括两个步骤:第一步,计算二分类型的列联表;第二步,分析列联表中行、列变量之间的.相关性。

问:
这里,对电信客户数据
进行数值分析,目标是.分析客户“流失”与“套餐类型”是否相关。
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

5、变量的重要性分析

时间:01:49:05

变量重要性概念:
◆从变量本身看,重要的输入变量应是携带信息较多的变量,也就是方差较大的变量。
◆从变量与目标变量的相关性角度看,重要变量应对目标变量的分类预测有显著意义。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、统计图

时间:01:51:42

1、逻辑回归分析

时间:01:53:02

逻辑回归概念

  • 逻辑回归分类:二项分类逻辑回归,多项分类逻辑回归。
  • 底层原理:假设因变量y服从伯努利分布,Sigmoid映射函数的引入。

逻辑回归算法流程

  • 收集数据
  • 准备数据
  • 分析数据
  • 训练算法
  • 测试算法
  • 使用算法

逻辑回归案例

问:

◆现有一份顾客购买意愿数据表,文件名为: [购买判断.sav]
◆现需从顾客信息数据中,寻找顾客购买意愿的影响因素并训练模型用来预测。
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2、关联分析

Apriori算法

时间:02:05:57

问:

  • 以超市会员顾客购物信息.txt为例(1000名顾客)
  • 存储格式:事实表
  • 个人信息:会员卡号、消费金额、支付方式、性别、是否户主、年龄、收入;
  • 一次购买商品的信息:果蔬、鲜肉、奶制品、蔬菜罐头、肉罐头、冷冻食品、啤酒、葡萄酒、软饮料、鱼、糖果。
  • 目标1:分析商品之间的关联性,为超市提供决策。
  • 目标2:在顾客已买商品的情况下预测可能性商品的连带购买

注意将食品项的角色分配为 任意
在这里插入图片描述在这里插入图片描述

在这里插入图片描述

3、时间列序分析

时间序列概述

➢时间序列是指按时间顺序排列的一组数据序列,是-一个变量在一-定时间段内不同时间点 上观测值的集合。
➢根据观察时间的不同,时间序列中的时间间隔可以是年份、季度、月份、周、日或其他时间段。

时间序列分析

在这里插入图片描述

时间序列分析
➢时间序列分析是一种根据时间序列揭示系统动态结构和规律的统计方法。
➢依据时间序列的特征,产生了与之相适用的方法。
➢时间序列分析的主要目的是根据已有的历史数据对未来进行预测。

案例

问:
●该数据是某公司2010-2019十年间服装销售情况(单位:万元)
●需求:根据过去10年的销售数据来预测其男装类的月度销售情况
●操作: 定义日期-指定目标-设置时间间隔创建模型-检查模型

填充 定义时间
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

模型一、指数平滑法

在这里插入图片描述在这里插入图片描述在这里插入图片描述

在这里插入图片描述

模型二、专家建模器

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

使用专家建模器分析未来三个的数据

在这里插入图片描述
在这里插入图片描述


http://chatgpt.dhexx.cn/article/AIBMaGq3.shtml

相关文章

用SPSS做数据分析(1)

写在前面: 爬虫今天停更一天,今天是周六,今天要把最近网课学习SPSS课程做个总结和回顾,明天继续更新爬虫的内容,今天这篇文章主要是SPSS中的数据管理,一些关于数据的简单操作,是属于SPSS中比较基础的内容,希望看完博客能动手亲自实践一下,会有奇效 文章目录 写在前面:SPSS数据…

利用SPSS做数据分析①(了解SPSS)

话不多说,上才艺,BGM,BGM,BGMBGM。。。哈哈哈哈 不闹了,接下来让我们一起认识一个非常好用的数据分析工具:SPSS 1、SPSS是什么? SPSS是广大统计爱好者和数据分析师最熟悉的名字,它…

如何用SPSS进行数据分析?

1.什么是SPSS SPSS是社会统计科学软件包的简称, 其官方全称为IBM SPSS Statistics。SPSS软件包最初由SPSS Inc.于1968年推出,于2009年被IBM收购,主要运用于各领域数据的管理和统计分析。作为世界社会科学数据分析的标准,SPSS操作…

数据分析5大软件大PK:Python、Excel、R、SAS、SPSS你最爱哪个?

转自 中国统计网 本文为转载分享,若侵权请联系后台删除 1 Excel Microsoft Excel是微软公司的办公软件Microsoft office的组件之一,是由Microsoft为Windows和Apple Macintosh操作系统的电脑而编写和运行的一款试算表软件。Excel 是微软办公套装软件的一个…

SPSS:数据分析

目录 1、数据采集 2、数据是否服从正态分布 3、T检验(T Test) 4、方差分析(ANOVA) 5、卡方检验(Chi-square Test) 6、灰色关联度分析(Grey Relation Analysis,GRA)…

[SPSS] SPSS统计分析软件简介

SPSS的英文缩写来源于以下两个 ① Statistical Package for Social Science(社会科学统计软件包) ② Statistical Product and Service Solutions(统计产品与服务解决方案) SPSS是一种专业的统计分析软件。为用户提供了直观的图形化菜单界面,用户的数据管理和统计…

SPSS软件介绍

SPSS软件界面描述 IBM SPSS是目前常用的一种统计分析软件,SPSS(Statistical Product and Service Solutions)是统计产品和服务解决方案软件,操作简单,无需写代码,只需确定要分析的数据及之间的因变、自变关…

数据分析软件及spss简单操作

数据分析软件介绍 SPSS统计软件 SPSS是英文Statistical package for the social science 的缩写,翻译成汉语是社会学统计程序包,20世纪60年代末由美国斯坦福大学的三位研究生研制,1975年在芝加哥组建SPSS总部。SPSS系统特点是操作比较方…

SPSS数据分析全套教程(1)——SPSS概览

SPSS数据分析全套教程(1)——SPSS概览 什么是SPSS? 社会科学统计软件包(Statistical Package for the Social Science,SPSS)是世界著名的统计分析软件之一。 经近40年的发展,在全球已拥有大量…

初识数据分析利器SPSS

今天这篇文章小白带大家了解一款做数据分析的利器—SPSS。 不知道大家有没有了解过SPSS,如果了解过甚至使用过的同学又对这款工具有多深的认识呢? SPSS是一款常用的数据分析工具,不管是在学校课程、学术论文还是数据分析工作中都是非常常见…

JLink的RTT使用

前言:什么是RTT? RTT( Real Time Terminal)是SEGGER公司新出的可以在嵌入式应用中与用户进行交互的实时终端。J-Link驱动4.90之后的版本都支持RTT。RTT既可以从MCU上输出信息、也可以向应用程序发送信息,由于其高速的特性&#…

使用RTT代替UART,把你的JLink变成串口调试助手~

摘要:不知道大家在单片机开发中是如何打印调试信息的,大多数应该是用串口调试打印吧,在大多数的情况下,一般在制板和写代码时都会预留串口1做为调试打印用。 但是在实际开发如果没有预留串口怎么办?其实我们的下载器是…

TCP RTT与TCP RTO关系详解

本文目录 1,TCP的RTT和TCP的RTO的定义1.1,什么是TCP的RTT1.2,什么是TCP的RTO 2,TCP的当前RTT和RTO的计算2.1,开始讲RTT计算算法前,我们先理解一下TCP里对RTT进行采样的流程2.2,最初始的TCP RTT和…

通过pylink给jlink-RTT添加时间戳

参考链接 目前还有一些bug,比如时间戳有时候会加在一行log的中间,有时候又会少一些时间戳,但是log目前没发现出现问题 在使用pylink时,需要用到Jlink的dll库,需要将D:\SEGGER\JLink_V766d文件夹下的JLink_x64.dll和JLi…

J-Link RTT 支持浮点数

RTT的使用 略 添加浮点数功能 注: 如下代码暂时不支持数据左补零,正浮点数前面显示等功能;不指定位宽时按实际位宽显示,不指定小数位数时按2位小数显示。 在SEGGER_RTT_printf.c文件的SEGGER_RTT_vprintf()函数中,添…

RTT Studio和Cubemx联合开发

1. RTT studio创建工程 创建工程 ## 创建完成以后的目录结构 2. 配置CubuMx 双击cubumx的图标打开CubeMx 配置时钟 生成代码 构建后的代码结构 编译代码满屏错误:不要慌 3. 新增脚本 新建scons脚本文件 SConscript 脚本内容如下,每次修改外…

STM32 RTT

1、安装包 如果安装过jlink,可以用evething来搜索“SEGGER_RTT”,选择“压缩文件”。 压缩文件中的RTT文件夹加入到项目当中 2、项目修改 3、使用 3.1 普通使用 SEGGER_RTT_printf(0, "Terminal 0 print:%d\r\n", i); 3.2 多端口…

[STM32]jlink RTT使用详解

1.什么是Jlink RTT。 全称为SEGGER’s Real Time Transfer(RTT),一种基于SEGGER公司的基于JLink调试器的交互式用户I/O的技术。故名思义,就是一种基于jlink的和用户进行交互的技术,可以直观的显示调试芯片的信息&#…

Redis-RTT

1. 什么是redis的RTT RTT是网络往返时间的简称 每一次执行redis都会向redis-server发送执行的命令(send),比如set a 1, redis-server接收到请求并执行后,会返回一个数据或结果(recv) , send时间和recv中间的时间就是RTT, 也就是说假如发送了三次redis命令,就会产生三个RTT redi…

TCP RTT 采集方法

TCP RTT 采集方法值得一提: 正常状态采集的 RTT 因加入了接收端 Delayed ACK,积累 ACK 等原因而偏大。Disorder,Recovery 状态采集的 RTT 相对准确,通过 Timestamps,SACK 采集。 平时抓包,Wireshark 如何…