利用SPSS做数据分析②之数据处理1

article/2025/6/9 12:18:00

SPSS数据处理有六个步骤,分别是:

  1. 数据导入
  2. 数据清洗
  3. 数据抽取
  4. 数据合并
  5. 数据分组
  6. 数据标准化

数据处理是根据数据分析的目的,将收集到的数据,用适当的处理方法进行加工、整理,形成适合数据分析的要求样式,它是数据分析前必不可少的工作,并且在整个数据分析工作量中占据了大部分比例。

我们先来学习前三个步骤:数据导入、数据清洗、数据抽取

先来了解下数据变量是什么?
在数据库中,我们将数据变量称为字段,而在统计学中我们称之为变量

常用的数据类型:

字符型数据、数值型数据、日期型数据

字符型数据

文本数据,有字符串组成,不能进行算数运算的文本数据类型,包括中文字符、英文字符、数字字符(非数值型)等字符。
字符型数据是一种分类数据。

数值型数据

自然数或度量单位进行计量的数值数据。
特殊的分类数据。

日期型数据

表示日期或时间数据,它可以进行算数运算,所以它是一种特殊的数值型数据。
日期型数据主要应用在时间序列分析中。

变量尺度:

在统计学中,按照对事物描述的精确程度,将采用的测量尺度从低到高分为4个层次:定类尺度、定序尺度、定距尺度和定比尺度。

定类尺度:对事物类别属性的一种测度。

  • 特点:值只能代表事物的类别和属性,不能比较各类别之间的大小。
  • 例如:性别、职业…
  • SPPS中,使用" 名义(N)"来表示定类尺度。
  • 注意:使用定类尺度对事物进行分类时,一定要符合相互独立,完全穷尽原则,也就是麦肯锡的经典原则——MECE原则。相互独立意味着对事物的分类在同一纬度上并且有明确区分、不可重叠的;完全穷尽则意味着全面、周密,对事物的分类没有遗漏。

定序尺度:对事物之间等级或者顺序的一种测度。

  • 计算结果只能排序,不能进行算术运算。
  • 例如:学历、职级…
  • 在SPSS 中,使用"序号(O)"来表示定序尺度。

定距尺度:对事物次序之间间距的一种测度,只可进行加减运算,不可进行乘除运算。

  • 不仅能够对事物进行排序,还能精确计算次序之间的差距是多少。
  • 例如:温度、时间…

定比尺度:测量两个测量值之间比值的一种测度。

  • 加减乘除运算。
  • 例如:收入、用户…

定比尺度和定距尺度最大的区别:

定比尺度——有固定的绝对“0”值
定距尺度——没有固定的绝对“0”值
定距变量中“0”不表示没有,只是测量值; 定比变量中“0”表示没有。
定距与定比——SPPS中统称为“度量(S)”。

1、数据导入

常用的数据文件有两种:EXCEL数据文件和txt数据文件。

1.1 Excel数据导入

步骤:
文件——打开——数据——打开数据——选择EXCEL数据文件;
SPSS 会根据实际情况设置好相关参数,我们只需确认参数是否设置正确即可,不正确,修改相应参数苏设置,确认无误后,点击确定按钮。
在这里插入图片描述
在这里插入图片描述
单击文件——选择保存或另存为——将数据另存为——SPSS默认保存格式:*.sav——确定即可。

1.1 txt 数据导入

这里插一句:当你在导入文本文件时显示在第一步就显示乱码的话是你的因为你的编码格式没有选对(反正我是这样子的),如果乱码就选择本地编码即可。
在这里插入图片描述

txt 文本导入其实和EXCEL数据文件导入的方式是类似的。
文件——打开——数据——打开数据——选择文本数据,更改文件类型——打开;
在这里插入图片描述
①文本导入向导——各变量之间用逗号隔开——下一步;
②文本导入向导——设置变量的安排方式和变量名称(变量的安排方式:各变量之间是如何分隔的,以逗号、制表符等分隔符号分隔的,还是以每个变量的宽度分隔的);
③文本导入向导——进行个案设置(数据记录)——均保持默认即可——下一步;
④文本导入向导——SPSS根据导入数据特点——自动勾选逗号分隔符——下一步;
⑤文本导入向导——SPSS根据导入数据特点——自动设置每个变量数据格式——确认是否设置正确(特别是日期型变量)——下一步;
⑥文本导入向导——如果不需要保存刚才设置过的格式或者获得导入过程的语法——直接单击(完成)按钮——就会成功导入SPSS中。

在这里插入图片描述

2、数据清洗

数据清洗:
将重复的数据筛选清除,将损失的数据补充完整,将错误的数据纠正或删除。
Excel中有删除重复项是的功能,可以直接删除重复的数据记录。
SPSS没有提供类似于Excel删除重复项的功能,但我们可以分步操作:

  • 先将重复记录找出并标记
  • 根据是否重复标记排序,将重复记录排在一起
  • 删除

①打开sav数据文件——数据——标识重复个案;
在这里插入图片描述
②在标识重复个案中——将所有变量都放入【定义匹配个案的依据】框中——其他选项若无特殊需求,保持默认即可;
在这里插入图片描述
③这时就生成一个重复数据记录标识变量“最后一个基本个案”,0代表重复个案,1代表唯一或基本主个案
在这里插入图片描述
④选中“最后一个基本个案”变量——右键选择【升序排列】项——将“最后一个基本个案”变量值为0(重复)的个案都排在前面了;
在这里插入图片描述
在这里插入图片描述
⑤选中“最后一个基本个案”——变量值为0(重复)的个案——单击右键——选择【清除】项——成功删除重复的个案。
在这里插入图片描述
在这里插入图片描述

3、数据抽取

数据抽取,也称为数据拆分,是指保留、抽取原数据表中的某些字段、记录的部分信息,形成一个新字段、新纪录。

我们学习:字段拆分、随机抽样 两种方法。

3.1 字段拆分

在Excel中我们经常使用Right、Left、Mid函数进行相关字段的抽取、拆分,在SPSS中字段的拆分操作与Excel中的字段拆分操作类似,主要使用Substr函数进行字段拆分操作,跟Excel的Mid函数用法是一致的。

Substr(字符串,提取的起始位置,提取的字符个数)

现在我们用Substr函数对数据中“身份证号码”变量进行出生年份、月份、日进行抽取:

打开数据文件——点击转换——选择计算变量;
在这里插入图片描述
在计算变量中——选择【函数组】框中“字符串”类——【函数和特殊变量】框中双击“Char.Substr(3)”函数——这时Char.Substr(3)函数就被移入到【数字表达式】中——将表达式修改为“CHAR.SUBSTR(身份证号码,7,4)”——这样就完成了公式的编写;
在目标变量中——输入变量名称:年份——【类型于标签】功能中设置类型为:字符串——确定——这样就新增了一个“年份”变量;
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 随机抽样

随机抽样,是按照随机的原则,也就是保证总体中每个单位都有同等机会被抽中的原则,进行样本抽取的一种方法。
随机抽样方法主要有:简单随机抽样、分层抽样、系统抽样等。

在SPSS 中,主要使用“选择个案”中的随机抽样功能来实现。

数据文件——数据——选择个案:随机抽样;
在这里插入图片描述

选择个案——选择——随机个案样本——单击【样本】按钮;
在这里插入图片描述
【选择个案:随机抽样】——基于近似百分比或精确的个案数来随机抽取样本——我们这个例子选择:采用近似百分比的方式抽取——【大约】后输入:20——表示定义随机抽取大约20%的样本量——继续——返回【选择个案】——确定。
在这里插入图片描述
在这里插入图片描述
这样我们就完成了随机抽样,大约20%的样本量。
如图,SPSS在数据表最后一列新增filter_$变量,0表示记录未被选中,1表示记录被选中抽取
同时,对没有选中抽取的记录号使用斜线 " / " 进行标记,在不关闭SPSS的情况下,后续的其他数据操作都仅对选中抽取的记录进行分析。

如果希望将抽样得到的数据单独存为一份新的数据文件,用于其他数据分析,则可以在第3步返回的【选择个案】对话框的【输出】框中,选择【将选定个案复制到新数据集】项,并定义输入一个数据集名称,单击【确定】按钮后,抽样得到的数据将以一个新的SPSS数据窗口存放,最后将数据保存即可得到一份新的数据文件。

补充:
在这里插入图片描述
数据处理-未完待续~~
在这里插入图片描述


http://chatgpt.dhexx.cn/article/0fa9tDox.shtml

相关文章

SPSS怎么筛选无效数据

我们在用IBM SPSS进行数据分析的时候,经常会遇见这样一种情形,想把不符合自己分析要求的数据全部筛掉。我们把这些要筛掉的数据叫作无效数据,无效数据不筛选掉不但会降低分析的效率,而且会影响最终结果的准确性。 要想提高准确性…

SPSS学习笔记

什么都写 插入个案:指一行 插入变量:指一列 设置 语言 编辑->选项 语言中可以选择输出的语言和界面的语言 变量定义 左下角切换到变量视图,可以修改变量的属性 1.类型可选,注意会影响到后面测量中的选项,如…

SPSS数据插补方法

问题:ArcGIS多值提取至点的数据有很多缺失值 这是对多个区域分区统计后的结果,由于ET的质量不高,所以有很多缺失值 那么,怎样才能将这些值进行插补成我们认为可靠的格式呢? 第一步-将arcgis多值提取至点的数据整理成…

python数据导入spss_spss-数据抽取-拆分与合并

数据抽取也成为数据拆分,是指保留、抽取原数据表中某些字段、记录的部分信息,形成一个新字段、新纪录。分为:字段拆分和随机抽样两种方法。 一:字段拆分 如何提取“身份证号码”字段。身份证号码里面包含了许多信息,…

SPSS数据清洗

SPSS数据清洗 关于spss对数据的清洗,就是将多余重复的数据筛选清楚,将确实的数据补充完整,将错误的数据纠正活删除。 下面主要内容是关于最常用的重复数据操作: 首先在spss中导入需要去重的数据: 选择数据菜单&…

SPSS读取数据文件

1.读取Excel数据文件 (1)选择“文件”-“打开”-“数据”,在弹出的“打开数据”对话框下选择Excel文件,如图所示 (2)选择要打开的Excel文件,点击“打开”,如图所示 (3)可…

SPSS读取数据出现中文字符显示乱码的解决方案

在打开数据标签中含有中文字符的SPSS数据文件时,由于编码问题有时会出现乱码的状况。譬如下图;但是尝试过单纯修改字符的字体之后并未能解决乱码问题。但值得注意的是,本人在打开文件的时候spss提示由于字符的长度等因素,因此需要…

r语言导入spss数据_R语言如何导入数据

在使用R的时候,我们肯定需要导入数据,现在总结一下如何导入不同类型的数据: 1.使用键盘输入数据 在导入数据比较少的时候,我们使用这种方法。R中的函数 edit() 会自动调用一个允许手动输入数据的文本编辑器。具体步骤如下: (1) 创建一个空数据框(或矩阵) ,其中变量名和变…

spss之数据预处理

目录 问题思考: 二、缺失类型 完全随机缺失(MCAR) 随机缺失(MAR) 非随机缺失(MNAR) 三、缺失值填补的方法 完整观测数据分析 填补: 单值插补 多重插补 四、缺失值填补的过程 描述缺失值的模式 …

matlab数据导入 spss,【excel数据导入系统】excel数据导入_excel数据导入spss-系统城...

2017-02-15 16:28:13  浏览量:283 excel的功能十分强大,它能够帮助我们更快地编辑处理数据。不过,一些初学者表示自己并不太会使用一般的导入数据库技巧。这该怎么办呢?接下来,小编就以windowsxp系统为例,给大家带来excel表格数据导入数据库的方法,供大家参考。 2016-…

php 集成 spss,spss怎么导入数据

spss导入数据的方法:1、打开数据;2、选择类型;3、打开类型数据;4、编辑;5、处理数据;6、选择数据;7、打开数据。 本文操作环境:Windows7系统,SPSS20.0版本,De…

spss变量视图转数据视图_教大家SPSS如何导入数据进行分析

近日有关于SPSS如何导入数据进行分析的问题受到了很多网友们的关注,大多数网友都想要知道SPSS如何导入数据进行分析的具体情况,那么关于到SPSS如何导入数据进行分析的相关信息,小编也是在网上进行了一系列的信息,那么接下来就由小编来给大家分享下小编所收集到与SPSS如何导…

处理数据spss乱码

一、现象 通过数据分析软件处理后的数据(文件是csv格式编码是utf8) ,到了Python处理(这里用的是python2)后竟然乱码了,具体表现就是汉字乱码,用csv打开后无法显示正常的汉字,然后csv串位。 二、分析 1.乱码首先我想到…

spss导入数据 error:对于当前服务器语言环境而言,文本过长

这是因为文件路径太长了,文件放的太深了 复制到桌面上,再导入就欧克了

SPSS打开正常,导入数据后无反应

这是我导入数据后正常显示页面,导入无反应可能没有最后几行。其中很大可能是正常数据前存在大量的空格哈

SPSS学习(1)之数据录入与数据获取

SPSS系列文章是本人根据张文彤的《SPSS20.0统计分析基础教程第2版》学习SPSS中学习笔记,仅作参考和学习。 在SPSS中建立数据文件大致有两种情况: 一种是非电子化的原始数据资料,需要直接将调查问卷中的数据录入SPSS软件,建立数据…

【SPSS】第3讲学习笔记——数据导入和查看

1.除了自己手动定义变量、输入数据,还可以进行数据的导入 2.文件——打开——数据 3.打开数据窗口中,可以查看SPSS支持的多种数据类型 其中,常用的格式有:Excel的xls格式、txt文本格式、dBase的dbf格式等 4.选择Excel格式的数…

(一)Linux ALSA 音频系统:物理链路篇

物理链路篇 转自:https://me.csdn.net/zyuanyun Linux ALSA 音频系统:物理链路篇 Linux ALSA 音频系统:物理链路篇 原创 zyuanyun 最后发布于2017-03-01 22:16:29 阅读数 13482 收藏 发布于2017-03-01 22:16:29 分类专栏: Lin…

Android 中的混音器 AudioMixer 实现分析

Android framework 的音频处理模库 libaudioprocessing (位于 frameworks/av/media/libaudioprocessing) 提供了混音器组件 AudioMixer,它主要用在 audioflinger 里,用来将多路音频源数据混音,以方便送进音频设备播放出来。 音频混音操作本身…

JRTPLIB@Conference DIY视频会议系统

------------------------------------------------------------------------------------------------------------------------------ JRTPLIBConference DIY视频会议系统 一、开编 转自 http://wmnmtm.blog.163.com/blog/static/382457142011540719318/?suggestedreadin…