『统计学』常用的数据分析方法都在这了!Part.2

article/2025/7/5 16:19:12

阿平 | 作者

知乎 | 来源


1

相关分析

研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

  • 单相关两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量

  • 复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关

  • 偏相关在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关

2

主成分分析


主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

1. 原理

在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。

2. 缺点

在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。

主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

3

因子分析

一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法。

1. 与主成分分析比较

  • 相同:都能够起到治理多个原始变量内在结构关系的作用

  • 不同:主成分分析重在综合原始变适的信息;而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

2. 用途

  • 减少分析变量个数

  • 通过对变量间相关关系探测,将原始变量进行分类

4

信度分析

信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。

1. 方法

 重测信度法编辑 

这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。

重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。

由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。

 复本信度法编辑 

让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数

复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。

 折半信度法编辑 

折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。

这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。

在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表(李克特量表(Likert scale)是属评分加总式量表最常用的一种,属同一构念的这些项目是用加总方式来计分,单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成,每一陈述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五种回答,分别记为5、4、3、2、1,每个被调查者的态度总分就是他对各道题的回答所得分数的加总,这一总分可说明他的态度强弱或他在这一量表上的不同状态。)。

进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式:求出整个量表的信度系数(ru)

 α信度系数法 

α信度系数是目前最常用的信度系数,其公式为:α=(k/(k-1))*(1-(∑Si^2)/ST^2)

其中,K为量表中题项的总数, Si^2为第i题得分的题内方差, ST^2为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。

总量表的信度系数最好在0.8以上,0.7-0.8之间可以接受;分量表的信度系数最好在0.7以上,0.6-0.7还可以接受。Cronbach 's alpha系数如果在0.6以下就要考虑重新编问卷。用于检査测量的可信度,例如调查问卷的真实性。

2. 分类

  • 外在信度:不同时间测量时量表的一致性程度,常用方法重测信度

  • 内在信度:每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度

5

列联表分析

列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。

1. 简介

若总体中的个体可按两个属性A、B分类,A有r个等级A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为频数,将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。

列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。用于分析离散变量或定型变量之间是否存在相关。

列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立

如在前例中,问题是:一个人是否色盲与其性别是否有关?在r×с表中,若以pi、pj和pij分别表示总体中的个体属于等级Ai,属于等级Bj和同时属于Ai、Bj的概率(pi,pj称边缘概率,pij称格概率),“A、B两属性无关联”的假设可以表述为H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi、pj的最大似然估计(见点估计)分别为行和及列和(统称边缘和)为样本大小。根据K.皮尔森(1904)的拟合优度检验或似然比检验(见假设检验),当h0成立,且一切pi>0和pj>0时,统计量的渐近分布是自由度为(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n称为期望频数。当n足够大,且表中各格的Eij都不太小时,可以据此对h0作检验:若Ⅹ值足够大,就拒绝假设h0,即认为A与B有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉之间存在某种关联。


2. 需要注意

若样本大小n不很大,则上述基于渐近分布的方法就不适用。对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显著性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。

对于二维表,可进行卡方检验;对于三维表,可作Mentel-Hanszel分层分析

列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

END -

本文为转载分享&推荐阅读,若侵权请联系后台删除

●Python数据可视化教程实战!

●取数,取数,取个屁啊!

后台回复“入群”即可加入小z数据干货交流群

http://chatgpt.dhexx.cn/article/La8CQ5MK.shtml

相关文章

常用数据分析方法总结

最近优化一个画像产品,用到一些数据分析方法,这里总结一下。 主要参考:https://www.jianshu.com/p/809fb2261b23 ,补充一些细节 一、描述统计 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并…

阅读《Unsupervised Evaluation of Interactive Dialog with DialoGPT》

Unsupervised Evaluation of Interactive Dialog with DialoGPT 目录 Abstract 1 Introduction 2 Related Work 2.1 Automatic Dialog Evaluation 2.2 Dialog Qualities 2.3 Pre-trained Dialog Models 3 Data Collection 3.1 Turn-Level Annotation 3.2 Dialog-Level Annotati…

循证护理教育中的移动辅助同伴评估方法

摘要: 学习循证护理的学生可以帮助医疗保健团队做出适当的医疗决策,并为患者提供有价值的建议,从而优化特定情况下的患者护理质量。在临床工作中,护理人员通过搜索相关的经验性护理文献来参与决策,这是进入临床实践所需…

期末考试复习笔记(标红表示重要)

目录 相关系数的比较 数据的类型 回归模型的统计检验与统计意义 参数检验 非参数检验 统计距离 量表 李克特量表 权重 聚类图分析 聚类分析简介 聚类的用途 聚类方法 两步聚类法(TwoStep Cluster) 箱线图分析 中心位置的作用 伪相关 标准化的性质 受&#xf…

如何换算不同等级的李克特量表(5级、7级、10级等)

※ 版权所有,转载请联系作者 ※ 在做量表问卷的时候,会发现有些问卷是5级李克特量表(5-point Likert scale),有的是7级李克特量表(7-point Likert scale),有的为了更好的得到结果使…

冷门暴利副业!成本2000,一月稳赚3万

大叔最近认识一位95后女孩,年纪轻轻,生意却做得红红火火。 大叔对挣钱的事情都特别有兴趣,好奇打听了一下这个姑娘到底做的是哪们子生意。 这一打听真是让我大开眼界,对现在年轻人的赚钱思维、生意直觉,很是佩服。 这姑…

王思聪创办的熊猫直播将于3月8日正式关站,这会是直播行业的落幕吗?

直播的风口已经过了,巨头的斗争才刚刚开始,如果没有强大的资金,灭有足够的吸引人的产品和人气所支撑,那么未来势必会有一个优胜劣汰的循环和淘汰模式出现!所以从策略上上来看,王思聪校长应该是选择退出&…

OSChina 周五乱弹 —— 女装大佬可以放假嘛

2019独角兽企业重金招聘Python工程师标准>>> Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 -冰冰棒- :#今日歌曲推荐# 吃煲仔饭,突然响起了回忆中的旋律, Westlife《Soledad》(《紫藤花…

斗鱼App全网下架,官方表示内部优化调整,真实原因是...

微信又改版了,为了方便第一时间看到我们的推送,请按照下列操作,设置“置顶”:点击上方蓝色字体“程序员之家”-点击右上角“…”-点击“设为星标”。 可以啦,让我们继续相互陪伴。 最近直播平台事儿有点多。 前几天晚上…

低代码的价值,短期被高估,长期被低估

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 01 低代码为什么这么火? 低代码之所以火起来,背后是有原因的,K哥稍作了些分析。 从外因来讲,疫情导致中小企业数字化转型的进程被提前。以传统餐饮行业为…

董明珠想圆手机梦,靠王自如可不够

NEW 关注Tech逆向思维视频号 最新视频→【摆脱焦虑告别烦恼,家装变局让消费者更从容】 出品|连线Insight 文|张霏 编辑|李信 距离上一款格力手机上架不到一年,格力新一代手机又入网了。 近日,据微博博主熊…

被劝退了

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 昨天,有位读者小G被所在的公司劝退了,让我给他支支招。 小G在那家公司呆了将近3年,合同马上到期了,但是公司不打算跟他续签,让他尽快找工作。…

企业级无代码,掀起10倍速效率革命!

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 老K先后写了10几篇关于低代码、零代码的文章,读者们对概念应该不陌生,本文要聊的话题是:企业级无代码。也许你会觉得,老K是不是又要造新词、搞噱头&…

被渣女骗了

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 我的好友搞钱大叔,上周跟他交往3年的女友分手了。 别看搞钱大叔年轻多金、开保时捷、风流倜傥,其实他是个很重感情的人,感情经历也不是很多,大概谈了有1…

虎牙归顺斗鱼隐,这是游戏的失败和腾讯的胜利

孙悟空擅长翻跟头,据说一个跟头可以翻十万八千里。但翻至天边,依然在如来的掌心之中。 2016年,直播平台乘着风口,携资本之威,轰轰烈烈地搞出了千播大战的盛况。 王思聪带着熊猫,励志要搭建一个文娱帝国&…

9 .文件操作相关

第二模块 函数&模块 从现在开始,我们将进入系列课程第二模块的的学习。 第一模块主要是学习python基础知识,从第二模块开始就可以通过程序去解决工作中实际的问题。 从今天开始,我们将进入第二模块的学习,此模块主要包含两大…

城中村里“野生女主播”的不堪生活!

小C是我朋友,第一次遇见她是在广州华南师范大学的英语角,那天是周五晚,她一袭长裙,皮肤白皙,时髦的打扮在一众学生中显得十分耀眼。她英文差,我英文也不好,于是一句英文一句中文,也聊…

在燃烧的远征寻找冰封王座:电竞之春下的游戏直播

今年的S8已经进入了全球总决赛阶段,在相关数据统计当中,光是入围赛第一阶段,最高观看人数就达到了五千多万人,创了历史新高。而刚刚结束的Ti8全程的观看人数峰值上涨了36%以上,从1093万增至1496万。人人嘴上喊着LOL老了…

「星际崛起」精彩瞬间,直播间万元奖品大放送

Odaily星球日报联合36kr、麦客存储、IPFS中国社区于 7 月 22 日举办「星际崛起——IPFS技术与分布式存储生态云峰会」。 这是一场与 IPFS 共同探索财富密码的极速旅程。除了本次云峰会干货内容,我们还整理了本次云峰会的直播数据跟大家分享。 本次活动为了方便大家更…

各大直播平台主播的收入计算方式是怎样的?

直播网站到底如何盈利呢?先聊一聊最近直播界的跳槽新闻,原来在斗鱼做炉石传说的主播安德罗妮和他的夫人一起跳槽到了虎牙TV三年年薪1个亿,也就是夫妻两人一年3000万年薪。 另一个,英雄联盟前职业选手PDD从战旗跳槽到熊猫五年3个亿,也就是一年…