多元统计及R语言案例分析 (主成分和因子分析对学生成绩神秘联系分析)

article/2025/6/7 0:18:51

        嗨喽! 大家好,我是“流水不争先,争得滔滔不绝”的翀,18双非本科生一枚,正在努力!欢迎大家来交流学习,一起学习数据分析,希望我们一起好好学习,天天向上,目前是小社畜一枚~~

案例1主题: 主成分分析及学生成绩神秘联系分析

案例2主题: 因子分析及学生成绩神秘联系分析

案例一:目的与内容
学生的考试是评估学生的学习程度及能力,当我们只想知道学生的学习程度如何时,可借由一份良好的试卷来测验出学生的学习程度分布状况。可是怎样才是一份良好的试卷呢?当然是学习程度好的学生所考的成绩较高,而学习程度差的学生成绩较低,亦即试卷能真正反映出学生学习程度差异的真实分布情况。想作一个总体性学习状况比较时,便可以用主成分分析来找出主成分,本文中的学生神秘成绩联系主成分分析是由六科成绩线性组合而成的新变量,可以帮助我们看出学生的六科科学习成绩状况的综合指标,老师可以根据这来发现学生成绩的变化,及时有效发现学习的问题,帮助学生提高成绩,促进教学相长。老师是人类的灵魂工程师。少年强则国强,所以这内容是极具意义的。

案例二:目的与内容
因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的变量来解释原始变量之间的相关性关系。
因子分析的主要用途在于:1 减少分析变量个数;2 通过对变量间相关关系的探测,将原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。在本文中,将用因子分析来帮助学生成绩这几门科目的相关性是否真的有可能由文科和理科来刻画。
三、主成分分析上机步骤与上机结果
数据准备
在这里插入图片描述
数据包含52名学生6个学科的成绩

案例一主成分分析

样本主成分分析实现过程

(1)将原始数据标准化,以消除变量间在数量级和量纲的不同。
(2)求标准化数据的相关矩阵。(ps:存放数据test_score文件的路径各有不同,所以要先用setwd(“文件路径”)设置好路径)
在这里插入图片描述在这里插入图片描述(3)求相关矩阵的特征值和特征向量
在这里插入图片描述 (4)计算方差贡献率和累积方差贡献率
在这里插入图片描述Standard deviation:方差 comp.1到comp.6对应的方差就是它们的信息量 即是我们 所说的特征值,对应的标准差就是方差开平方

Proportion of Variance: 方差的占比

Cumulative Proportion 累积方差贡献率

(5)确定主成分
如上图,用两个主成分,累积的方差贡献率就变成了82.87左右,我们认为已经是一个比较高的数值
所以我们这就采用前两个主成分就可以了
在综合指标只要选取前两个这里插入图片描述综合指标只要选取前两个

(6)用原指标的线性组合来计算各成分得分
在这里插入图片描述(Ps:数据中的六科Y1、Y2、Y3、Y4、Y5、Y6分别是数学、物理、化学、语文、历史、英语)在这里插入图片描述 z1可以理解为文科的平均情况减去理科的平均情况,数值越大说明文科的成绩越好,数值越小,反之理科越好,z1刻画的是一个偏科的情况
z2是一种相对均衡的情况,类似我们通用所使用的平均分,称为均衡表现

四、讨论分析
进一步探索一些典型学生的样本主成分取值/得分
在这里插入图片描述下面行依次是6、7、45、30、49、26、33、8号同学成绩的情况
在这里插入图片描述红色框:可以看到是一个挺大的数据,上面可以说是文科减理科的情况,越大说明是文科越好,越小说明理科越好,所以6,7,45号学生应该是;理科成绩比文科好,看一下原始数据,确实是这样
原始数据
蓝色框:同样如此,应该是文科比理科好很多,原始数据如下
在这里插入图片描述
绿色框:从第二个主成分指标看,是一个负数,因为第二个主成分前面都是负号,所以它越小越负,说明本身成绩应该是挺高的,均衡成绩应该是挺高的,看一下原始数据
在这里插入图片描述
黄色框:可以看到是一个很大的整数,那么他的总成绩本身真的不高
在这里插入图片描述
碎石图

在这里插入图片描述
另外一种方法选取多少个主成分比较合适
主成分总结

数据降维
通常我们会用少于原始变量数的主成分来描述尽可能多的数据差异,特别是当原始变量维度很高时,可以达到将维目的。

构建综合指标
主成分分析主要用于构建综合指标来区分目标群体,例如构建顾客各种消费行为的综合指标进行客户分级

四、因子分析上机步骤与上机结果
查看相关系数矩阵
在这里插入图片描述
猜想:大体上前面三个好像更相关一点,后三个更相关一点。所以暂时将因子模型定位下面这个样子
在这里插入图片描述
用极大似然法来估计载荷矩阵:
在这里插入图片描述
factanal是Factor analysis的意思,factors保留两个公共因子,如下图可以看到累积的方差贡献率是0.745
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200526093910459.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2pjamlj,size_16,color_FFFFFF,t_70

通过自定义程序包尝试主成分法:
在这里插入图片描述
可以看到累积方差达到了82.87,是比用极大似然法估计来得好的,也许极大似然法是基于分布的,分布并不是那么得正态,所以后续倾向于主成分法来讨论分析。主成分法如果没有经过旋转,它的载荷矩阵是这个样子(如下图)。
在这里插入图片描述
可以看出解释并不是那么明显,不知道每个因子到底是什么意思,所以使用旋转因子的方法
计算旋转因子载荷:
在这里插入图片描述

可以看到经过旋转,累积方差贡献率没什么变化,但是两个因子它的载荷变了很多,可以看到第一个公共因子它基本主要决定Y4,Y5,Y6,第二个公共因子主要在决定前三个,剩下的值都很少,我们可以忽略掉,这个就告诉我们一种比较简便的方法
解释第一个和第二个因子,第一个找后三个变量的共同点,分别是语文,英语,历史的,是文科,第二个分别是数理化,理科。
在这里插入图片描述

旋转过后的因子空间里面,两个坐标轴都经过很多的点,都是靠近坐标轴。
因子旋转的作用
经过旋转以后,因子的意义更加清晰
在这里插入图片描述
所以我们基本上是可以通过我们的相关性和因子分析,把我们的变量分成两类,一类是语文,历史,英语,是文科(一定程度上),一类是数学,物理和化学,是理科。通过这个案例可以得出这样将科目分为文科,理科是合理的,通过它的相关性,通过学生在这些科目当中的表现。

计算样本因子得分
在这里插入图片描述
可以看出有些同学文科好,有些理科好,有的都挺好,有的都挺差
画图展示
在这里插入图片描述

第一个横轴就是文科,对应的是第一个公共因子,第二轴是y轴,是理科因子
如上图,我们可以分析出一些学霸,学渣的结论,偏科情况
五、主成分分析与因子分析综合对比讨论分析

在这里插入图片描述

总结

专栏学习

01 【数据分析实战项目】: 无人智能售货机商务分析、 线上课程智能推荐、 学术前沿趋势分析

02 【算法--数据挖掘】: 机器学习----吃瓜教程!、 集成学习、 深度学习 学术前沿趋势分析

03 【天池数据挖掘竞赛】: 心电信号多分类分类、 新闻推荐入门赛系统项目

04 【Python数据分析】: Numpy 数值计算基础、 Matplotlib 数据可视化基础、 Pandas 统计分析基础、 Pandas 进行数据预处理、 scikit-learn 构建模型

往期精彩内容

01 【常见的数据分析师的面试问题】: 基础知识考查、概率论与数理统计、数据挖掘、常见模型介绍、数据分析师工作必备技能等等

02 【基于条件随机场模型的中文分词】: 中文分析、python代码实现

03 【 Github开源项目】: Github开源项目 数分/数挖学习路线

       欢迎关注我,一起交流学习探索数据分析的世界,洞察数据!努力接受社会毒打~~

@翀- 我的博客主页

文章来源:https://blog.csdn.net/jcjic/article/details/106348281
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://chatgpt.dhexx.cn/article/qixqFJMg.shtml

相关文章

超详细SPSS主成分分析计算指标权重(一)

一、指标权重计算确定的困惑 相信很多写过或者正在写指标处理类论文的朋友都曾对如何计算指标权重充满困惑,到底是用熵值法,还是主成分分析法?或者其他各种看起来奥妙无穷却难以上手操作的神奇方法?好不容易确定要选用主成分分析…

一文读懂 主成分分析 与 因子分析

2023-2-20更新:  修改了一些文字错误,优化了排版,增加了一些拓展内容,祝大家学业有成!(期待三连😁😁) 目录 一、 主成分分析二、因子分析三、多元共线性问题简介3.1 多…

主成分之综合竞争力案例分析

一、案例背景 1.案例说明 研究调查100家公司2010-2013年关于财务方面的具体数据,这些财务指标维度分别为盈利能力、偿债能力、运营能力、发展能力以及公司治理。其中每个维度分别有几个分析项,但是有些指标是越大越好,有些指标是越小越好。…

数据分析,主成分分析例题

已知协方差矩阵求X的各主成分以及主成分的贡献率 主成分分析 原理:找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,且彼此之间互不相关 统计方法:主成分分析(主分量分析&…

主成分分析PCA案例及原理

1. 主成分分析PCA案例 https://blog.csdn.net/goodshot/article/details/78080220 http://www.cnblogs.com/zhangchaoyang/articles/2222048.html 附: 使用上方链接的解释: 2. 主成分分析(PCA)原理总结http://www.cnblogs.com/pinard/p/623…

主成分分析简单例子

一、数据降维 对于现在维数比较多的数据,我们首先需要做的就是对其进行降维操作。降维,简单来说就是说在尽量保证数据本质的前提下将数据中的维数降低。降维的操作可以理解为一种映射关系,例如函数,即由原来的二维转换成了一维。处…

spss分析方法-主成分分析

spss分析方法-主成分分析(转载) 主成分分析利用的是“降维”的思想,利用原始变量的线性组合组成主成分。在信息损失较小的前提下,把多个指标转化为几个互补相关的综合指标。下面我们主要从下面四个方面来解说: 实际…

主成分分析案例

去百度文库上一搜,是很老的题目了。这里所做的只是准备工作,为后面更多的数据处理做准备。 例题 1.对原始资料矩阵进行标准化处理 zef_data xlsread(chengshi.xls); z zscore(zef_data) z 1.1977 0.7149 0.6674 1.1390 0.9189 3.111…

快速搞定PCA(主成分分析)(原理 代码 案例)

目录 一、基本介绍 1.1原理 1.2主成分分析的几何解释 1.3主要步骤 1.4主成分个数的选取原则 二、主成分分析代码 2.1MATLAB代码 2.2Python代码 三、实用案例 一、基本介绍 1.1原理 主成分分析是最常用的线性降维方法,通过某种线性投影,将高维的数…

【机器学习】主成分分析实现案例 (PCA)

一、说明 这篇文章的目的是提供主成分分析(PCA)的完整和简化的解释。我们将逐步介绍它是如何工作的,这样每个人都可以理解并使用它,即使是那些没有强大数学背景的人。 PCA是网络上广泛覆盖的机器学习方法,并且有一些关…

什么是主成分分析?经典案例解析变量降维

1、作用 主成分分析将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维后的各变量间彼此线性无关,最终确定的新变量是原始变量的线性组合,且越往后主成分在方差中的比重也小&…

比较两篇文章的相似性方法

对于这个题目,开始毫无头绪,后来经过查阅资料现在讲方法总结如下: 1、利用余弦定理 我们知道向量 a,b之间的夹角可用余弦定理求得: 如果夹角的余弦值越小,那么夹角也越大。如果2个向量相等,那么其值为1。利…

Python案例分析|文本相似度比较分析

本案例通过设计和实现有关文本相似度比较的类Vector和Sketch,帮助大家进一步掌握设计Python类来解决实际问题的能力。 01、文本相似度比较概述 通过计算并比较文档的摘要可实现文本的相似度比较。 文档摘要的最简单形式可以使用文档中的k-grams(k个连…

计算机如何判断两篇文章相似性

这个仍然是极客时间上,关于《索引技术核心20讲》的一篇笔记同时结合自己的理解加了点料,这个专栏虽然只有20讲,但是真不错,老师解答问题还是很积极,回答字数经常比问题字数多。有兴趣的朋友可以到我星球(在…

ai写文章检测原理(文章相似度检测)

小编来了!今天要和大家聊一聊关于ai写文章检测原理的评测对比。究竟哪种方法更加高效准确呢?让我们一起来看看吧! 概括:本文将从多个角度对ai写文章检测原理进行评测对比,包括算法准确性、速度、自动化程度、用户体验…

【跨语言剽窃检测】文本相似度分析之一

对比文件1: 2010年的跨语言剽窃检测新方法 作者RaFael Corezola Pereira instituion : UFRGS 摘要: 作者提出一个跨语言剽窃检测新方法,分为5个主要阶段: languange normalization、retrieval of candidate documents、classfier …

文本相似度综述

本文目录 文本相似度的定义文本相似度计算方法基于字符串的方法基于语料库的方法基于词袋VSMLSA、PLSALDA(需要进一步了解) 基于神经网络基于搜索引擎 基于世界知识基于本体基于网络知识 其他方法句法分析混合方法 文本相似度的定义 其中, common&#x…

JAVA-计算两篇文章的相似度

1.场景: 在很多公司的文件管理系统中,都有类似于对比多篇文章的相似度,例如在写公众号推文时,如果标记了原创,就会对比当前文章和库里已存在文章的相似程度,如果相似度过于高,则标记为原创的文章…

免费好用的文章相似度检测软件推荐

相信很多人在写作的时候都会遇到这样的问题,就是怕自己写出的文章被抄袭。为了保证自己的原创性,我们需要使用一些文章相似度检测软件来帮助我们检测文章是否被抄袭。那么,有哪些免费好用的文章相似度检测软件呢?下面就为大家介绍…

判断两篇文章的相似度

判断相似度 基于jieba 关键字提取的方法textrank关键字的提取代码:tf-idf关键字的提取代码:统计数据统计数据的代码:完整代码: 基于jieba 关键字提取的方法 textrank 1,将待抽取关键词的文本进行分词 2,以…