R语言IRT理论:扩展Rasch模型等级量表模型lltm、 rsm 和 pcm模型分析心理和教育测验数据可视化

article/2025/9/28 3:51:20

最近我们被客户要求撰写关于IRT理论的研究报告,包括一些图形和统计输出。

摘要

我们首先介绍扩展 Rasch 模型的方法论,然后是一般程序描述和应用主题,包括简单的 Rasch 模型、评级量表模型、部分信用模型及其线性扩展。这种线性结构的结合允许对协变量的影响进行建模,并能够分析重复的分类测量。

简介

Rost (1999) 在他的文章中声称,“尽管 Rasch 模型已经存在了这么长时间,但目前 95% 的心理学测试仍然是使用经典测试理论的方法构建的”。基本上,他引用了很少使用 Rasch 模型 (rm) 的以下原因: 原始形式的 Rasch 模型 (Rasch 1960) 仅限于二分项,对于实际测试目的而言,可以说限制性太强。因此,研究人员应该关注扩展的 Rasch 模型。

除了基本的 rm,可以计算的模型有:线性逻辑检验模型 (Scheiblechner 1972)、评级量表模型 (Andrich 1978)、线性评级量表模型 (Fischer and Parzer 1991)、部分信用模型(Masters 1982)和线性部分信用模型(Glas 和 Verhelst 1989;Fischer 和 Ponocny 1994)。

扩展 Rasch 模型

一般表达

Andersen (1995) 推导出以下表示,这些表示基于 Rasch 对多组数据的一般表达式。数据矩阵表示为 X,行中的人 v 和列中的项目 i。总共有 v = 1, ..., n 个人和 i = 1, ..., k 项。数据矩阵 X 中的单个元素表示为 xvi。此外,每个项目 i 都有一定数量的响应类别,用 h = 0, ..., mi 表示。对项目 i 的响应 h 的相应概率可以根据以下两个表达式导出(Andersen 1995):

或者

这里,φh 是项目参数的评分函数,θv 是一维人参数,βi 是项目参数。在等式 1 中,ωh 对应于类别参数,而在等式 2 中,βih 是项目类别参数。

扩展 Rasch 模型的表示

对于二分项的普通 Rasch 模型,等式 1 简化为

主要假设,也适用于本文提出的概括,是:潜在特征的单维性、原始分数的充分性、局部独立性和平行项目特征曲线 (iccs)。相应的解释可以在 Fischer (1974) 中找到,在 Fischer (1995a) 中可以找到数学推导和证明。

对于二分项,Scheiblechner (1972) 提出了(更受限制的)线性逻辑检验模型 (lltm),后来由 Fischer (1973) 形式化,通过将项目参数拆分为线性组合

请注意,项目 i 和操作 j 的权重 wij 必须先验地固定。关于认知操作的进一步阐述可以在 Fischer (1974, p. 361ff.) 中找到。因此,从这个角度来看,lltm 比 Rasch 模型更简洁。

不过,还有另一种看待 lltm 的方法:基本 Rasch 模型在重复测量和组对比方面的概括。需要注意的是,两种类型的重新参数化也适用于线性评级量表模型(lrsm)和线性部分信用模型(lpcm),相对于下面介绍的基本评级量表模型(rsm)和部分信用模型(pcm) . 关于 lltm,Fischer (1974) 已经介绍了将其用作 Rasch 模型的推广以进行重复测量的可能性。在随后的几年中,这一建议得到了进一步的阐述。

在这一点上,我们将专注于 Rasch 模型的简单多分类推广,即 rsm (Andrich 1978),其中每个项目 Ii 必须具有相同数量的类别。对于等式 1,可以将 φh 设置为 h,其中 h = 0, ..., m。由于在 rsm 中项目类别的数量是恒定的,因此使用 m 而不是 mi。因此,由此得出 

具有 k 个项目参数 β1, ..., βk 和 m + 1 个类别参数 ω0, ..., ωm。此参数化导致对单个项目的响应类别 Ch 进行评分。项目参数可以像方程 4 中那样以线性组合进行拆分。

最后,介绍了 Masters (1982) 开发的 pcm 及其线性扩展 lpcm (Fischer and Ponocny 1994)。pcm 为 h = 0, ..., mi 的每个 Ii ×Ch 组合分配一个参数 βih。因此,恒定评分属性不能保留项目,此外,项目可以具有不同数量的响应类别,由 mi 表示。因此,pcm 可以被视为 rsm 的推广,并且人 v 对类别 h(项目 i)的响应的概率定义为

很明显,(6) 是 (2) 在 φh = h 方面的简化。至于lltm和lrsm,lpcm是通过重新参数化基本模型的item参数来定义的,即

应用示例

在以下小节中,提供了与不同模型和设计矩阵场景相关的各种示例。由于可理解性问题,数据集保持相当小。

示例 1:Rasch 模型

我们从一个基于 100×30 数据矩阵的简单 Rasch 模型开始示例部分。首先,我们估计项目参数,然后估计人员参数。

然后我们使用 Andersen 的 LR 检验与平均分割标准进行拟合优度:

> lrre

我们看到模型拟合,并且该结果的图形表示(仅项目子集)在图  中通过带有置信椭圆的拟合优度图给出。

> plotGOF(lrres.rasch, beta.subset = c(14, 5, 18, 7, 1), tlab = "item",
+ conf = list(ia = FALSE, col = "blue", lty = "dotted"))

为了能够绘制置信椭圆,需要在计算 LR 测试时设置 se = TRUE。

示例 2:lltm 作为受限 Rasch 模型

对项目参数进行线性扩展的模型也可以看作是其底层基本模型的特例。事实上,下面提出的 lltm 并遵循 Scheiblechner (1972) 的原始想法,是一个受限的 rm,即与 Rasch 模型相比,估计参数的数量更小。数据矩阵 X 由 n = 15 个人和 k = 5 个项目组成。此外,我们指定具有特定权重元素 wij 的设计矩阵 W。

> retm <- LLTM(lt2, W)
> summary(resm)

summary方法为基本参数和结果项目参数提供点估计和标准误差。请注意,项目参数始终根据等式 1 和 2 而不是 3 估计为容易度参数。

示例 3:rsm 和 pcm

同样,我们现在提供一个人工数据集,其中 n = 300 人,k = 4 个项目;他们每个人都有 m + 1 = 3 个类别。我们从 rsm 的估计开始,随后,我们计算相应的类别交叉参数。


> thresholds(resm)

位置参数基本上是项目难度,阈值是图 4 中给出的 icc 图中类别曲线相交的点:

> plotICC(res.rsm, mplot = TRUE, legpos = FALSE, ask = FALSE)

rsm 将所有项目的阈值距离限制为相同。使用 pcm 可以放宽这个强假设。结果以人员-项目地图表示(参见图 5)。

> res.pcm <- PCM(pcmdat2)
> plotPImap(res.pcm, sorted = TRUE)

在估计人员参数后,我们可以检查项目拟合统计信息。

itemfit(pcm)

 比较 rsm 和 pcm 的似然比检验表明 pcm 提供了更好的拟合。


> pvalue <- 1 - pchisq(lr, df)

用于在不同组中重复测量的 lpcm

最复杂的示例是指具有两个测量点的 lpcm。此外,对于治疗是否有效的假设也很有趣。相应的对比是下面 W 中的最后一列。首先,指定数据矩阵 X。我们假设一个由 k = 3 个项目组成的人工测试,该测试向受试者展示了两次。X 中的前 3 列对应于第一个测试场合,而后 3 列对应于第二个场合。通常,前 k 列对应于第一个测试场合,接下来的 k 列对应于第二个测试场合,依此类推。总共有 n = 20 个科目。其中,前10人属于第一组(如对照组),后10人属于第二组(如实验组)。这由组向量指定:

> grouplpcm <- rep(1:2, each = 10)

同样,W 是自动生成的。通常,对于此类设计,W 的生成首先包括项目对比,然后是时间对比,最后是除第一个测量点之外的组主效应(由于可识别性问题,如前所述)。

> rm <- LPCM
> model.matrix

参数估计如下:

> coef

 

检验 η 参数是否等于 0 与那些涉及项目的参数(在本例中为 η1,...,η8)几乎无关。但是对于其余的对比,H0 : η9 = 0(意味着没有一般时间效应)不能被拒绝(p = .44),而假设 H0 : η10 = 0 在应用 z 时必须被拒绝(p = .004) -检验。这表明在测量点上存在显着的实验效果。如果用户想要执行额外的检验,例如两个 η 参数的等价性的 Wald 检验,可以应用 vcov 方法来获得方差-协方差矩阵。

讨论与展望

cml 估计方法与 em 算法相结合,也可用于估计混合 Rasch 模型 (MIRA)。这种模型背后的基本思想是扩展的 Rasch 模型适用于个体的亚群,但每个亚群具有不同的参数值。

在 Rasch 模型中,项目辨别参数 αi 始终固定为 1,因此它不会出现在基本方程中。2-pl 模型可以通过 ltm 包进行估计(Rizopoulos 2006)。然而,Verhelst 和 Glas (1995) 制定了单参数逻辑模型 (oplm),其中 αi 不会因项目而异,但不等于 1。估计 oplm 的基本策略是一个三步法:首先,计算 Rasch 模型的项目参数。然后,在一定的限制条件下计算判别参数。最后,使用这些判别权重,oplm 的项目参数是使用 cml 估计的。这是 Rasch 模型在不同斜率方面更灵活的版本。

对不同数量的项目类别的概括、允许引入项目协变量和/或趋势的线性扩展以及可选的组对比是在测试中检查项目行为和个人表现时的重要问题。这提高了 irt 模型在各种应用领域的可行性。



http://chatgpt.dhexx.cn/article/8Ztuc7VY.shtml

相关文章

ERTEC200P-2 PROFINET设备完全开发手册(8-1)

8.1 IRT通讯实验 这里我们使用APP3 IsoApp&#xff0c;修改源代码usrapp_cfg.h的宏为 #define EXAMPL_DEV_CONFIG_VERSION 3 使能App3&#xff0c;对应的主程序为“usriod_main_isoapp.c” 编译后下载运行。打开4.2建立的TIA项目&#xff0c;添加等时模式组织块&#xff0c…

ERTEC200P-2 PROFINET设备完全开发手册(9-2)

9.2 运行AC1/AC4参考代码 修改源代码usrapp_cfg.h的宏为 #define EXAMPL_DEV_CONFIG_VERSION 44 编译后下载到评估板运行AC4示例程序 在TIA中导入GSDML-V2.35-Siemens-ERTEC200pApp44-20210623.xml。新建项目&#xff0c;添加PLC和Devkit设备。 按照如下图所示配置模块&am…

可解释知识追踪(整理更新)

微观角度的可解释性&#xff0c;一个深度学习模型的可解释性是其内 在的固有性质&#xff0c;指模型的决策在多大程度上可以被人类预测和理解。模型的可解释性越强&#xff0c;代表模 型的行为对人类越透明&#xff0c;模型的不确定性也就越低&#xff1b;反之模型的可解释性越…

IRT模型估计-EM算法

IRT模型中参数估计 IRT(Item Response Theory) 项目反应理论。是教育评估与心理测量理论中的重要模型。主要目的是通过被试(examinees) 的对于一套试题的反应(responses), 对被试 的能力(ability parameters) 参数 θ \theta θ 和题目(item parameters) 作出估计。由于被试的…

技术话题(2)实时通讯RT和同步实时通讯IRT的区别

目前西门子 S7-1200 PLC仅支持RT通讯&#xff0c;与 V90 PN 连接做位置控制和速度控制均是通过PROFINET通讯来实现的。 而 S7-1500 PLC 支持IRT通讯&#xff0c;与 V90 PN 做位置控制和速度控制也是由PROFINET通讯来实现的。 下面我们为大家介绍一下RT通讯的特点&#xff1a;…

IRT模型

IRT模型是用来分析考试成绩或者问卷调查数据的数学模型。这些模型的目标是来确定的潜在心理特征&#xff08;latent trait&#xff09;是否可以通过测试题被反应出来&#xff0c;以及测试题和被测试者之间的互动关系。在IRT模型的理念是一个学生回答一个问题是否正确这个结果是…

浅谈知识追踪(BKT、IRT、DKT)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、知识追踪是什么&#xff1f;二、具体内容1.基于贝叶斯的知识追踪&#xff08;BKT&#xff09;项目反应理论&#xff08;IRT&#xff09;深度知识追踪&#…

IRT

文章目录 CTT(classical test theory)历史定义parallel testCronbachs α \alpha α 项目评估P-valueitem-total correlation 缺点 IRT(Item response theory)对于CTT的改进定义三大假设IRF3PL(three parameter logistic model)IRF形态PL模型分类 逻辑正态模型 模型拟合分析项…

Deep-IRT Make Deep Learning Based Knowledge Tracing Explainable Using Item Response Theory

写在前面&#xff1a; 本文在DKVMN的基础上结合项目IRT&#xff0c;加入了student ability network 和 difficulty network两个网络&#xff0c;增加深度知识追踪的可解释性 1 摘要 基于深度学习的知识追踪模型已被证明在不需要人工设计特征的情况下优于传统的知识追踪模型&…

IRT模型学习小结

文章目录 IRT模型学习小结关于IRT模型 IRT模型原理模型介绍参数估计 应用场景 IRT模型学习小结 关于IRT模型 与IRT模型相对应的经典测量理论CCT。经典测量理论与项目反应理论在测量领域均占有重要地位。经典测量理论形成较早&#xff0c;但是经典测量理论却有一些难以克服的缺…

自适应学习系列(一)IRT简介

2019独角兽企业重金招聘Python工程师标准>>> 自适应学习之IRT简介 一、近端发展区(ZPD) Zone of Proximal Development&#xff08;ZPD&#xff09;是由心理学家Vygotsky提出来的一种学习理论&#xff0c;是目前自适应学习常用的思考模型。他认为&#xff0c;能力高…

IRT模型的参数估计方法(EM算法和MCMC算法)

1、IRT模型概述   IRT&#xff08;item response theory 项目反映理论&#xff09;模型。IRT模型用来描述被试者能力和项目特性之间的关系。在现实生活中&#xff0c;由于被试者的能力不能通过可观测的数据进行描述&#xff0c;所以IRT模型用一个潜变量 θθ 来表示&#xff…

知识追踪常见建模方法之IRT项目反应理论

目录 A.项目反应理论&#xff08;IRT item response theory&#xff09; 概述 历史发展 特点 模型 A.项目反应理论&#xff08;IRT item response theory&#xff09; 概述 IRT理论即项目反应理论(Item Response Theory, IRT)&#xff0c;又称题目反应理论、潜在特质理论…

知识追踪系列之IRT

IRT简介 IRT理论即项目反应理论(Item Response Theory, IRT)。F. Lord在1951年从普林斯顿大学毕业时的博士论文《A Theory of Test Scores》被认为是IRT理论的开端之作。IRT最早使用在心理学领域&#xff0c;目的是做能力评估。现在已广泛应用于教育行业&#xff0c;用于校准评…

贝叶斯分类器(上)

目录 一、有关贝叶斯的简介 二、相关数学知识 1.先验概率与后验概率 2.贝叶斯公式 3、最大后验概率 4、最大似然估计法 一、有关贝叶斯的简介 贝叶斯老爷子的名字&#xff0c;很多同学都耳熟能详。估计不少的同学都在数学上被贝叶斯折磨过。贝叶斯在数学方面主要研究概率论…

机器学习常用的分类器比较-实例

这篇学习文章是在上一篇博客&#xff08;http://blog.csdn.net/july_sun/article/details/53088673&#xff09;的基础上&#xff0c;从机器学习的四要素&#xff08;数据&#xff0c;算法和模型&#xff0c;计算机硬件&#xff0c;机器学习平台&#xff09;角度出发用实例将各…

模式识别之分类器

常见分类器介绍 1、SVM分类器&#xff08;监督学习分类器&#xff09; 答&#xff1a;训练样本必须先标识不同类别&#xff0c;然后进行训练。SVM算法就是找一个超平面&#xff0c;对于已经被标记的训练样本&#xff0c;SVM训练得到一个超平面&#xff0c;使得两个类别训练集中…

常用分类器的效果对比

如果把机器学习归为两大类&#xff0c;那么主要的工作可以分为&#xff1a;分类和聚类。而分类任务基本上占整个机器学习或者是数据挖掘领域的70%,可见我们遇到的很多问题&#xff0c;都可以用分类的算法进行解决。机器学习发展到现在&#xff0c;许多被证实有效的分类算法被提…

监督学习之分类学习:线性分类器

监督学习之分类学习:线性分类器 如果想了解更多的知识&#xff0c;可以去我的机器学习之路 The Road To Machine Learning通道 Introduction 分类学习是最为常见的监督学习问题,并且其中的经典模型也最为广泛地被应用。其中,最基础的便是二分类(Binary Classification) 问题…

【线性分类器】线性分类器理论知识

文章目录 一、图像分类任务二、线性分类器&#xff1a;2.1 图像表示&#xff1a;2.2 损失函数&#xff1a;多类支持向量机损失&#xff1a; 2.3 正则项与超参数&#xff1a;K折交叉验证&#xff1a; 2.4 优化算法&#xff1a;梯度下降法&#xff08;SGD&#xff09;&#xff1a…