Deep-IRT Make Deep Learning Based Knowledge Tracing Explainable Using Item Response Theory

article/2025/9/28 5:50:24

写在前面

本文在DKVMN的基础上结合项目IRT,加入了student ability network 和 difficulty network两个网络,增加深度知识追踪的可解释性

1 摘要

基于深度学习的知识追踪模型已被证明在不需要人工设计特征的情况下优于传统的知识追踪模型,但其参数和表示长期以来一直被批评为无法解释。在本文中,我们提出了 Deep-IRT,它是项目响应理论 (IRT) 模型和基于称为动态键值记忆网络 (DKVMN) 的深度神经网络架构的知识追踪模型的综合,用于进行深度学习基于可解释的知识追踪。具体来说,我们使用 DKVMN 模型来处理学生的学习轨迹,并随着时间的推移估计项目难度水平和学生能力。然后,我们使用 IRT 模型使用估计的学生能力和项目难度来估计学生正确回答项目的概率。实验表明,Deep-IRT 模型保留了 DKVMN 模型的性能,同时提供了对学生和项目的直接心理解释。

2 相关工作

2.1 项目反应理论(IRT)

自 1950 年代以来,项目反应理论 (IRT) 一直用于教育测试环境。它根据学生的能力水平 θ 和项目的难度水平 β j \beta_j βj(在最简单的单参数 IRT1 中)输出学生在测试期间正确回答问题 j 的概率 P (a)。该概率由具有以下特征的项目响应函数定义: 如果学生的能力水平较高,可以以高准确率正确回答问题。另一方面,如果一个项目更难,学生正确回答该项目的概率较低。最常见的是,逻辑回归模型在 IRT 模型中用作项目响应函数:
P ( a ) = σ ( θ − β j ) = 1 1 + e x p ( − ( θ − β j ) ) (1) P(a)=\sigma(\theta-\beta_j)=\frac{1}{1+exp(-(\theta-\beta_j))}\tag{1} P(a)=σ(θβj)=1+exp((θβj))1(1)
除了估计概率 P (a) 之外,IRT 模型还被广泛用于估计学生能力 θ 和项目难度水平 β j \beta_j βj。然而,由于 IRT 模型最初是为教育测试环境设计的,因此该模型假设学生的能力在测试期间不会发生变化。因此,它不能直接应用于知识追踪任务,因为学生的知识状态会随着时间而变化。

2.2 基于因素分析(Factors Analysis )的知识追踪

在 2000 年代,学习因素分析 (learning factors analysis -LFA) 和性能因素分析 (performance factors analysis -PFA) 被提出来使用逻辑回归模型来处理知识追踪任务。两种模型都类似于 IRT 模型,但它们通过学习技能水平参数来估计学生正确回答问题的概率。 LF A 的公式如下:
P ( a ) = σ ( θ + ∑ j ∈ s k i l l s ( γ j N j − β j ) ) (2) P(a)=\sigma(\theta+\sum_{j\in skills}(\gamma_jN_j-\beta_j))\tag{2} P(a)=σ(θ+jskills(γjNjβj))(2)
其中 σ(·) 是 sigmoid 函数,θ、 γ j \gamma_j γj β j \beta_j βj 是模型参数, N j N_j Nj是模型的输入。与 IRT 模型类似,θ 和 β j \beta_j βj可以分别被认为是学生的能力和习题 j 的难度级别。 N j N_j Nj 表示学生对技能 j 的尝试次数,因此 γ j \gamma_j γj 可以解释为技能 j 的学习率。

LF A 模型出现后,Pavlik 等人认为学生的表现比学生的能力在处理 KT 任务中的影响更大,提出了 PFA 模型,它对学生的表现而不是学生的能力提供更高的敏感性 .具体来说,它丢弃了 LF A 模型中的参数 θ,并将输入 N j N_j Nj拆分为 S j S_j Sj F j F_j Fj,分别代表学生在技能 j 上的成功和失败尝试次数。 PFA 模型公式如下:
P ( a ) = σ ( ∑ j ∈ s k i l l s ( α j S j + ρ j F j − β j ) ) (3) P(a)=\sigma(\sum_{j\in skills}(\alpha _j S_j+\rho_jF_j-\beta_j))\tag{3} P(a)=σ(jskills(αjSj+ρjFjβj))(3)
其中 α j \alpha_j αj ρ j \rho_j ρj 是新的模型参数。类似地, α j \alpha_j αj ρ j \rho_j ρj 都可以分别被认为是技能 j 应用成功和不成功时的学习率。与 IRT 模型类似,我们可以认为 PF A 模型将 α j S j + ρ j F j \alpha _j S_j+\rho_jF_j αjSj+ρjFj视为学生在技能 j 上的能力 θ,这样一个学生在不同的技能上可以有不同的能力水平。事实证明,PFA 模型的性能优于 LFA 模型 。

3 deep-IRT model

3.1 DKVMN工作机制

DKVMN的工作机制可以看我之前写的DKVMN论文的笔记,那个更为详细,这里就不再叙述了

3.2 学生能力和习题难度网络

当 DKVMN 模型接收到一个 KC q t q_t qt时,它会在影响期间形成特征向量 f t f_t ft。由于 f t f_t ft 是读取向量 r t r_t rt 和 KC 嵌入向量 k t k_t kt的串联,它包含学生在 q t q_t qt上的知识状态信息和 q t q_t qt 的嵌入信息。我们相信,通过神经网络进一步处理 f t f_t ft f t f_t ft 可用于推断学生在 q t q_t qt上的能力。类似地,可以通过将 KC 嵌入向量 k t k_t kt 传递给神经网络来得出 q t q_t qt 的难度级别。

根据神经网络的用途,我们将这两个网络分别称为学生能力网络和难度网络。使用单个全连接层,公式如下:
θ t j = t a n h ( W θ f t + b θ ) (12) \theta _{tj}=tanh(W_\theta f_t +b_\theta)\tag{12} θtj=tanh(Wθft+bθ)(12)

β j = t a n h ( W β q t + b β ) (13) \beta_j=tanh(W_\beta q_t +b_\beta)\tag{13} βj=tanh(Wβqt+bβ)(13)

其中 θ t j \theta_{tj} θtj β j \beta_j βj 可以分别解释为学生在时间 t 上 KC j 的能力和 KC j 的难度级别。我们使用tanh作为两个网络的激活函数,这样两个输出都被缩放到 (-1, 1) 范围内。然后,将这两个值传递给项目响应函数,以计算学生正确回答 KC j 的概率:
p t = σ ( 3.0 ∗ θ t j − β j ) (14) p_t=\sigma(3.0*\theta_{tj}-\beta_j)\tag{14} pt=σ(3.0θtjβj)(14)
出于实际原因,学生能力网络的输出乘以 3.0 倍。例如,如果不按比例放大学生的能力,可以得到的最大值为 σ ( 1 − ( − 1 ) ) = σ ( 2 ) = 0.881 \sigma(1-(-1))=\sigma(2)=0.881 σ(1(1))=σ(2)=0.881

时间 t 的网络架构如下图 所示。需要注意的是,学生能力网络和 KC 难度网络可以应用于任何类型的神经网络。例如,这两个网络可以插入到 DKT 模型中,即 RNN,被隐藏层和输出层包围。通过同时使用 DKVMN 模型和 IRT 模型制定知识追踪任务,我们从两个世界中获得了最好的结果。该模型受益于深度学习技术的进步,因此它可以捕捉到人类难以设计的特征。另一方面,我们通过引入一个众所周知的心理测量模型来增强可解释性,该模型可以被许多人轻松理解。

在这里插入图片描述

4 实验部分

4.1 数据集

在实验中使用了四个公共数据集和一个专有数据集。对于公共数据集,我们使用了 Zhang 等人 [22] 提供的处理过的数据。这些数据集的信息是见表一

在这里插入图片描述

4.2 实验参数设置

我们使用它们的 ID 标签将输入 q t q_t qt ( q t , a t ) (q_t,a_t) (qt,at)输入到网络,其中 I D ( q t ) = q t ∈ 1 , 2 , … , Q ID(q_t)=q_t\in{1,2,\dots,Q} ID(qt)=qt1,2,,Q I D ( q t , a t ) = q t + a t ∗ Q ∈ 1 , 2 , … , 2 Q ID(q_t,a_t)=q_t+a_t*Q\in{1,2,\dots,2Q} ID(qt,at)=qt+atQ1,2,,2Q如果有 Q 个不同的 KC。 q t q_t qt ( q t , a t ) (q_t,a_t) (qt,at)的 ID 分别用于查找 KC 嵌入矩阵 A 和 KC 响应嵌入矩阵 B 中的嵌入向量。

最小化交叉熵损失函数学习模型参数,使用 Adam 优化学习模型,学习率为 0.003,batch size 为 32。

评价标准:AUC,ACC

4.3 实验结果

实验的模型性能如表 2 所示,相应的超参数如表 3 所示。此外,我们还将表 2 中的 PFA 模型的性能作为基准模型进行参考。

在这里插入图片描述
在这里插入图片描述

5 讨论

5.1 Going Deeper in Difficulty Level

为了评估从 Deep-IRT 模型估计的 KC 难度,我们将 FSAIF1toF3 数据集学习到的难度级别与其他四个来源进行了比较。我们使用专有数据集的原因是我们有出版商提供的个别问题的难度级别。每个问题都与 {1, 2, 3} 中的难度级别相关联,分别代表简单、中等和困难。

在这里插入图片描述

5.2 Going Deeper in Student Ability

如[20]所述,DKT模型存在两个问题。第一个是 DKT 模型无法重建观察到的输入。这意味着即使学生成功尝试,学生的估计表现也会下降,反之亦然。第二个问题是不同 KCs 的估计性能随着时间的推移并不一致。这意味着在模型影响期间,学生的掌握水平在已掌握和尚未掌握之间交替。这两种行为是不可取的,因此我们想检查这些问题是否存在于 Deep-IRT 模型中。

的估计性能随着时间的推移并不一致。这意味着在模型影响期间,学生的掌握水平在已掌握和尚未掌握之间交替。这两种行为是不可取的,因此我们想检查这些问题是否存在于 Deep-IRT 模型中。

在这里插入图片描述
写在最后

目前已经把Ante-hoc的具有可解释性文献大概过了一遍,主要分为两类,一类是添加注意力机制,如DKVMN。另外一类是自解释模型,该模型是结合某种可解释方法,提高一定的可解释性。可这两种和我想要做的可解释性不一样,我想做的是最后可以给出具体的学习路径或者知识的先后关系图。下面要继续学习近两年具有可解释的知识追踪文献。


http://chatgpt.dhexx.cn/article/HOL7yA1o.shtml

相关文章

IRT模型学习小结

文章目录 IRT模型学习小结关于IRT模型 IRT模型原理模型介绍参数估计 应用场景 IRT模型学习小结 关于IRT模型 与IRT模型相对应的经典测量理论CCT。经典测量理论与项目反应理论在测量领域均占有重要地位。经典测量理论形成较早,但是经典测量理论却有一些难以克服的缺…

自适应学习系列(一)IRT简介

2019独角兽企业重金招聘Python工程师标准>>> 自适应学习之IRT简介 一、近端发展区(ZPD) Zone of Proximal Development(ZPD)是由心理学家Vygotsky提出来的一种学习理论,是目前自适应学习常用的思考模型。他认为,能力高…

IRT模型的参数估计方法(EM算法和MCMC算法)

1、IRT模型概述   IRT(item response theory 项目反映理论)模型。IRT模型用来描述被试者能力和项目特性之间的关系。在现实生活中,由于被试者的能力不能通过可观测的数据进行描述,所以IRT模型用一个潜变量 θθ 来表示&#xff…

知识追踪常见建模方法之IRT项目反应理论

目录 A.项目反应理论(IRT item response theory) 概述 历史发展 特点 模型 A.项目反应理论(IRT item response theory) 概述 IRT理论即项目反应理论(Item Response Theory, IRT),又称题目反应理论、潜在特质理论…

知识追踪系列之IRT

IRT简介 IRT理论即项目反应理论(Item Response Theory, IRT)。F. Lord在1951年从普林斯顿大学毕业时的博士论文《A Theory of Test Scores》被认为是IRT理论的开端之作。IRT最早使用在心理学领域,目的是做能力评估。现在已广泛应用于教育行业,用于校准评…

贝叶斯分类器(上)

目录 一、有关贝叶斯的简介 二、相关数学知识 1.先验概率与后验概率 2.贝叶斯公式 3、最大后验概率 4、最大似然估计法 一、有关贝叶斯的简介 贝叶斯老爷子的名字,很多同学都耳熟能详。估计不少的同学都在数学上被贝叶斯折磨过。贝叶斯在数学方面主要研究概率论…

机器学习常用的分类器比较-实例

这篇学习文章是在上一篇博客(http://blog.csdn.net/july_sun/article/details/53088673)的基础上,从机器学习的四要素(数据,算法和模型,计算机硬件,机器学习平台)角度出发用实例将各…

模式识别之分类器

常见分类器介绍 1、SVM分类器(监督学习分类器) 答:训练样本必须先标识不同类别,然后进行训练。SVM算法就是找一个超平面,对于已经被标记的训练样本,SVM训练得到一个超平面,使得两个类别训练集中…

常用分类器的效果对比

如果把机器学习归为两大类,那么主要的工作可以分为:分类和聚类。而分类任务基本上占整个机器学习或者是数据挖掘领域的70%,可见我们遇到的很多问题,都可以用分类的算法进行解决。机器学习发展到现在,许多被证实有效的分类算法被提…

监督学习之分类学习:线性分类器

监督学习之分类学习:线性分类器 如果想了解更多的知识,可以去我的机器学习之路 The Road To Machine Learning通道 Introduction 分类学习是最为常见的监督学习问题,并且其中的经典模型也最为广泛地被应用。其中,最基础的便是二分类(Binary Classification) 问题…

【线性分类器】线性分类器理论知识

文章目录 一、图像分类任务二、线性分类器:2.1 图像表示:2.2 损失函数:多类支持向量机损失: 2.3 正则项与超参数:K折交叉验证: 2.4 优化算法:梯度下降法(SGD)&#xff1a…

分类器的相关概念

昨天,人民网 发了一条八卦微博,盘点“雨神”(萧敬腾)是如何炼成的。微博称,网友统计发现,在萧敬腾 近年12次主要行程中,有10次他的“现身”让当地下起了雨,下雨的概率为83.3%。 图1 …

二类分类器构造多类分类器

from: http://tech.ddvip.com/2009-03/1238054080112304.html 从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外&#xf…

KNN分类器

1.1 KNN的主要研究内容 (1)分类器的基本原理及算法内容 (2)利用现有的公开数据集(鸢尾花)实现分类器分类 (3)利用某种评价标准对分类结果进行分析评判 1.2分类的定义…

机器学习学习笔记(三)之分类器

分类器: 输入数据,识别是什么类,可以拓展为更广泛的用途。 将特征数据化,作为判断的依据。 和regression有相似的地方,但也有很大区别,把最好不把classification当作regression做 对于有多个分组的如cla…

分类器

分类器的作用:常规任务是利用给定的类别、已知的训练数据来学习分类规则和分类器,然后对未知数据进行分类(或预测)。逻辑回归(logistics)、SVM等常用于解决二分类问题,对于多分类问题&#xff0…

机器学习-分类-线性分类器

在一个机器学习任务中,如果每一条数据的目标值是离散的,则该任务是一个分类任务。 解决分类问题基本的方法有:线性分类器、决策树、朴素贝叶斯、人工神经网络、K近邻(KNN)、支持向量机(SVM)&am…

加密芯片大对比

市面上加密芯片,让人看的眼花缭乱,本文对各家加密芯片作了分析及对比 https://files.cnblogs.com/files/walta99/%E5%8A%A0%E5%AF%86%E8%8A%AF%E7%89%87%E5%A4%A7%E5%AF%B9%E6%AF%94.pdf 转载于:https://www.cnblogs.com/walta99/p/8484469.html

硬件加密芯片

TF32A09 芯片简介 产品描述 TF32A09系列芯片是同方股份有 限公司计算机系统本部自主研发的一 款高速度、高性能32位信息安全SoC 芯片。该芯片集成了高速的安全算法 和通讯接口,摒弃了传统的数据加解 密处理方式,使数据流加解密速度大 幅提升&#x…

芯片程序保护-常规芯片加密方式

芯片程序为什么要保护 针对于市场上越来越多的芯片解密方案的成熟和扩大,目前很对客户存在一个对于自己的产品会被同行或者其他竞争者抄袭的情况,对于硬件这块通常情况下是无法防止被抄的。但对于电路板的核心芯片和程序部分,是存在一些方式…