A.项目反应理论（IRT item response theory）

概述

IRT理论即项目反应理论(Item Response Theory, IRT)，又称题目反应理论、潜在特质理论（Item Response Theory）是一系列心理统计学模型的总称。IRT是用来分析考试成绩或者问卷调查数据的数学模型。这些模型的目标是来确定的潜在心理特征(latent trait）是否可以通过测试题被反应出来，以及测试题和被测试者之间的互动关系。目前广泛应用在心理和教育测量领域。
项目反应理论的意义在于可以指导项目筛选和测验编制。项目反应理论假设被试有一种“潜在特质”，潜在特质是在观察分析测验反应基础上提出的一种统计构想，在测验中，潜在特质一般是指潜在的能力，并经常用测验总分作为这种潜力的估算。项目反应理论认为被试在测验项目的反应和成绩与他们的潜在特质有特殊的关系。通过项目反应理论建立的项目参数具有恒久性的特点，意味着不同测量量表的分数可以统一。项目反应理论通过项目反应曲线综合各种项目分析的资料，使我们综合直观地看出项目难度、鉴别度等项目分析的特征，从而起到指导项目筛选和编制测验比较分数等作用

历史发展

IRT理论发端于20世纪50年代，它同时被丹麦统计学家Georg Rasch和美国心理统计学家Frederic M. Lord在各自的国家发展起来。尽管采取的研究方法不同，但是他们的结果却非常相似。
F. Lord在1951年从普林斯顿大学毕业时的博士论文《A Theory of Test Scores》被认为是IRT理论的开端之作。在随后的30年中他进入ETS工作不断深入研究这个问题并且在1980年出版的《Applications of Item Response Theory to Practical Testing Problems》正式完善了整个IRT理论的框架。
和Lord几乎在同时，G. Rasch在丹麦政府的委托之下开始研究现代考试理论，他采用了和Lord截然不同的切入点，一开始的时候他称之为潜在特征模型(latent trait model)，却发现了极为类似的结果

特点

(1)独立性。被试特质水平不依赖于被试样本的代表性；被试水平参数不依赖于测验项目组；项目特征参数不依赖于所测被试组的参数不变测验项目组。
(2)项目理论中被试水平和项目难度可以直接比较；

(3)正视了测量误差和项目性能是否与被试水平相关这一事实；

(4)提供了计算机化自适应测验这一策略；

(5) 从计量学角度提出了自己的新观点与新技术。

模型

模型是用于评估被试对某一项目或某一类项目的潜在特质。
IRT模型是建立在一定的假设之下：

单维性假设，即假设某个测验只测量被试的某一种能力。

立性假设，即假设被试在每一个项目上的作答反应是相互独立，互不影响的，作答反应只与被试自身的能力水平有关，与其他元素无关。

模型假设，即被试在项目上的正确反应概率与被试的能力水平有一定的函数关系。

IRT有一参数、两参数、三参数模型，三参数模型的数学公式如下：

根据这模型所绘制出的曲线也叫做项目特征曲线（Item Characteristic Curve, ICC）。其意义在于描述出“成功解答某一特定考试项目的可能性”和“被测试者能力”（在函数中以θ表示）之间的关系。

参数意义：参数c一般被称为“猜测参数”（guessing parameter）或者“伪猜测参数”(pseudo-guessing parameter）。在图像上，c所代表的是ICC的下限，其直观意义为：当一个被测试者的能力值非常低（比如接近负无穷），但是他仍然能够有可能做对这道题目的概率c就是他猜测的能力。
b叫做项目难度参数，也称为项目难度(item difficulty)。b一般表示在ICC图像最陡的那一点所对应的θ值。对于下限为0的ICC函数来说，b所对应的是概率为0.5的测试者能力值。改变b会导致ICC的左右移动，但是不改变其形状。当b值增加，会使ICC曲线向右移动（θ值高的的方向），这会引起在即使θ保持不变，但是答题正确率下降，亦即题目难度增加。反之当b值减小，ICC曲线向左移动。题目难度降低。
a叫做区分度参数或项目区分度(item discrimination)。在数学上，a的值是ICC曲线拐点处的斜率，即斜率的最大值。在这一点上，能力值微小的改变会造成最大的P值（回答正确率）变动。所以a体现的是该项目的最大区分度。

IRT简化的一参数模型Rasch模型：

在Rasch模型中，所有的曲线，其形状都是一样的。实际上，这是不合理的。比如，有两道难度相同(比如难度等于2)的题目，一道是判断题，一道是选择题(4个选项)。对于判断题，即使学渣完全不知道怎么做，也有大约有50%概率能答对，而学霸也是50%左右的概率能答对。对于选择题，学渣大约有25%概率能答对，而学霸仍然是50%左右。因此，选择题比判断题能够更好的区分学霸和学渣，我们称它的区分度(discrimination)更高。本次实验的数据来自于学生oj题目数据，所有题目都属于同一种类型，因此不需要引入区分度来进行区别。与此同时，蒙对一道oj题目的概率较小，因此猜测系数在本次实验中也不考虑。因此采用Rasch模型进行学生oj做题情况预测。参数估计 IRT模型的参数估计方法有很多，包括极大似然估计，EM算法，贝叶斯算法等，本文将简单介绍使用极大似然估计方法进行参数估计过程。