虚拟变量–潘登同学的计量经济学笔记

文章目录

- 虚拟变量--潘登同学的计量经济学笔记
对定性信息的描述
只有一个虚拟变量的情形
- 虚拟变量系数的解释
- 虚拟变量的作用效果
- 检验工资性别歧视
- 因变量为对数形式的情况
多个虚拟变量的情形
- 虚拟变量系数的解释
- 使用虚拟变量包含序数信息
- 虚拟变量的交互作用
- - 虚拟变量与其他变量交互
- 检验不同组之间回归函数上的差别
- - 邹至庄检验
  - 稍作改进
二值因变量
- 系数解释
- 几点注意

对定性信息的描述

定性信息通常以二值形式出现，我们可以通过定义一个二值变量（0-1变量）来刻画，在计量经济学中二值变量通常被称为虚拟变量

只有一个虚拟变量的情形

考虑一个决定小时工资的简单模型

$\beta_0 + \beta_1 female + \beta_2 educ + u$

其中 $f e m a l e$ 就是一个虚拟变量，女性则为1，男性则为0

虚拟变量系数的解释

对于上式来说，参数 $\beta_1$ 的含义是:在教育程度与误差项相同的情况下，男性与女性在小时工资上的差异；

如果 $\beta_1<0$ ,那么意味着在其他条件相同的情况下，女性工资要低于男性（就有可能存在性别歧视）

虚拟变量的作用效果

可以对男性和女性的模型分开来写

女性
$\beta_0 + \beta_1 + \beta_2 educ + u$
男性
$\beta_0 + \beta_2 educ + u$
可以发现，虚拟变量的系数变成了截距项，如果将两个模型分别画在图上，就会发现这是两条互相平行的线，只是截距有所不同

在这里插入图片描述

检验工资性别歧视

方法很简单，还是跟之前那样

先用OLS来估计模型
使用t统计量来检验系数的显著性水平

因变量为对数形式的情况

观察如下回归结果

$\hat{\log(wage)} = 0.417 - 0.297 female+ 0.080 educ + 0.029 exper -0.00058 exper^2 + 0.032 tenure - 0.00059 tenure^2$

female的系数表示: 在educ、exper、tenure的相同水平上，女性比男性约少挣29.7%

如果我们想得到更精确的估计，计算女性与男性工资差异的比例
$\frac{\hat{wage_F}-\hat{wage_M}}{\hat{wage_M}} = exp\{\log \frac{\hat{wage_F}}{\hat{wage_M}}\} - 1 = exp\{-0.297\}-1 \approx -0.257$

更准确的估计意味着，一个女性的工资比一个与她相当的男性的工资低大约25.7%

多个虚拟变量的情形

虚拟变量有4个: 已婚男性、已婚女性、单身男性、单身女性，选择以单身男性为基组，回归结果如下

$\hat{\log(wage)} = 0.321 + 0.213 marrmale - 0.198 marrfem - 0.110 singfem + 0.079 educ + 0.027 exper - 0.00054 exper^2 + 0.029 tenure - 0.00053 tenure^2$

虚拟变量系数的解释

我们选择了单身男性作为基组，三个虚拟变量系数的估计值表示：与单身男性相比，小时工资的差异

举例说明

在保持受教育程度、工作经历和现职任期不变的情况下，已婚男性比单身男性多挣21.3%
除了比较其他各组与基组的差异，也可以比较任意两组的差异，在保持受教育程度、工作经历和现职任期不变的情况下，单身女性比已婚女性多挣8.8%（0.198-0.110=0.088）

注意我们只将4个变量中的3个加入模型，如果我们再加入一个单身男性的虚拟变量，将会导致完全共线性，即
$m a r r m a l e + m a r r f e m + s i n g f e m + s i n g m a l e = 1$

使用虚拟变量包含序数信息

我们想估计城市信用等级对地方政府债券利率MBR的影响，假设等级的范围是 ${0,1,2,3,4\}$ ,0为最低信用等级，4为最高信用等级。我们不能将这五个值放到一个值中，我们能知道4级比3级好，但4级比3级好的程度是否与3级比2级好的程度一样就不一定，所以可以包括4个虚拟变量

$\beta_0 + \beta_1 CR_1 + \beta_2 CR_2 + \beta_3 CR_3 + \beta_4 CR_4 + \beta_5 CR_5 + 其他因素$

虚拟变量的交互作用

如果采用交互项的形式，也能刻画前面那个婚姻、性别的模型，模型的回归结果如下

$\hat{\log(wage)} = 0.321 - 0.110 female + 0.213 married - 0.301 female*married + 0.079 educ + 0.027 exper - 0.00054 exper^2 + 0.029 tenure - 0.00053 tenure^2$

上式也包含了性别、婚姻各种组合之间工资差异的一种不同方法。实际上，他并没有什么优势；前面的那个还能很好的反映任何一组与单身男性组（基组）之间的差异

虚拟变量与其他变量交互

观察一下模型

$\log(wage) = (\beta_0+\beta_1 female) + (\beta_2 + \beta_3 female)educ + u$

一旦虚拟变量与其他变量交互了，之前说的相互平行、截距不同的结论就不适用了，因为educ前的系数是 $(\beta_2 + \beta_3 female)$ 当 $f e m a l e$ 取0或1时，对系数会产生不同的结果

检验不同组之间回归函数上的差别

原假设 $H_0:$ 两个总体或两个组具有同一个回归函数

备择假设 $H_1:$ 各组之间有一个或多个斜率是不同的

举例说明
$\beta_0 + \beta_1sat + \beta_2hsperc + \beta_3tothrs+u$

如果我们想检验男女之间是否存在差异: 就必须允许该模型的截距和斜率对两组而言都不相同
$\beta_0 + \delta_0 female + \beta_1 sat + \delta_1 female * sat + \beta_2 hsperc + \delta_2 female * hsperc + \beta_3 tothrs + \delta_3 female * tothrs +u$

原假设 $H_0:\delta_0=0,\delta_1=0,\delta_2=0,\delta_3=0$

注意，原假设是一个联合假设，需要去掉所有female及其交互项，得到约束模型，计算F统计量，最终得出结果（拒绝原假设)

邹至庄检验

对上面一个问题的检验可以使用邹至庄检验，邹至庄检验是用来可以测试两组不同数据的线性回归系数是否相等，对于上面问题来说就是男女数据，假设组1不包含虚拟变量及交互项，组2包括，记为 $g = 1, g = 2$ ,将模型写成
$\beta_{g,0} + \beta_{g,1} x_1 + \beta_{g,2} x_2 + \cdots + \beta_{g,k} x_k + u$

两组间每个 $\beta$ 都相同，产生k+1个约束
组2还包括虚拟变量及截距项，自由度为n-2(k+1)(其中一个k+1是上句话，其中一个k+1是(各个虚拟变量及交互项前)参数个数)

计算步骤

计算 $SSR_1$ ：表示第一组的残差平方和（ $n_1$ 个观测）
计算 $SSR_2$ ：表示第二组的残差平方和（ $n_2$ 个观测）
计算无约束模型的残差平方和 $SSR_{ur} = SSR_1 + SSR_2$
将两组数据混在一起，计算约束模型的残差平方和 $SSR_p$
计算F统计量:
$\frac{SSR_p-SSR_{ur}}{SSR_{ur}} \cdot \frac{n-2(k+1)}{k+1}$

其中,n为总观测次数，这个特定的F统计量，被称为邹至庄统计量（注意因为邹至庄检验本质是F检验，所以只有在同方差下才是有效的，特别是在原假设下，两组的误差方差必须相等）

稍作改进

邹至庄检验的原假设是各组间不存在任何差异，如果允许组间的截距不同，然后再来检验斜率的话，只需要将k+1改为k即可
$\frac{SSR_p-SSR_{ur}}{SSR_{ur}} \cdot \frac{n-2(k+1)}{k}$

二值因变量

$\beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_k x_k$

与多元回归模型类似，只不过y是一个二值变量，要么是0，要么是1；

如果我们假定MLR.4成立，即 $E(u|x_1,\ldots,x_k) = 0$ ,那么
$\beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_k x_k$

值得注意的是，当y是一个取值为0和1的二值变量时， $E (y ∣ x) = P (y = 1 ∣ x)$ 表示y=1的概率，也被称为响应概率，因此二值因变量的多元线性回归模型也被称为线性概率模型（LPM）

系数解释

用概率来解释系数: 当其他条件不变是，x变化一个单位使得响应概率变化 $\beta$
$\triangle P(y=1|x) = \beta_j \triangle x_j$

几点注意

由于二值的特性，所以LPM违背了一个高斯-马尔科夫假定MLR.5( $var(u|x)=\sigma^2$ )，当y是一个二值变量时，其以x为条件的方差为
$Var(y|x)=p(x)[1-p(x)]\\ p(x) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_k x_k \\$