文章目录
- 工具变量法
- 内生性
- Simultaneous causality
- 案例:供求问题
- Omitted Variables
- Errors in Variables
- 其他原因
- 工具变量法的基本想法
- 多个工具变量
工具变量法
内生性
在线性回归:
y i = x i ′ β + u i y_i=x_i'\beta+u_i yi=xi′β+ui
中,如果 E ( x i u i ) ≠ 0 E(x_iu_i)\neq0 E(xiui)=0 ,那么便存在内生性。
内生性产生的原因:同时的因果关系或联立方程(Simultaneous causality)、缺失变量(Omitted variables)、变量测量误差(Errors in variables)等等。
Simultaneous causality
案例:供求问题
定义 p i = l n P i , q i = l n Q i p_i=lnP_i,q_i=lnQ_i pi=lnPi,qi=lnQi,需求方程为:
q i = γ 0 + γ 1 p i + u i q_i=\gamma_0+\gamma_1p_i+u_i qi=γ0+γ1pi+ui
这里 u i u_i ui 代表价格以外的影响需求的因素,比如收入和消费者喜好。供给方程为:
q i = δ 0 + δ 1 p i + v i q_i=\delta_0+\delta_1p_i+v_i qi=δ0+δ1pi+vi
这里 v i v_i vi 代表其他影响供给的因素。解上述联立方程,得到:
p i = δ 0 − γ 0 γ 1 − δ 1 + v i − u i γ 1 − δ 1 q i = γ 1 δ 0 − γ 0 δ 1 γ 1 − δ 1 + γ 1 v i − δ 1 u i γ 1 − δ 1 p_i=\frac{\delta_0-\gamma_0}{\gamma_1-\delta_1}+\frac{v_i-u_i}{\gamma_1-\delta_1}\\q_i=\frac{\gamma_1\delta_0-\gamma_0\delta_1}{\gamma_1-\delta_1}+\frac{\gamma_1v_i-\delta_1u_i}{\gamma_1-\delta_1} pi=γ1−δ1δ0−γ0+γ1−δ1vi−uiqi=γ1−δ1γ1δ0−γ0δ1+γ1−δ1γ1vi−δ1ui
假设 C o v ( u i . v i ) = 0 Cov(u_i.v_i)=0 Cov(ui.vi)=0,我们有:
C o v ( p i , u i ) = − V a r ( u i ) γ 1 − δ 1 , C o v ( p i , v i ) = V a r ( v i ) γ 1 − δ 1 Cov(p_i,u_i)=-\frac{Var(u_i)}{\gamma_1-\delta_1},Cov(p_i,v_i)=\frac{Var(v_i)}{\gamma_1-\delta_1} Cov(pi,ui)=−γ1−δ1Var(ui),Cov(pi,vi)=γ1−δ1Var(vi)
解上述联立方程的斜率项:
C o v ( p i , q i ) V a r ( p i ) = γ 1 + C o v ( p i , u i ) V a r ( p i ) = δ 1 + C o v ( p i , v i ) V a r ( p i ) ( γ 1 − δ 1 ) 2 V a r ( p i ) = V a r ( v i ) + V a r ( u i ) C o v ( p i , q i ) V a r ( p i ) = γ 1 − V a r ( u i ) V a r ( p i ) ( γ 1 − δ 1 ) = γ 1 − V a r ( u i ) ( γ 1 − δ 1 ) V a r ( v i ) + V a r ( u i ) = γ 1 V a r ( v i ) + δ 1 V a r ( u i ) V a r ( v i ) + V a r ( u i ) ∈ ( γ 1 , δ 1 ) \frac{Cov(p_i,q_i)}{Var(p_i)}=\gamma_1+\frac{Cov(p_i,u_i)}{Var(p_i)}=\delta_1+\frac{Cov(p_i,v_i)}{Var(p_i)}\\(\gamma_1-\delta_1)^2Var(p_i)=Var(v_i)+Var(u_i)\\\frac{Cov(p_i,q_i)}{Var(p_i)}=\gamma_1-\frac{Var(u_i)}{Var(p_i)(\gamma_1-\delta_1)}=\gamma_1-\frac{Var(u_i)(\gamma_1-\delta_1)}{Var(v_i)+Var(u_i)}=\frac{\gamma_1Var(v_i)+\delta_1Var(u_i)}{Var(v_i)+Var(u_i)}\in(\gamma_1,\delta_1) Var(pi)Cov(pi,qi)=γ1+Var(pi)Cov(pi,ui)=δ1+Var(pi)Cov(pi,vi)(γ1−δ1)2Var(pi)=Var(vi)+Var(ui)Var(pi)Cov(pi,qi)=γ1−Var(pi)(γ1−δ1)Var(ui)=γ1−Var(vi)+Var(ui)Var(ui)(γ1−δ1)=Var(vi)+Var(ui)γ1Var(vi)+δ1Var(ui)∈(γ1,δ1)
我们不能得到真正的需求或供给弹性,而是它们的加权平均。这种偏差称为联立方程偏差(simultaneous equations bias)。
Omitted Variables
考虑一个简单的工资方程:
l o g ( w a g e ) = β 0 + β 1 e d u c + β 2 a b l i + e log(wage)=\beta_0+\beta_1educ+\beta_2abli+e log(wage)=β0+β1educ+β2abli+e
能力 A b l i Abli Abli 很难去度量,所以方程可能估计错误。如果仅仅忽略能力 A b l i Abli Abli ,将其作为误差项的一部分:
l o g ( w a g e ) = β 0 + β 1 e d u c + u log(wage)=\beta_0+\beta_1educ+u log(wage)=β0+β1educ+u
很明显的,能力 A b l i Abli Abli 和教育 E d u c Educ Educ 是相关的,所以OLS会因为内生性产生有偏不一致的估计。
Errors in Variables
在一个横截面数据集中,我们有:
C i + = k Y i + , o < k < 1 C_i^+=kY_i^+,\ \ \ \ o<k<1 Ci+=kYi+, o<k<1
在现实生活中, C i = C i + + c i , Y i = Y i + + y i C_i=C_i^++c_i,Y_i=Y_i^++y_i Ci=Ci++ci,Yi=Yi++yi,这里 c i , y i c_i,y_i ci,yi 是测量误差,并且彼此独立,且与 C i + , Y i + C_i^+,Y_i^+ Ci+,Yi+ 独立,所以有
C i = k Y i + u i , u i = c i − k y i k ^ = E ( Y i C i ) E ( Y i 2 ) = k E ( ( Y i + ) 2 ) E ( ( Y i + ) 2 ) + E ( y i 2 ) < k C_i=kY_i+u_i,u_i=c_i-ky_i\\\hat{k}=\frac{E(Y_iC_i)}{E(Y_i^2)}=\frac{kE((Y_i^+)^2)}{E((Y_i^+)^2)+E(y_i^2)}<k Ci=kYi+ui,ui=ci−kyik^=E(Yi2)E(YiCi)=E((Yi+)2)+E(yi2)kE((Yi+)2)<k
其他原因
样本选择问题、函数形式的设定错误
工具变量法的基本想法
假设我们有
Y i = α + τ A i + γ U i + η i Y_i=\alpha+\tau A_i+\gamma U_i+\eta_i Yi=α+τAi+γUi+ηi
U U U 是不可观测的。误差项为 γ U i + η i \gamma U_i+\eta_i γUi+ηi, E [ A i ( γ U i + η i ) ] = 0 E[A_i(\gamma U_i+\eta_i)]=0 E[Ai(γUi+ηi)]=0 不满足。
工具变量法的构造(Z → \rightarrow →A)。First-stage relationship: Z affects A.
C o v ( γ U i + η i , Z i ) = 0 C o v ( Y i , Z i ) = C o v ( α + τ A i + γ U i + η i , Z i ) = τ C o v ( A i , Z i ) τ = C o v ( Y i , Z i ) C o v ( A i , Z i ) = C o v ( Y i , Z i ) / V a r ( Z i ) C o v ( A i , Z i ) / V a r ( Z i ) = C r e d u c e − f o r m C f i r s t − s t a g e Cov(\gamma U_i+\eta_i,Z_i)=0\\Cov(Y_i,Z_i)=Cov(\alpha+\tau A_i+\gamma U_i+\eta_i,Z_i)=\tau Cov(A_i,Z_i)\\\tau=\frac{Cov(Y_i,Z_i)}{Cov(A_i,Z_i)}=\frac{Cov(Y_i,Z_i)/Var(Z_i)}{Cov(A_i,Z_i)/Var(Z_i)}=\frac{C_{reduce-form}}{C_{first-stage}} Cov(γUi+ηi,Zi)=0Cov(Yi,Zi)=Cov(α+τAi+γUi+ηi,Zi)=τCov(Ai,Zi)τ=Cov(Ai,Zi)Cov(Yi,Zi)=Cov(Ai,Zi)/Var(Zi)Cov(Yi,Zi)/Var(Zi)=Cfirst−stageCreduce−form
若对于不同的i,有不同的 τ \tau τ,则引入一个二值变量 D : D = 0 o r D = 1 D:D=0\ or\ D=1 D:D=0 or D=1
Y i 0 : w h e n D = 0 ; Y i 1 : w h e n D = 1 Y_i^0:when\ D=0\ \ ;\ \ Y_i^1:when\ D=1 Yi0:when D=0 ; Yi1:when D=1
我们可以得到 causal effect/treatment effect for person i: Y i 1 − Y i 0 Y_i^1-Y_i^0 Yi1−Yi0。
average causal effect/average treatment effect: ATE= E [ Y 1 − Y 0 ] E[Y^1-Y^0] E[Y1−Y0]。
但是 Y 1 、 Y 0 Y^1、Y^0 Y1、Y0 无法同时观测到,故我们采用:
Y = D ∗ Y 1 + ( 1 − D ) ∗ Y 0 , D 是 随 机 的 E ( Y ∣ D = 1 ) = E ( Y 1 ∣ D = 1 ) = E ( Y 1 ) E ( Y ∣ D = 0 ) = E ( Y 0 ∣ D = 0 ) = E ( Y 0 ) E ( Y ∣ D = 1 ) − E ( Y ∣ D = 0 ) = E ( Y 1 − Y 0 ) = A T E Y=D*Y^1+(1-D)*Y^0,D是随机的\\E(Y|D=1)=E(Y^1|D=1)=E(Y^1)\\E(Y|D=0)=E(Y^0|D=0)=E(Y^0)\\E(Y|D=1)-E(Y|D=0)=E(Y^1-Y^0)=ATE Y=D∗Y1+(1−D)∗Y0,D是随机的E(Y∣D=1)=E(Y1∣D=1)=E(Y1)E(Y∣D=0)=E(Y0∣D=0)=E(Y0)E(Y∣D=1)−E(Y∣D=0)=E(Y1−Y0)=ATE
但大多数情况,会有选择问题: Y 1 Y^1 Y1 在D=1的人群中的分布与在所有人群中的分布不同:
Y = D ∗ Y 1 + ( 1 − D ) ∗ Y 0 , D 是 随 机 的 E ( Y ∣ D = 1 ) = E ( Y 1 ∣ D = 1 ) ≠ E ( Y 1 ) E ( Y ∣ D = 0 ) = E ( Y 0 ∣ D = 0 ) ≠ E ( Y 0 ) E ( Y ∣ D = 1 ) − E ( Y ∣ D = 0 ) ≠ E ( Y 1 − Y 0 ) = A T E Y=D*Y^1+(1-D)*Y^0,D是随机的\\E(Y|D=1)=E(Y^1|D=1)\neq E(Y^1)\\E(Y|D=0)=E(Y^0|D=0)\neq E(Y^0)\\E(Y|D=1)-E(Y|D=0)\neq E(Y^1-Y^0)=ATE Y=D∗Y1+(1−D)∗Y0,D是随机的E(Y∣D=1)=E(Y1∣D=1)=E(Y1)E(Y∣D=0)=E(Y0∣D=0)=E(Y0)E(Y∣D=1)−E(Y∣D=0)=E(Y1−Y0)=ATE
为了解释工具变量在潜在结果框架中的作用,我们需要6个假设:
1、 Z ∈ 0 , 1 , D ∈ 0 , 1 Z\in{0,1},D\in{0,1} Z∈0,1,D∈0,1.
2、 Y = D ∗ Y 1 + ( 1 − D ) ∗ Y 0 Y=D*Y^1+(1-D)*Y^0 Y=D∗Y1+(1−D)∗Y0.
3、 D = Z ∗ D 1 + ( 1 − Z ) ∗ D 0 D=Z*D^1+(1-Z)*D^0 D=Z∗D1+(1−Z)∗D0.
4、No defiers. D 1 ≥ D 0 D^1\geq D^0 D1≥D0.
5、 Z ⊥ ( Y 0 , Y 1 , D 0 , D 1 ) Z\perp (Y^0,Y^1,D^0,D^1) Z⊥(Y0,Y1,D0,D1).
6、 C o v ( Z , D ) ≠ 0 Cov(Z,D)\neq0 Cov(Z,D)=0.
在上述假设下,IV估计量就等于local average treatment effect(LATE)
LATE theorem:
C o v ( Z , Y ) C o v ( Z , D ) = E ( Y ∣ Z = 1 ) − E ( Y ∣ Z = 0 ) E ( D ∣ Z = 1 ) − E ( D ∣ Z = 0 ) = E ( Y 1 − Y 0 ∣ D 1 > D 0 ) \frac{Cov(Z,Y)}{Cov(Z,D)}=\frac{E(Y|Z=1)-E(Y|Z=0)}{E(D|Z=1)-E(D|Z=0)}=E(Y^1-Y^0|D^1>D^0) Cov(Z,D)Cov(Z,Y)=E(D∣Z=1)−E(D∣Z=0)E(Y∣Z=1)−E(Y∣Z=0)=E(Y1−Y0∣D1>D0)
第一部分证明:
C o v ( Z , Y ) = E ( Y Z ) − E ( Y ) E ( Z ) = E ( Y ∣ Z = 1 ) ∗ E ( Z ) − ( E ( Y ∣ Z = 1 ) ∗ E ( Z ) + E ( Y ∣ Z = 0 ) ∗ E ( 1 − Z ) ) ∗ E ( Z ) = ( E ( Y ∣ Z = 1 ) − E ( Y ∣ Z = 1 ) ∗ E ( Z ) + E ( Y ∣ Z = 0 ) E ( 1 − Z ) ) ∗ E ( Z ) = ( E ( Y ∣ Z = 1 ) − E ( Y ∣ Z = 0 ) ) ∗ E ( 1 − Z ) E ( Z ) 同 样 的 , C o v ( Z , D ) = ( E ( D ∣ Z = 1 ) − E ( D ∣ Z = 0 ) ) ∗ E ( 1 − Z ) ∗ E ( Z ) 所 以 , C o v ( Z , Y ) C o v ( Z , D ) = E ( Y ∣ Z = 1 ) − E ( Y ∣ Z = 0 ) E ( D ∣ Z = 1 ) − E ( D ∣ Z = 0 ) Cov(Z,Y)=E(YZ)-E(Y)E(Z)=E(Y|Z=1)*E(Z)-(E(Y|Z=1)*E(Z)+E(Y|Z=0)*E(1-Z))*E(Z)\\=(E(Y|Z=1)-E(Y|Z=1)*E(Z)+E(Y|Z=0)E(1-Z))*E(Z)=(E(Y|Z=1)-E(Y|Z=0))*E(1-Z)E(Z)\\同样的,Cov(Z,D)=(E(D|Z=1)-E(D|Z=0))*E(1-Z)*E(Z)\\所以,\frac{Cov(Z,Y)}{Cov(Z,D)}=\frac{E(Y|Z=1)-E(Y|Z=0)}{E(D|Z=1)-E(D|Z=0)} Cov(Z,Y)=E(YZ)−E(Y)E(Z)=E(Y∣Z=1)∗E(Z)−(E(Y∣Z=1)∗E(Z)+E(Y∣Z=0)∗E(1−Z))∗E(Z)=(E(Y∣Z=1)−E(Y∣Z=1)∗E(Z)+E(Y∣Z=0)E(1−Z))∗E(Z)=(E(Y∣Z=1)−E(Y∣Z=0))∗E(1−Z)E(Z)同样的,Cov(Z,D)=(E(D∣Z=1)−E(D∣Z=0))∗E(1−Z)∗E(Z)所以,Cov(Z,D)Cov(Z,Y)=E(D∣Z=1)−E(D∣Z=0)E(Y∣Z=1)−E(Y∣Z=0)
第二部分证明:
E ( Y ∣ Z = 1 ) = E ( Y ∣ Z = 1 , N T ) ∗ P ( N T ∣ Z = 1 ) + E ( Y ∣ Z = 1 , C ) ∗ P ( C ∣ Z = 1 ) + E ( Y ∣ Z = 1 , A T ) ∗ P ( A T ∣ Z = 1 ) = E ( Y 0 ∣ N T ) ∗ P ( N T ) + E ( Y 1 ∣ C ) ∗ P ( C ) + E ( Y 1 ∣ A T ) ∗ P ( A T ) 同 样 的 , E ( Y ∣ Z = 0 ) = E ( Y 0 ∣ N T ) ∗ P ( N T ) + E ( Y 0 ∣ C ) ∗ P ( C ) + E ( Y 1 ∣ A T ) ∗ P ( A T ) 所 以 , E ( Y ∣ Z = 1 ) − E ( Y ∣ Z = 0 ) = ( E ( Y 1 ∣ C ) − E ( Y 0 ∣ C ) ) ∗ P ( C ) E ( D ∣ Z = 1 ) − E ( D ∣ Z = 0 ) = E ( D 1 ) − E ( D 0 ) = P ( C ) + P ( A T ) − P ( A T ) = P ( C ) 所 以 , E ( Y ∣ Z = 1 ) − E ( Y ∣ Z = 0 ) E ( D ∣ Z = 1 ) − E ( D ∣ Z = 0 ) = ( E ( Y 1 ∣ C ) − E ( Y 0 ∣ C ) ) = E ( Y 1 − Y 0 ∣ D 1 > D 0 ) E(Y|Z=1)=E(Y|Z=1,NT)*P(NT|Z=1)+E(Y|Z=1,C)*P(C|Z=1)+E(Y|Z=1,AT)*P(AT|Z=1)\\=E(Y^0|NT)*P(NT)+E(Y^1|C)*P(C)+E(Y^1|AT)*P(AT)\\同样的,E(Y|Z=0)=E(Y^0|NT)*P(NT)+E(Y^0|C)*P(C)+E(Y^1|AT)*P(AT)\\所以,E(Y|Z=1)-E(Y|Z=0)=(E(Y^1|C)-E(Y^0|C))*P(C)\\E(D|Z=1)-E(D|Z=0)=E(D^1)-E(D^0)=P(C)+P(AT)-P(AT)=P(C)\\所以,\frac{E(Y|Z=1)-E(Y|Z=0)}{E(D|Z=1)-E(D|Z=0)}=(E(Y^1|C)-E(Y^0|C))=E(Y^1-Y^0|D^1>D^0) E(Y∣Z=1)=E(Y∣Z=1,NT)∗P(NT∣Z=1)+E(Y∣Z=1,C)∗P(C∣Z=1)+E(Y∣Z=1,AT)∗P(AT∣Z=1)=E(Y0∣NT)∗P(NT)+E(Y1∣C)∗P(C)+E(Y1∣AT)∗P(AT)同样的,E(Y∣Z=0)=E(Y0∣NT)∗P(NT)+E(Y0∣C)∗P(C)+E(Y1∣AT)∗P(AT)所以,E(Y∣Z=1)−E(Y∣Z=0)=(E(Y1∣C)−E(Y0∣C))∗P(C)E(D∣Z=1)−E(D∣Z=0)=E(D1)−E(D0)=P(C)+P(AT)−P(AT)=P(C)所以,E(D∣Z=1)−E(D∣Z=0)E(Y∣Z=1)−E(Y∣Z=0)=(E(Y1∣C)−E(Y0∣C))=E(Y1−Y0∣D1>D0)
多个工具变量
如果我们有两个工具变量,就会有两个不同的LATEs, ρ 1 f o r Z 1 a n d ρ 2 f o r Z 2 \rho_1\ for\ Z_1\ and\ \rho_2\ for\ Z_2 ρ1 for Z1 and ρ2 for Z2。我们可以使用2SLS来估计这些工具变量的总体效果。
在Angrist and Pischke的研究中,他们展示了用两个工具变量的两个LATEs的加权和来定义2SLS的估计量:
ρ 2 S L S = ψ ρ 1 + ( 1 − ψ ) ρ 2 ψ = π 1 C o v ( A , Z 1 ) π 1 C o v ( A , Z 1 ) + π 2 C o v ( A , Z 2 ) \rho_{2SLS}=\psi\rho_1+(1-\psi)\rho_2\\\psi=\frac{\pi_1Cov(A,Z_1)}{\pi_1Cov(A,Z_1)+\pi_2Cov(A,Z_2)} ρ2SLS=ψρ1+(1−ψ)ρ2ψ=π1Cov(A,Z1)+π2Cov(A,Z2)π1Cov(A,Z1)
这里的 π 1 , π 2 \pi_1,\pi_2 π1,π2 是IV第一阶段(first stage)Z的系数。
因此,2SLS估计是每个工具因果效应的加权平均值,其中的权重与每个工具的第一阶段效应的预测强度有关。