① 内生性处理:工具变量法
内生性问题是解释变量与扰动项相关导致的,具体的表现形式有遗漏变量、双向因果和测量误差。
OLS能够成立的最重要前提条件是解释变量与扰动项不相关。否则,OLS估计量将是有偏且不一致的。
无偏是指估计量的期望等于真实值。一致性是指,随着样本的增大,估计量无限接近于真实值。
固定效应模型在 一定程度上 可以缓解内生性。因为使用固定效应模型的原因是存在个体效应、时间效应与解释变量相关。此时如果不用固定效应模型,这些个体、时间影响就会溜到扰动项中,就产生了内生性问题。
解决内生性问题常见的做法是使用工具变量。
工具变量:与模型中内生变量(解释变量)高度相关,但却不与误差项相关,估计过程中被作为工具使用,以替代模型中与误差项相关的解释变量的变量。
“找好的工具变量好比寻找一个好的伴侣,ta应该强烈地爱着你(强相关),但不能爱着别人(外生性)。”
IV法可以视为2SLS的特例。 当内生变量个数=工具变量个数时,称为IV法;当内生变量个数<工具变量个数时,称为2SLS
2SLS思路如下:
y=α+βx1+γx2+u,其中x1是严格外生的,x2是内生的,则至少需要1个工具变量,z1为工具变量。
第一阶段回归:内生变量和工具变量
x2=a+bz1+cx1+e
第二阶段回归:内生变量的预测值和被解释变量
y=α+βx1+γx2'+v
2SLS背后逻辑:
将内生解释变量分为两部分,有工具变量造成的外生部分和与扰动项相关的内生部分。
第一阶段:通过外生变量的预测回归,得到这些变量的外生部分。
第二阶段:把被解释变量对解释变量中的外生部分进行回归,消除偏误得到一致估计。
注意:为了保证2SLS的一致性,必须把原方程中所有的外生解释变量都放入第一阶段回归。
2SLS的难点在于恰当的工具变量选择。若存在N个内生解释变量,则至少需要N个工具变量。
假设回归模型
stata命令如下:
以上命令ivregress 2sls 和 ivreg2是等价的,只是 ivreg2显示的内容更为丰富。xtivreg2 相较于ivreg2,就是OLS和FE/FD模型的差别,ivreg2 ... i.Year i.id等价于xtivreg2 ... i.Year, fe。
针对工具变量有三大检验:
以上三大检验,优先做相关性检验。这是由于弱工具变量会对估计结果以及外生性检验结果产生影响。
(1)相关性检验
a.不可识别检验
不可识别检验的原假设是秩条件不成立,即工具变量与解释变量不相关。不可识别检验在一定程度上可以验证是否存在弱工具变量,但不能取代对弱工具变量的检验。关于弱工具变量的检验,可以分为单个内生变量和多个内生变量。
b.弱工具变量检验
如果方程中有一个内生变量,一个经验规则是在第一阶段回归中,如果F统计量>10,则可拒绝“存在弱工具变量”的原假设,不必担心弱工具变量的问题。
如果方程中有多个内生变量,Stock & Yogo给出了检验规则:如果弱识别检验的最小特征值统计量>15% maximal IV size对应的临界值,就可以认为工具变量不存在弱相关问题。
如果发现是弱工具变量,解决的方法有:
(2)内生性检验
首先假定内生性进行2SLS回归,然后假定不存在内生性进行OLS回归,最后使用豪斯曼检验。
当p值<0.1时,表明两个回归的系数存在显着的系统性差异,及关注的核心变量有内生性。
(3)外生性检验
在恰好识别的情况下,即工具变量数=内生变量数,此时公认无法检验工具变量的外生性,即工具变量与扰动项不相关。在这种情况下,只能进行定性讨论或依赖于专家的意见。在过度识别的情况下,可以进行“过度识别检验”。当p>0.1,接受原假设,说明工具变量具有外生性。
注意,如果误差项存在异方差或自相关,那么2SLS的估计虽然是一致估计量,但不是有效估计量。更有效的方法是“广义矩估计”GMM。 某种意义上,GMM之于2SLS,正如GLS之于OLS,前者可以获得有效估计量,后者只能获得一致估计量。
该方法的前提条件是:工具变量数>内生变量数,且2SLS存在异方差或自相关
综上,在使用stata进行2SLS时,推荐使用ivreg2或xtivreg2。
对于面板数据,建议先对模型进行变换,然后对变换后的模型使用2SLS:
参考资料:
《高级计量经济学及stata应用》
面板数据分析与Stata应用
测量误差及其对统计分析的影响
有人能讲讲工具变量和2SLS之间的关系吗?
工具变量法(五): 为何第一阶段回归应包括所有外生解释变量
xtivreg2和它的山寨者
② 计量经济学:2SLS估计联立方程参数
问题没有描述清楚,说清楚点。
你的样本矩阵是指横向还是纵向,样本矩阵怎么是对称阵?
③ 有人可以解释一下2SLS吗
TSLS,即两阶段最小二乘回归。是用于解决内生性问题的一种方法,除TSLS外还可使用GMM估计。
内生变量是指与误差项相关的解释变量。对应还有一个术语叫‘外生变量’,是指与误差项不相关的解释变量。
产生内生性问题的原因通常在三类,分别说明如下:
第一阶段回归结果为中间过程值,SPSSAU默认没有输出;第二阶段回归结果为最终结果值。
特别提示:
内生性问题涉及以下几点:分别是内生变量判断(Durbin-Wu-Hausman检验和理论判断)、内生性问题的解决(两阶段最小二乘回归TSLS或GMM)、工具变量引入后过度识别检验(Sargan检验和Basmann检验)等。
如果在理论上认为可能某解释变量可能为内生变量,那么直接进行TSLS回归即可。
④ 用spss做2sls回归 和robust检验一样么
不一样的,不同的方法啊
⑤ 计量经济学里IV ils 2sls 分别是说什么估计方法
IV: Instrument variable
ILS: Inverse Multiple Least Square
2SLS: 2 Step Least Square
⑥ 计量经济学里IV ils 2sls 分别是说什么估计方法
IV: 工具变量法
Instrumental Variables
ILS: 间接最小二乘法
Indirect Least Squares
2SLS: 二阶段最小二乘法
2 Stage Least Squares
⑦ 有人可以解释一下2SLS吗
解释变量内生性检验首先检验解释变量内生性(解释变量内生性的Hausman 检验:使用工具变量法的前提是存在内生解释变量。Hausman 检验的原假设为:所有解释变量均为外生变量,如果拒绝,则认为存在内生解释变量,要用IV;反之,如果接受,则认为不存在内生解释变量,应该使用OLS。 reg ldi lofdi estimates store ols xtivreg ldi (lofdi=l.lofdi ldep lexr) estimates store iv hausman iv ols (在面板数据中使用工具变量,Stata提供了如下命令来执行2SLS:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (选择项可以为fe,re等,表示固定效应、随机效应等。详见help xtivreg)如果存在内生解释变量,则应该选用工具变量,工具变量个数不少于方程中内生解释变量的个数。“恰好识别”时用2SLS。2SLS的实质是把内生解释变量分成两部分,即由工具变量所造成的外生的变动部分,以及与扰动项相关的其他部分;然后,把被解释变量对中的这个外生部分进行回归,从而满足OLS前定变量的要求而得到一致估计量。tptqtp 二、异方差与自相关检验在球型扰动项的假定下,2SLS是最有效的。但如果扰动项存在异方差或自相关,面板异方差检验: xtgls enc invs exp imp esc mrl,igls panel(het) estimates store hetero xtgls enc invs exp imp esc mrl,igls estimates store homo local df = e(N_g) - 1 lrtest hetero homo, df(`df') 面板自相关:xtserial enc invs exp imp esc mrl 则存在一种更有效的方法,即GMM。从某种意义上,GMM之于2SLS正如GLS之于OLS。好识别的情况下,GMM还原为普通的工具变量法;过度识别时传统的矩估计法行不通,只有这时才有必要使用GMM,过度识别检验(Overidentification Test或J Test):estat overid 三、工具变量效果验证工具变量:工具变量要求与内生解释变量相关,但又不能与被解释变量的扰动项相关。由于这两个要求常常是矛盾的,故在实践上寻找合适的工具变量常常很困难,需要相当的想象力与创作性。常用滞后变量。需要做的检验:检验工具变量的有效性:(1) 检验工具变量与解释变量的相关性如果工具变量z与内生解释变量完全不相关,则无法使用工具变量法;如果与仅仅微弱地相关,。这种工具变量被称为“弱工具变量”(weak instruments)后果就象样本容量过小。检验弱工具变量的一个经验规则是,如果在第一阶段回归中,F统计量大于10,则可不必担心弱工具变量问题。Stata命令:estat first(显示第一个阶段回归中的统计量)(2) 检验工具变量的外生性(接受原假设好)在恰好识别的情况下,无法检验工具变量是否与扰动项相关。在过度识别(工具变量个数>内生变量个数)的情况下,则可进行过度识别检验(Overidentification Test),检验原假设所有工具变量都是外生的。如果拒绝该原假设,则认为至少某个变量不是外生的,即与扰动项相关。0H Sargan统计量,Stata命令:estat overid 四、GMM过程在Stata输入以下命令,就可以进行对面板数据的GMM估计。 . ssc install ivreg2 (安装程序ivreg2 ) . ssc install ranktest (安装另外一个在运行ivreg2 时需要用到的辅助程序ranktest) . use "traffic.dta"(打开面板数据) . xtset panelvar timevar (设置面板变量及时间变量) . ivreg2 y x1 (x2=z1 z2),gmm2s (进行面板GMM估计,其中2s指的是2-step GMM)
⑧ 2sls估计 问题求助
。
然后再多看点panel吧。 本质上2SLS也是GMM。现在文章但凡有内生性并且用工具变量几乎都要check IV是否为weak instruments。。你猜你弄的是DYNAMIC 面板吧。
Hasuman test是需要基于一些maintained assumption的。
建议把内生性弄弄清楚是什么东西 我记得Angrist 有个JEP文章review过。意思就是你不可能啥都不知道然后检查是否所有的变量里有内生的。, 然后IV 就出现了 如果IV (包括外生regressor)的数量大于parameters的数量然后就有了GMM,又不unbiased 又不consistent 然后就需要别的orthogonality condition来identify parameter。
有精力的话瞄下Weak instrument问题。 然后GMM去看看是什么intuition。 内生性是说X和error 相关 然后OLS就当了。把一些重要的文献读读怎么倒腾的 Hsiao 有俩篇重要的, 教育和能力相关 能力不可观测 能力影响工资 然后教育就是内生的。。。
内生性问题往往要通过theory或者intuition来识别的 比如跑教育和工资关系时先搞清楚Endogeneity GMM 和 Hausman test 都干嘛用的
⑨ iv 2sls结果和ols的不同
1 OLS 我们需要根据样本提供的信息来分析假设的模型,系数代表因变量和自变量之间的关系,某个系数的方差是说该系数的波动性有多大
2 内生性 首先你要弄清楚什么是内生性,通常用Durbin-Wu-Hausman test检测内生性
3 2SLS 首先你要明白什么是IV(instrumental variable),为什么找到IV就能解决内生性,2sls只是应用IV的一种方法
计量初学最好的方式是好好看书,然后做课后题,弄清楚各个概念最重要
⑩ GMM或2SLS操作问题求助
比如,在微观层面,如果面板的观测值是时序相关的,用GMM估计的动态面板就是一种最自然的解决办法;在宏观研究中,我们经常将理论模型推衍出的一阶条件作为GMM估计的矩条件(moment conditions),理论因而能够得到数据的检验。不过,GMM估计涉及到的矩条件和工具变量的选择,经常让人头疼得要命。这篇短文就是讨论GMM估计中矩条件选择的问题。我不是研究计量经济学的,很多最基本的东西都不懂,下面这些观点大都来自Victor Chernozhukov和Whitney Newey两位老师,引述的不对的地方,请大伙儿指出来。所谓矩条件,就是一个同时含有随机变量和待估计参数的式子,经济理论告诉我们,它的期望等于0。矩条件最常见的形式是:E{工具变量*残差}=0。GMM估计就是在一个限定的范围内寻找参数,使这个我们在理论上认为正确的等式填入数据后尽可能接近于0。按照我的理解,GMM不仅是一种估计方法,还是一个计量经济学有经典框架,我们能想到的大多数经典估计方法,OLS、GLS、2SLS、MD、QR、MLE、QMLE等等,都可以写成GMM的形式。另一个与之匹敌的经典框架是极值估计(extreme estimation)。粗略地说,两者的差别在于:前者是寻找参数,使矩条件尽可能被满足;后者是寻找参数,最大化或最小化一个目标函数(求极值)。简而易见的是,两种方法在算术上基本是等价的,因为任何一个极值函数的一阶条件都是矩条件,而GMM中的目标函数——矩条件经验期望的二次型——本身又是一个极值函数。但是,两者在算法上并不等价。老朱在评论林文夫(Fumio Hayashi)教授那本有名的教科书时说,“GMM的概念很优美,也可以应用到很多问题上。一般化的概念虽然适用性广,还是有代价的。”这里的代价,我猜测,就是指GMM经常算不出来——由于矩条件本身的特点,GMM的目标函数经常是接近锯齿状的(piecewise constant),在这种情况下,GMM会陷在局部最优里,达不到全局最优。分位数回归(quantile regression)就是一个这样的例子。不过,GMM在很多时候还是有用的,而且算起来特别快,所以还是有讨论的必要。首先我们要问,在GMM估计中,矩条件是不是最多越好?在大样本下,基本上是这样——矩条件越多,GMM估计的渐近效率就越高。说“基本上”是因为:第一,这些矩条件必须都是成立的;第二,矩条件的数目相对于样本数要趋向于0。如果矩条件数与样本数是等阶的,会造成“过度拟合”的问题。形象地说,我们本来要用工具变量来应付内生性问题,但是工具变量太多了,以至于几乎把内生变量完全拟合了出来,那么即使工具变量是外生的,也会导致估计量不一致。而在小样本下,过多的矩条件会造成可怕的高阶偏误,并且矩条件非线性的程度越高,偏误就越大。要注意的是,这个问题与“弱工具变量问题”并不等价。即使这些工具变量整体上不弱,甚至每个都不弱,过多的矩条件还是会造成严重的小样本偏误。这里其实涉及到GMM估计的高阶偏误问题,其核心是由GMM目标函数的“非线性”特征造成的。当矩条件的数目很多,矩条件本身又是非线性的时候,这个问题就愈加严重;但即使没有“矩条件过多”的问题,GMM仍然存在不可忽视的小样本偏误。在实践中,我们可以用几种方法来减轻这一问题。第一,检验矩条件(或工具变量)是否成立。 “过度识别检定”(overidentification test,OIT)可以被用检验某一组矩条件是否成立,前提是去除待检验的矩条件后,剩余的矩条件数目仍大于等于待估计参数的维度。第二,选择“最有效率”的工具变量。给定一个理论上有效的工具变量Zi,我们可以通过简便的方法找出Zi的某种最优的函数形式f*(Zi),把f*(Zi)放入矩条件会使得估计量的渐近方差比放入其他f(Zi)要小。这么做可以尽可能地利用Zi中的信息,而不必将不同函数形式的Zi写成并列的几个矩条件。第三,在所有成立的矩条件中选择一组最优的矩条件。用任意组合的矩条件进行估计,看其中哪一组矩条件得到的估计量的“经验均方误”最小。最后,我们还可以用Fuller、HFUL等K-class估计量或LIML、CUE等经验似然估计量来进行估计,然后用Bekker估计量校正其标准误。这些估计量可以在很大程度上减小偏误,即使无法完全消除它。