did 双重差分「双重差分法(DID)入门必看」

did 双重差分「双重差分法(DID)入门必看」

双重差分(Differences-in-Differences,DID),其常用于政策评估效应研究,比如研究‘鼓励上市政策’、‘开通沪港通’、‘开通高铁’、‘引入新教育模式’等效应时,分析效应带来的影响情况。

涉及两个关键数据,分别是Treated和Time,此处Treated为地区(A和B两个地区),以及时间项Time(高铁开通前和开通后)。

同时研究‘开通高铁’参于gdp的影响,那么被解释变量Y即为gdp,与此同时还涉及可选的控制变量(控制变量为可选项,多数情况下并不需要),比如教育投入,人口或对外投资情况等,如下表说明:

did 双重差分「双重差分法(DID)入门必看」

特别提示:

Treated只能为数字0或1,且一定包括此2个数字。其用于标识研究‘效应’对应的组别,数字0标识‘控制组’,数字1标识‘实验组’,一定需要这样处理。

Time只能为数字0或1,且一定包括此2个数字。其用于标识研究‘时间’对应的组别,数字0标识‘before’(实验前),数字1标识‘After(实验后),一定需要这样处理。

理论上,双重差分研究可在很大程度上避免数据内生性问题。‘政策效应’通常为外生项,因而不存在双向因果关系,比如开通高铁影响gdp,gdp同时影响开通开通。与此同时,双重差分也有着一定的前提性要求,通常其希望满足‘平行趋势假设’(Parallel Trend Assumption),即time项为0时,即比如开通高铁前,A类和B类两类地区的gdp数据需要无明显的差异性。

至于‘平行趋势假设’(共同趋势)的检验,其有多种检验方式。包括t检验法,‘交叉项’显著性检验法,F统计量检验法,图示法。具体说明如下:

did 双重差分「双重差分法(DID)入门必看」

针对‘交互项显著性检验法’或‘F统计量检验法’,时间项可能仅为2期(实验前和实验后),也可能为多期m期(m>2),那么哑变量设置后,放入分析的交互项为‘实验前时的交互项’,如下表说明:

did 双重差分「双重差分法(DID)入门必看」

关于哑变量说明:https://spssau.com/helps/otherdocuments/dummy.html

如果是使用t检验法,SPSSAU在进行DID分析时默认有提供,如果是使用‘交互项显著性检验法’或者‘F统计量检验法’,可先将时间项作哑变量处理后,与treated项作交互项,然后进行线性回归(SPSSAU通用方法里面的线性回归或计量研究里面的OLS回归均可)。如果是使用‘图示法’,则使用SPSSAU【可视化->簇状图】完成。

某地区(实验组,B地区)通过法律将最低工资从每小时4.25美元提高中到5.05美元,但相邻的另一地区(控制组,A地区)保持不变。某研究人员收集实施新法律前后就业人数数据,使用DID差分法进行研究‘提高最低工资’是否有助于‘就业人数增加’,即提高最低工资是否会提升民众的就业积极性。

此案例时:treated为地区(数字0为控制组即A地区,数字1为实验组即B地区)。Time为时间(数字0为法律实施前,数字1为法律实施后)。研究的效应项即被解释变量Y为‘就业人数’。与此同时还有另外3个控制变量。

双重差分法DID,其通常用于政策效应类研究。共涉及两项,分别是实验组别treated(数字0表示控制组,数字1表示实验组),和时间项time(数字0表示实验前,数字1表示实验后)。一般希望在实验前即time为0时,实验组别数据基本保持一致性,即满足‘平行趋势假设’。‘平行趋势假设’检验有多种方式,建议查看本页面中相关说明。

比如本案例可使用SPSSAU的簇状图进行‘平行趋势假设’查看,如下图可以看到,实验前时两个组别的‘从业人数’即效应水平基本完全一致,说明满足‘平行趋势假设’,因而可以继续分析,当然也可使用实验前时,控制组和实验组效应值的差异情况进行检验,SPSSAU默认有提供。

did 双重差分「双重差分法(DID)入门必看」

本案例操作截图如下,案例中带3个控制变量,如果没有控制变量可直接不放入即可,如下:

did 双重差分「双重差分法(DID)入门必看」

SPSSAU共输出5类表格,分别是DID模型描述统计,DID模型结果汇总,t 检验(Before),t 检验(After),OLS回归分析结果。说明如下:

did 双重差分「双重差分法(DID)入门必看」

did 双重差分「双重差分法(DID)入门必看」

上表格展示不同实验组别,以及实验前后时的样本分布情况。本案例共有155个实验样本,77个为实验前,78个为实验后。

did 双重差分「双重差分法(DID)入门必看」

上表格展示DID模型最终结果。分别包括实验前和实验后时,控制组或实验组的效应值水平(特别提示,效应值是一种量化指标,并非被解释变量从业人数的平均值(但通常接近于平均值),数学原理上其为ols回归的回归系数值)。

上表格显示:在实验前before状态时,实验组和控制组的差分效应量为-0.611,并且没有呈现出显著性(p = -0.556>0.1),即说明实验前时,实验组和控制组的效应水平基本一致并没有明显的差异性,也即说明满足‘平行趋势假设’。

实验后after状态时,实验组和控制组的差分效应量为2.324,并且呈现出显著性(p = 0.024 < 0.05),即说明在实验后时间点时,实验组的效应值明显高于控制组效应值。

最终查看应该以diff-in-diff,即最终的双重差分值,上表格时,双重差分效应值为2.935且呈现出显著性(p = 0.045 < 0.05),也即说明双重差分效应显著,即说明‘提高最低工资’是否有助于‘就业人数增加’,提高的平均效应水平为2.935。

did 双重差分「双重差分法(DID)入门必看」

did 双重差分「双重差分法(DID)入门必看」

did 双重差分「双重差分法(DID)入门必看」

上表格展示OLS回归结果,其为DID差分模型的数学原理,比如上表格中treate*time这一交互项的回归系数值为2.935即为‘DID模型结果汇总’表格中的Diff-in-Diff效应值。

涉及以下几个关键点,分别如下:

如果为多期数据,比如实验前为2018/2019共2年数据,实验后为2021/2022共2年数据。那么需要处理成time为0和1,即实验前和实验后的数据格式

Treated只能为数字0或1,且一定包括此2个数字。其用于标识研究‘效应’对应的组别,数字0标识‘控制组’,数字1标识‘实验组’,一定需要这样处理。

Time只能为数字0或1,且一定包括此2个数字。其用于标识研究‘时间’对应的组别,数字0标识‘before’(实验前),数字1标识‘after(实验后),一定需要这样处理。

‘平行趋势假设’(共同趋势)的检验,其有多种检验方式。包括t检验法,‘交叉项’显著性检验法,F统计量检验法,图示法等,可查阅本页面上方说明。

did 双重差分「双重差分法(DID)入门必看」

双重差分法(DID)入门必看

双重差分 (Differences-in-Differences,DID),其常用于政策评估效应研究,比如研究‘鼓励上市政策’、‘开通沪港通’、‘开通高铁’、‘引入新教育模式’等效应时,分析效应带来的影响情况。

涉及两个关键数据,分别是Treated和Time,此处Treated为地区(A和B两个地区),以及时间项Time(高铁开通前和开通后)。

同时研究‘开通高铁’参于gdp的影响,那么被解释变量Y即为gdp,与此同时还涉及可选的控制变量(控制变量为可选项,多数情况下并不需要),比如教育投入,人口或对外投资情况等,如下表说明:

特别提示:

理论上,双重差分研究可在很大程度上避免数据内生性问题。‘政策效应’通常为外生项,因而不存在双向因果关系,比如开通高铁影响gdp,gdp同时影响开通开通。与此同时,双重差分也有着一定的前提性要求,通常其希望满足‘平行趋势假设’(Parallel Trend Assumption),即time项为0时,即比如开通高铁前,A类和B类两类地区的gdp数据需要无明显的差异性。

至于‘平行趋势假设’(共同趋势)的检验,其有多种检验方式。包括t检验法,‘交叉项’显著性检验法,F统计量检验法,图示法。具体说明如下:

针对‘交互项显著性检验法’或‘F统计量检验法’,时间项可能仅为2期(实验前和实验后),也可能为多期m期(m>2),那么哑变量设置后,放入分析的交互项为‘实验前时的交互项’,如下表说明:

关于哑变量说明: https://spssau.com/helps/otherdocuments/dummy.html

如果是使用t检验法,SPSSAU在进行DID分析时默认有提供,如果是使用‘交互项显著性检验法’或者‘F统计量检验法’,可先将时间项作哑变量处理后,与treated项作交互项,然后进行线性回归(SPSSAU通用方法里面的线性回归或计量研究里面的OLS回归均可)。如果是使用‘图示法’,则使用SPSSAU【可视化-> 簇状图 】完成。

某地区(实验组,B地区)通过法律将最低工资从每小时4.25美元提高中到5.05美元,但相邻的另一地区(控制组,A地区)保持不变。某研究人员收集实施新法律前后就业人数数据,使用DID差分法进行研究‘提高最低工资’是否有助于‘就业人数增加’,即提高最低工资是否会提升民众的就业积极性。

此案例时:treated为地区(数字0为控制组即A地区,数字1为实验组即B地区)。Time为时间(数字0为法律实施前,数字1为法律实施后)。研究的效应项即被解释变量Y为‘就业人数’。与此同时还有另外3个控制变量。

双重差分法DID,其通常用于政策效应类研究。共涉及两项,分别是实验组别treated(数字0表示控制组,数字1表示实验组),和时间项time(数字0表示实验前,数字1表示实验后)。一般希望在实验前即time为0时,实验组别数据基本保持一致性,即满足‘平行趋势假设’。‘平行趋势假设’检验有多种方式,建议查看本页面中相关说明。

比如本案例可使用SPSSAU的簇状图进行‘平行趋势假设’查看,如下图可以看到,实验前时两个组别的‘从业人数’即效应水平基本完全一致,说明满足‘平行趋势假设’,因而可以继续分析,当然也可使用实验前时,控制组和实验组效应值的差异情况进行检验,SPSSAU默认有提供。

本案例操作截图如下,案例中带3个控制变量,如果没有控制变量可直接不放入即可,如下:

SPSSAU共输出5类表格,分别是DID模型描述统计,DID模型结果汇总,t检验(Before),t检验(After),OLS回归分析结果。说明如下:

上表格展示不同实验组别,以及实验前后时的样本分布情况。本案例共有155个实验样本,77个为实验前,78个为实验后。

上表格展示DID模型最终结果。分别包括实验前和实验后时,控制组或实验组的效应值水平(特别提示,效应值是一种量化指标,并非被解释变量从业人数的平均值(但通常接近于平均值),数学原理上其为ols回归的回归系数值)。

上表格显示:在实验前before状态时,实验组和控制组的差分效应量为-0.611,并且没有呈现出显著性(p= -0.556>0.1),即说明实验前时,实验组和控制组的效应水平基本一致并没有明显的差异性,也即说明满足‘平行趋势假设’。

实验后after状态时,实验组和控制组的差分效应量为2.324,并且呈现出显著性(p= 0.024 < 0.05),即说明在实验后时间点时,实验组的效应值明显高于控制组效应值。

最终查看应该以diff-in-diff,即最终的双重差分值,上表格时,双重差分效应值为2.935且呈现出显著性(p= 0.045 < 0.05),也即说明双重差分效应显著,即说明‘提高最低工资’是否有助于‘就业人数增加’,提高的平均效应水平为2.935。

上表格展示实验前状态时,控制组和实验组两类别下被解释变量或控制变量的差异情况。通常仅关注被解释变量的差异性即可,从上表格可知,控制组和实验组并没有呈现出显著性(p= 0.978 > 0.05),也即说明实验前时控制组和实验组的‘从业人数’并没有明显的差异性,即说明数据通过‘平行趋势假设’。

上表格展示实验后状态时,控制组和实验组两类别下被解释变量或控制变量的差异情况。通常仅关注被解释变量的差异性即可,从上表格可知,控制组和实验组呈现出显著性(p= 0. 043 < 0.05),也即说明实验前时控制组和实验组的‘从业人数’呈现出明显的差异性,说明实验后状态下实验组和控制组的平均水平有着显著性差异,而且实验组(19.949)明显高于控制组(17.065)。

上表格展示OLS回归结果,其为DID差分模型的数学原理,比如上表格中treate*time这一交互项的回归系数值为2.935即为‘DID模型结果汇总’表格中的Diff-in-Diff效应值。

涉及以下几个关键点,分别如下:

did 双重差分「双重差分法(DID)入门必看」

双重差分法是什么?

双重差分法(DID或DD)是社会科学中的计量经济学和定量研究中使用的一种统计技术,它试图通过观察治疗数据的差异效应来模仿观察性研究数据来模拟实验研究设计。

在自然实验中是“治疗组”还是“对照组”。它计算治疗(即解释性变量或自变量)对结果(即响应变量或自变量)的影响。因变量),通过比较在以上为治疗组的结果变量时间的平均变化,相对于随时间的对照组的平均变化。

尽管其目的是减轻无关因素和选择偏见的影响,但根据治疗组的选择方式,该方法可能仍会受到某些偏见(例如,均值回归,反向因果关系和遗漏的可变偏见)。

与此相反的时间序列估计对受试者的治疗效果(其分析随时间的差异)的治疗效果(其测量治疗组和对照组之间的差异)的横截面的估计,或在差异差使用面板数据到测量治疗组和对照组之间随时间变化的结果变量变化之间的差异。

差异上的差异需要在两个或更多个不同的时间段(特别是“治疗”之前至少一个时间段和“治疗”之后至少一个时间段)从治疗组和对照组测得的数据。在图示示例中,治疗组的结果由线P表示,对照组的结果由线S表示。

两组的结果(因变量)在时间1进行测量,然后任一组接受了由点P 1和S 1表示的处理(即自变量或解释性变量)。然后,治疗组接受或经历了治疗,并且在时间2再次对两组进行了测量。

并非所有治疗2和对照组在时间2的差异(即P 2和S 2之间的差异)都可以解释为是治疗的一种效果,因为治疗组和对照组在时间1并非在同一时间开始。

DID因此计算出两组之间结果变量的“正常”差异(如果存在差异,则该差异仍然存在)两组均未接受治疗),以虚线Q表示。(请注意,从P 1到Q的斜率与从S到S的斜率相同1到小号2)的治疗效果是所观察到的结果和“正常”结果(P之间的差之间的差2和Q)。

卡德和克鲁格(1994)的例子

考虑最有名的DID研究中,卡和克鲁格文章最低工资在新泽西州,发表在1994年卡和Krueger相比,就业在快餐行业在新泽西州和宾夕法尼亚州,1992年2月和1992年11月,在新泽西州的最低工资从4.25美元上升到1992年4月的5.05美元之后。

仅观察新泽西州在治疗前后的就业变化,就无法控制遗漏的变量例如该地区的天气和宏观经济状况。通过将Pennsylvania作为差异模型中的控件,即使未观察到这些变量,新泽西州和Pennsylvania常见变量所引起的任何偏差也可以得到隐式控制。

假设新泽西州和宾夕法尼亚州随时间推移呈平行趋势,则宾夕法尼亚州的就业变化可以解释为新泽西州将经历的变化,如果他们不提高最低工资标准,反之亦然。有证据表明,增加最低工资并没有导致新泽西州的就业减少,这与某些经济学理论所暗示的相反。

下表显示了Card&Krueger对治疗对就业的影响的估计值,以FTE(或全日制等效值)衡量。Card and Krueger估计,新泽西州最低工资提高$ 0.80,导致就业人数增加2.75 FTE。

未经允许不得转载:股市行情网 » did 双重差分「双重差分法(DID)入门必看」

相关文章

评论 (0)