大家好,又见面了,我是你们的朋友全栈君。
这个方法的难点在于:
首先,要明白反事实框架是一个什么样的东西?为什么一般把参与项目和不参与项目进行对比时会出现选择偏误?
其次,搞清楚上面的原理之后,PSM真正难的是找到合适的协变量和完成两个苛刻的检验(共同支撑检验和平衡性检验)
这篇文章我想达到哪些学习目标:
(1)尽量汇集我看过的有用的资料
(2)展示一个PSM分析的理论框架
(3)针对难点说一下模型的调整问题(协变量选择、两个检验的调整)
主要框架:1.理论 2.操作 3.案例 4.辨析 5.参考资料
1.问题的产生
1.1 大背景:因果推断与识别策略
计量经济学的“可信性革命”——从统计推断到因果推断的研究范式转变。
大多数的计量实证,集中于统计推断,即如何利用样本信息获得总体信息的估计以及如何进行假设检验以判断估计结果的统计显著性.
但越来越多的实证研究开始识别经济变量之间的因果关系。
“可信性革命”的关键特征是利用潜在结果框架清晰定义因果,利用随机化实验的思想作为因果效应识别的基础,
而,PSM就是识别策略之一。
1.2 小背景:匹配的原理
书面解释:在估计因果效应的时候,我们面临着因果推断的基本问题( Holland,1986),只能观察到一种干预状态下的结果,无法观察到其他干预状态下的结果.匹配方法的基本思想就是对于干预组个体,在控制组中寻找特征相似的控制组个体与其相匹配,从而用控制组个体的结果来估计干预组个体的反事实结果.ATT就是因果效应(PS:具体的公式表达很多资料都讲了,这里不再赘述)。
通俗解释:这个例子来自于连玉君老师。现在研究“读北大(X变量)有助于提高收入(Y变量)吗?”这个问题。
针对既定样本,存在一个自我选择偏误的问题:考上北大的孩子本身就很出色(聪明,有毅力,能力强…),并不是因为他们读了北大才收入高。
但是怎么办呢?在社会经济学中,无法像自然科学那样设置自然实验(对照组和实验组),这个人考上北大了(既定事实),我们就无法观察得到他不上北大(反事实)会是怎么样的?
所以,用PSM的思路,就是把能够上北大(处理组)的同学的个体特征进行分解,在不上北大(控制组)的同学中找到跟处理组个体的特征差不多的样本,再进行比较。比如:两个人高考成绩考得分数都差不多,所在城市,父母教育程度等也基本一样(我们说控制了协变量),那么他们收入的差异就只可能是是否上北大引起的差异,这就成功构造了一个类似自然实验的实验,来验证上北大和收入提高的因果效应。
2.方法原理
2.1 协变量匹配测度
略(懒得写公式,数理推导可以找一本参考书看看,陈强和赵西亮的都可以)
2.2 倾向指数匹配测度
略
3.基本步骤
3.1 定义相似性
3.1.1 协变量的选择
主要原则:同时影响干预变量和结果变量的混杂因素都应该纳入协变量的考虑范围之内。
也就是:
在倾向指数匹配中,如果引入与干预变量没有关系的变量不会有太大影响,它们对倾向指数模型没有影响,当这些变量是影响结果变量的重要因素时,引入它们可以提高估计精度.如果引入与结果变量没有关系的变量会稍微增加估计标准误差.如果遗漏重要的混杂因素将会造成显著的偏差.因而,对结果变量有重要影响的协变量,无论是否与干预变量有关系,均可以引入协变量作为匹配的依据(如下图的关系)。
3.1.2 相似性的测度标准
到底多相似(距离、卡尺)算相似呢?标准不同找到的匹配对象就不同。
距离。一般的欧式距离、标准化的欧式距离、马氏距离。后两者距离测度方法消除了量纲(or 单位)的影响。下面展示一个标准化欧式距离的公式:
卡尺。根据倾向指数设定卡尺,只有再卡尺范围内,才有可能相似。有卡尺的马氏距离匹配将距离定义为:
其中c是卡尺.上述距离定义说明,只有当在卡尺范围内时才有可能相似,在卡尺范围之外,将不可能是相似的. Rosenbaum and rubin(1985)建议利用线性化倾向指数标准差的0.25倍作为卡尺。
3.2 匹配实施方法
3.2.1 近邻匹配
①1对1匹配。
【概念】指为每一个干预组个体在控制组中寻找个距离最近的控制组个体与其匹配(一夫一妻)。
【优缺点】最终的匹配样本比较少,估计方差较大,但每个干预组个体寻找到的都是最近的,因而,偏差比较小。
②1对多匹配。
【概念】为每个干预组个体在控制组寻找多个个体与其匹配(一夫多妻)。
【优缺点】寻找的匹配比较多,匹配样本容量比较大,估计精度提高,但由于一对多近邻匹配中,与干预组个体相匹配的第二个、第三个等后面的控制组个体与干预组个体的相似性下降,从而估计偏差会增加。权衡后的选择:控制组样本数量很多时,可以考虑一对多近邻匹配。
③其他问题(选读)。
一对一匹配时,找到了距离相同的个体,可随机选择一个匹配或者排序后第一个出现的进行匹配。
重复匹配。重复选择控制组进行匹配能降低匹配偏差,但是会降低最终匹配样本的样本量,估计精度可能下降。
贪婪匹配vs最优匹配。贪婪匹配(个体最优,整体不一定最优)是指对每一个干预组个体都在控制组中寻找一个距离最近的.但是保证每一对距离最近,对全部干预组个体而言,匹配上的控制组样本并不一定是总体上最近的另一种匹配方法。总体上对所有的干预组个体同时进行匹配,寻找对所有干预组个体而言匹配上的总距离最小。权衡后的选择:如果关心平均因果效应,选择贪婪匹配即可;如果关心每个个体的匹配效果,最优匹配会得到更为平衡的结果。
3.2.2 分层匹配
根据协变量的取值进行分层。
3.2.3 小结
上面讲了很多让人很凌乱的匹配方法。如果你随便用PSM的方法就满足了一些假设,可能方法的调整对你来说意义不大,但是如果你的平衡性或者共同支撑检验的效果不好,显著性不高,那么就可以考虑换下方法,
3.3 匹配效果诊断
3.3.1 共同支撑检验
主要对匹配前后的核密度图进行对比,最好的结果是匹配之后两条线很相近。有的时候也会用第二章条形图。核密度图
3.3.2 平衡性检验
追求的目标:匹配前后各个变量的均值之间没有明显差异(均值偏差小,t值之小不显著)。主要是下面的表格和图。
3.4 估计因果效应
看y变量的ATT和显著性,如下图
3.5 小结及拓展资料阅读
3.1,3.2很可能需要重复多次;3.1,3.2,3.3不涉及结果变量,高度模拟“随机化实验”,提高实证的“科学性”和“可信性”倾向值匹配法的概述和应用+倾向值分析:统计方法与应用_网络_小力子的博客-CSDN博客blog.csdn.net
4.实际案例
【案例1】连玉君_2011 股权激励与公司绩效的关系
4.1 背景和问题、假设
4.2 我的手写笔记
拓展参考文献(来自连玉君老师的推荐):
(1)因果推断综述和进展*-Nichols, A., 2007, (非常详细地综述了因果推断相关的文献: PSM, IV-GMM, RDD)
Causal inference with observational data
*-Ichino, A., 2007 (较为细致地介绍了因果推断问题, PPT)
The problem of causality in microeconometrics.
*-Imbens, G., J. Wooldridge, 2009, (值得细读!!)
Recent developments in the econometrics of program evaluation
*-Pearl, J., 2009, (涉及结构方程等新内容)
Causal inference in statistics: An overview
(2)PSM相关文献*-Grilli, L., and C. Rampichini, 2011 (详细介绍了PSM和-psmatch2-的应用)
* Propensity scores for the estimation of average
* treatment effects in observational studies
shellout “$path\PPT\Grilli_2011_ppt_PSM.pdf” //极力推荐,解释的很到位!
*-Becker, S., A. Ichino, 2002, (第一篇系统性的介绍Stata应用的文章)
* Estimation of average treatment effects based on propensity scores,
* Stata Journal, 2(4): 358-377.
* 相关命令: findit Becker
shellout “$path\Refs\Becker_2002_PSM.pdf” //Google引用: 1030 次
*-Dehejia, R. H., S. Wahba, 2002, (较早应用 PSM 分析的文章)
* Propensity score-matching methods for nonexperimental causal studies,
* Review of Economics and Statistics, 84(1): 151-161.
shellout “$path\Refs\Dehejia_2002_PSM.pdf” //Google引用: 1700 次
*-Abadie, A., D. Drukker, J. Herr, G. Imbens, 2004,
* Implementing matching estimators for average treatment effects in Stata,
* Stata Journal, 4(3): 290-311.
help nnmatch //文中使用的命令
doedit “nnmatch.do” //文中范例的 do 文档
shellout “$path\Refs\Abadie_2004_PSM.pdf” //Google引用: 508 次
*-Caliendo, M., S. Kopeinig, 2008, (很好的综述和应用细节介绍)【重点推荐】
* Some practical guidance for the implementation of propensity score matching,
* Journal of Economic Surveys, 22(1): 31-72.
shellout “$path\Refs\Caliendo_2008_PSM.pdf” //Google引用: 843 次
*-Stuart, E. A., 2010, (对 PSM 的发展历程和应用细节进行了细致的综述)
* Matching Methods for Causal Inference: A Review and a Look Forward,
* Statistical Science, 25(1): 1-21.
shellout “$path\Refs\Stuart_2010_PSM.pdf” //Google引用: 67 次
5.问题反思(概念、方法,最优标准,如何调整)
(1)PSM和处理效应到底有什么关系?
(2)PSM为什么能解决样本选择偏误?
(3)不同的匹配方法(近邻匹配、核匹配、半径匹配等)怎么取舍?
(4)协变量的寻找。可以用psestimate这个命令?Stata新命令:psestimate – 倾向得分匹配中协变量的筛选blog.csdn.net
(5)核密度图怎么调整到最优?
(6)平衡性检验怎么调整到最优?
其他操作中的问题:倾向得分匹配(PSM)操作过程与问题反思www.sohu.com
6.stata命令『Stata』政策处理效应PSM模型基本命令汇总_变量www.sohu.com倾向得分匹配法(PSM)举例及stata实现 – 计量经济学与统计软件 – 经管之家(原人大经济论坛)bbs.pinggu.org
7.主要参考资料赵西亮《基本有用的计量经济学》
连玉君_2011《Evaluating the Effects of Equity Incentives: Using PSM Evidence from China》
计量经济学圈 系列文章
等等
8.特别说明
文中的笔记是根据连玉君老师、赵西亮老师总结得到,本人也在不断学习中。
资料展示过程中比较注重操作,对于原理和数理推导没有展开,大家可以自己去看书。
如果有什么表述不准确的地方,欢迎提出批评意见。
完结,撒花!~!~
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/128614.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...