回归分析中自变量取舍、检验及多重共线性处理（VIF）「建议收藏」

大家好，又见面了，我是你们的朋友全栈君。

A1 正交假定：误差项矩阵与X中每一个x向量都不相关
高斯-马尔科夫定理：若满足A1和A2假定，则采用最小二乘法得到回归参数估计是最佳线性无偏估计
方程估计值b1和b2可以看做偏回归系数，也是相应自变量对y的一种偏效应
偏效应：在控制变量下，各自变量X对因变量Y的净效应
残差项：针对具体模型而言，被定义为样本回归模型中观测值与预测值之差
误差项：针对总体真实回归模型而言，它由一些不可观测因素或测量误差所引起
纳入无关自变量并不影响OLS估计结果的无偏性，但是如果无关自变量如果与其他自变量相关，会导致相应回归系数（b1,b2）的标准误增大；换句话说，如果总体中无关自变量对y没有偏效应，那么把它加入模型只可能增加多重共线性问题，从而减弱估计的有效性。
因此，不要加入无关自变量，原因是

有可能错过理论上有意义发现
违背了简约原则
浪费了自由度
导致估计精度下降

如果忽略有关自变量可能有两种情况

所忽略的变量与模型中其他变量无关
所忽略变量与模型中其他变量有关
针对第一种情况，最小二乘估计无偏，但对第二种情况，被忽略自变量成了误差项一部分，使得x2与误差项之间不再保持独立，因此，回归系数将是总体参数的有偏估计（看第8章）

对因变量取自然对数log作用在于：

我们关注焦点是自变量导致因变量改变的比例，而不是绝对量
取自然对数后因变量分布更趋近于正态分布，这将有助于减小样本中异常值对回归估计的影响；另外，对因变量取自然对数，还能消除残差的异方差（乘法变加法）以及残差的非正态性

SST=SSE+SSR
SST的自由度为n-1，损失的自由度是由于我们用样本均值来估计总体均值
SSE的自由度是n-p，损失了p个自由度是由于因变量的估计值需要估计p个参数
SSR自由度为p-1，因为估计值y是由相同回归直线计算得到，而这条回归直线只有p个自由度，其中一个自由度损失是因为所有回归离差之和必须为0

MSR:回归均方
MSE：残差均方
MSR=SSR/(p-1)
MSE=SSE/(n-p)

判定系数（R^2）：回归平方和占总平方和的比例
R^2=SSR/SST
当回归方程加入更多自变量：

SST保持不变
SSR会增加(至少不减少）
SSE会减少（至少不减少）
R^2会增加（至少不减少）
MSR一般会增加
MSE一般会减少
回归方程F检验值一般会增加
注意：对于第5和第7项，当回归模型中加入不相关变量时，对解释平方和没有贡献，却消耗了更多的自由度，此时可能导致不好的模型

为什么自由度损失越少越好？

F检验：检验因变量Y和自变量x1,x2,x3…的线性关系是否显著，即判断所有的回归系数中是否至少有一个不等于0；我们不仅可以利用F检验来检验回归模型，还可以用它来检验模型中某个回归系数是否为0；F检验是比t检验更为一般的统计检验

拟合优度测量:拟合优度包含了判定系数，F检验和t检验
判定系数R^2：对模型整体拟合优度是一个有启发意义的测量，但它没有相应检验统计量
R^2=SSR/SST=SSR/(SSR+SSE)

回归分析两个常见问题：

加入了不相关的自变量，其后果是：
#1. 错过有理论价值的发现
#2. 违背简约原则
#3. 损耗自由度：模型中多增加一个自变量将多消耗一个自由度，当样本量较少时，过度损耗自由度可能会造成回归方程无法求解
#4. 降低估计精度：加入自变量过多，自变量间相关程度就可能增加，容易造成多重共线性，从而降低估计精度
忽略了关键的自变量

加入和删除自变量时，应该遵循两个标准：

加入自变量要有理论依据
用F检验来排除那些不相关的自变量

多重共线性：
不能仅凭自变量两两简单线性相关来判断是否存在共线性，判断共线性要基于整个自变量矩阵X来检查列向量组
多重共线性解决：

减少自变量
增加样本量
3.换用数据
多重共线性分为完全多重共线性和近似多重共线性，完全多重共线性不常见，但近似多重共线性很常见
多重共线性几乎不可避免，因为自变量之间总会存在某种程度的相关，但只有当自变量之间线性关系高到一定程度才发生多重共线性问题
多重共线性会导致参数估计值标准误增大等问题
除完全共线性外，即使较强的多重共线性也没有违背多元回归分析的假定，即回归参数OLS估计仍然是无偏和一致的
完全多重共线性问题对分类变量转化为虚拟变量也有指导意义，如季节问题，完全多重共线性会导致OLS估计有偏，因为它的矩阵是奇异矩阵，是不可逆的
近似多重共线性是可以估计的，但是估计的误差很大，即回归参数估计值标准误过大，而回归系数估计的标准误过大会导致统计检验和推论不可靠
多重共线性问题使得我们意识到不能在模型中无限度增加自变量数目，因为自变量的增加，使得每个自变量能被模型其他自变量解释的程度越来越高，复相关系数也越来越大，多重共线性问题越来越严重
反映多重共线性程度指标VIF（方差膨胀因子）
VIF=1/TOL=1/(1-R’^2)

判断是否存在严重近似共线性经验性原则：

自变量中最大方差膨胀因子VIF大于10
平均方差膨胀因子VIF明显大于1
如果满足上述一条，则我们可认为存在严重的近似多重共线性问题

对于完全多重共线性处理，可以直接删除相关变量
但是对于近似多重共线性问题，我们一方面可以通过增大样本量，另外也可以通过将一定相关性变量综合成较少的几个变量，如利用主成分分析或因子分析等

多重共线性处理办法：

保留重要解释变量，去掉次要或可替代解释变量
改变解释变量形式
ex：对横截面数据采用相对数变量，对于时间序列数据采用增量型变量
差分法
逐步回归分析
逐步回归分析是将逐个引入自变量，引入条件时该自变量经F检验显著，每引入一个自变量后，对已选入变量进行逐个检验，如果原来引入的变量由于后面变量引入而变得不再显著，就将其剔除
主成份分析
主成份分析的降维优势明显，主成分回归方法对一般多重共线性问题还是适用的，尤其是共线性较强的变量之间
偏最小二乘回归
岭回归（L2正则）
岭回归通过最小二乘法改进允许回归系数有偏估计量存在而补救多重共线性方法，采用它可允许小的误差而换取高于无偏估计量的精度
增加样本容量
多重共线性问题实质是样本信息不充分而导致模型参数不能精确估计，故追加样本信息是解决问题的一条有效途径