VIF检验相关性「建议收藏」

VIF检验相关性「建议收藏」VIF可以用来度量多重共线性问题,VIFj=11−Rj2\quad\mathrm{VIF}_{j}=\frac{1}{1-R_{j}^{2}}VIFj​=1−Rj2​1​式子中,Rj2R_{j}^{2}Rj2​是第jjj个变量在所有变量上回归时的确定系数。如果VIF过大(比如大于5或10),则意味着存在多重共线性问题。#数据df=pd.read_excel(io=’数据.xlsx’,sheet_name=0,usecols=range(1,5))#务必注意:一定要加上常数项,#如果没

大家好,又见面了,我是你们的朋友全栈君。

VIF可以用来度量多重共线性问题, V I F j = 1 1 − R j 2 \quad \mathrm{VIF}_{j}=\frac{1}{1-R_{j}^{2}} VIFj=1Rj21
式子中, R j 2 R_{j}^{2} Rj2是第 j j j个变量在所有变量上回归时的确定系数。
如果VIF过大(比如大于5或10),则意味着存在多重共线性问题。关于多重共线性更多内容可以参考往期文章https://blog.csdn.net/weixin_45288557/article/details/111769464

(由于没有VIF临界值表,我们只能使用经验法则:若VIF>5,则存在严重多重共线性。也有人建议用VIF>10作为存在严重多重共线性的标准,特别在解释变量多的情形应当如此。)

#数据
df = pd.read_excel(io='数据.xlsx', sheet_name=0, usecols=range(1,5))

# 务必注意:一定要加上常数项,#如果没有常数项列,计算结果天差地别,可能VIF等于好几千
df['Constant Value']=1 #添加常数项
df.head()

from statsmodels.stats.outliers_influence import variance_inflation_factor
# 这里可以选择想要判断的变量列
df_tezheng=df[["var1","var2","var3","var4","var5", 'Constant Value']]

# 进行vif检验
vif=[]
for i in range(df_tezheng.shape[1]-1):
    #计算第i+1个变量的(第i+1列)的方差膨胀因子
    vif.append(variance_inflation_factor(df_tezheng.values,i))
#result_out
yy=pd.DataFrame(df_tezheng.columns[:-1,])
yy.rename(columns={ 
   0:"var_name"},inplace=True) 
yy["vif"]=vif
print(yy)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/130507.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号