VIF,共线相关性理解「建议收藏」

VIF,共线相关性理解「建议收藏」多重共线性是指在变量空间中,存在自变量可以近似地等于其他自变量的线性组合如果将所有自变量用于线性回归或逻辑回归的建模,将导致模型系数不能准确表达自变量对Y的影响。比如:如果X1和X2近似相等,则模型Y=X1+X2可能被拟合成Y=3X1-X2,原来X2与Y正向相关被错误拟合成负相关,导致模型没法在业务上得到解释。在评分卡建模中,可能将很多相关性很高的变量加入到建模自变量中,最终得到的模型如果用变量系数去解释自变量与目标变量的关系是不合适的。相关矩阵是指由样本…

大家好,又见面了,我是你们的朋友全栈君。

VIF,共线相关性理解「建议收藏」

VIF,共线相关性理解「建议收藏」

多重共线性是指在变量空间中,存在自变量可以近似地等于其他自变量的线性组合

如果将所有自变量用于线性回归或逻辑回归的建模,将导致模型系数不能准确表达自变量对Y的影响。

比如:如果X1和X2近似相等,则模型Y = X1 + X2 可能被拟合成Y = 3 X1 – X2,原来 X2 与 Y 正向相关被错误拟合成负相关,导致模型没法在业务上得到解释。

在评分卡建模中,可能将很多相关性很高的变量加入到建模自变量中,最终得到的模型如果用变量系数去解释自变量与目标变量的关系是不合适的。

相关矩阵是指由样本的相关系数组成的矩阵,自变量相关系数过大意味着存在共线性,同时会导致信息冗余,维度增加。

设置相关系数的阈值,当大于threshold时,删除IV值较小的变量。

VIF(variance inflation factors)VIF =1/(1-R^2) 式中,R^2是以xj为因变量时对其它自变量回归的复测定系数。

VIF越大,该变量与其他的变量的关系越高,多重共线性越严重。如果所有变量最大的VIF超过10,删除最大VIF的变量。

VIF,共线相关性理解「建议收藏」

VIF,共线相关性理解「建议收藏」

参考:

多重共线性:python中利用statsmodels计算VIF和相关系数消除共线性_ab1112221212的博客-CSDN博客

https://www.cnblogs.com/wqbin/p/11109650.html(可决系数)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/141970.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 大津阈值法原理_ostu阈值分割

    大津阈值法原理_ostu阈值分割具体的公式推导参见冈萨雷斯**《数字图像处理》**Otsu方法又称最大类间方差法,通过把像素分配像素分为两类或多类,计算类间方差,当方差达到最大值时,类分割线(即灰度值)就作为图像分割阈值。Otsu还有一个重要的性质,即它完全基于对图像直方图进行计算,这也使他成为最常用的阈值处理算法之一。算法步骤如下:…

  • 传统请求风格 VS RestFul 风格

    传统请求风格 VS RestFul 风格RestFul风格概念Restful就是一个资源定位及资源操作的风格。不是标准也不是协议,只是一种风格。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。功能资源:互联网所有的事物都可以被抽象为资源资源操作:使用POST、DELETE、PUT、GET,使用不同方法对资源进行操作。分别对应添加、删除、修改、查询。传统方式操作资源:通过不同的参数来实现不同的效果!方法单一,post和get​ http://127.0.0.1/item/queryItem.actio

  • Ubuntu18.04 安装 gcc「建议收藏」

    Ubuntu18.04 安装 gcc「建议收藏」在Ubuntu18.04下安装gcc的指令:sudoadd-apt-repositoryppa:unbutu-toolchain-r/testsudoapt-getupdatesudoapt-getinstallgcc  这种方法最简单,默认安装最新版本的gcc,安装完成后,输入下面指令查看gcc的版本gcc-v    Refere…

  • Python 打开文件对话框「建议收藏」

    Python 打开文件对话框「建议收藏」以下内容来自http://interactivepython.org/runestone/static/thinkcspy/GUIandEventDrivenProgramming/02_standard_dialog_boxes.html#file-chooserimporttkinterastkfromtkinterimportfiledialogimportosa…

  • androidrepublic_android develop

    androidrepublic_android developPreferenceFragment用来显示首选项的设置,效果图如下:主布局文件:<RelativeLayoutxmlns:android=”http://schemas.android.com/apk/res/android”xmlns:tools=”http://schemas.android.com/tools”android:…

  • 使用knn算法对鸢尾花数据集进行分类(数据挖掘apriori算法)

    KNN算法实现鸢尾花数据集分类一、knn算法描述1.基本概述knn算法,又叫k-近邻算法。属于一个分类算法,主要思想如下:一个样本在特征空间中的k个最近邻的样本中的大多数都属于某一个类别,则该样本也属于这个类别。其中k表示最近邻居的个数。用二维的图例,说明knn算法,如下:二维空间下数据之间的距离计算:在n维空间两个数据之间:2.具体步骤:(1)计算待测试数据与各训练数据的距…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号