Lasso回归总结

Lasso回归总结Ridge回归由于直接套用线性回归可能产生过拟合,我们需要加入正则化项,如果加入的是L2正则化项,就是Ridge回归,有时也翻译为岭回归。它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项,和一个调节线性回归项和正则化项权重的系数α。损失函数表达式如下:J(θ)=1/2(Xθ−Y)T(Xθ−Y)+1/2α||θ||22其中α为常数系数,需要进行调优。||θ||2为L…

大家好,又见面了,我是你们的朋友全栈君。

Ridge回归

由于直接套用线性回归可能产生过拟合,我们需要加入正则化项,如果加入的是L2正则化项,就是Ridge回归,有时也翻译为岭回归。它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项,和一个调节线性回归项和正则化项权重的系数α。损失函数表达式如下:

J(θ)=1/2(Xθ−Y)T(Xθ−Y)+1/2α||θ||22

其中α为常数系数,需要进行调优。||θ||2为L2范数。Ridge回归的解法和一般线性回归大同小异。如果采用梯度下降法,则每一轮θ迭代的表达式是:

θ=θ−(βXT(Xθ−Y)+αθ)

其中β为步长。

如果用最小二乘法,则θ的结果是:

θ=(XTX+αE)−1XT

其中E为单位矩阵。

Ridge回归在不抛弃任何一个变量的情况下,缩小了回归系数,使得模型相对而言比较的稳定,但这会使得模型的变量特别多,模型解释性差。有没有折中一点的办法呢?即又可以防止过拟合,同时克服Ridge回归模型变量多的缺点呢?有,这就是下面说的Lasso回归。

 

Lasso回归概述

Lasso回归有时也叫做线性回归的L1正则化,和Ridge回归的主要区别就是在正则化项,Ridge回归用的是L2正则化,而Lasso回归用的是L1正则化。Lasso回归的损失函数表达式如下:

J(θ)=1/2n(Xθ−Y)T(Xθ−Y)+α||θ||1

其中n为样本个数,α为常数系数,需要进行调优。||θ||1为L1范数。   

Lasso回归使得一些系数变小,甚至还是一些绝对值较小的系数直接变为0,因此特别适用于参数数目缩减与参数的选择,因而用来估计稀疏参数的线性模型。但是Lasso回归有一个很大的问题,导致我们需要把它单独拎出来讲,就是它的损失函数不是连续可导的,由于L1范数用的是绝对值之和,导致损失函数有不可导的点。也就是说,我们的最小二乘法,梯度下降法,牛顿法与拟牛顿法对它统统失效了。那我们怎么才能求有这个L1范数的损失函数极小值呢?接下来介绍两种全新的求极值解法:坐标轴下降法(coordinate descent)和最小角回归法( Least Angle Regression, LARS)。

 

坐标轴下降法求解Lasso回归

坐标轴下降法顾名思义,是沿着坐标轴的方向去下降,这和梯度下降不同。梯度下降是沿着梯度的负方向下降。不过梯度下降和坐标轴下降的共性就都是迭代法,通过启发式的方式一步步迭代求解函数的最小值。

坐标轴下降法的数学依据主要是这个结论(此处不做证明):一个可微的凸函数J(θ), 其中θ是nx1的向量,即有n个维度。如果在某一点θ¯,使得J(θ)在每一个坐标轴θ¯i(i = 1,2,…n)上都是最小值,那么J(θi)就是一个全局的最小值。

于是我们的优化目标就是在θ的n个坐标轴上(或者说向量的方向上)对损失函数做迭代的下降,当所有的坐标轴上的θi(i = 1,2,…n)都达到收敛时,我们的损失函数最小,此时的θ即为我们要求的结果。

下面我们看看具体的算法过程:

  1. 首先,我们把θ向量随机取一个初值。记为θ(0) ,上面的括号里面的数字代表我们迭代的轮数,当前初始轮数为0.

  2. 对于第k轮的迭代。我们从θ(k)1开始,到θ(k)n为止,依次求θ(k)i。θ(k)i的表达式如下:

    θ(k)i ∈ argmin J(θ(k)1,θ(k)2,…θ(k)i−1,θi,θ(k−1)i+1,…,θ(k−1)n)

  也就是说θ(k)i 是使J(θ(k)1,θ(k)2,…θ(k)i−1,θi,θ(k−1)i+1,…,θ(k−1)n)最小化时候的θi的值。此时J(θ)只有θ(k)i是变量,其余均为常量,因此最小值容易通过求导求得。

3. 检查θ(k)向量和θ(k−1)向量在各个维度上的变化情况,如果在所有维度上变化都足够小,那么θ(k)即为最终结果,否则转入2,继续第k+1轮的迭代。

以上就是坐标轴下降法的求极值过程,可以和梯度下降做一个比较:

  a) 坐标轴下降法在每次迭代中在当前点处沿一个坐标方向进行一维搜索 ,固定其他的坐标方向,找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值。

  b) 坐标轴下降优化方法是一种非梯度优化算法。在整个过程中依次循环使用不同的坐标方向进行迭代,一个周期的一维搜索迭代过程相当于一个梯度下降的迭代。

  c) 梯度下降是利用目标函数的导数来确定搜索方向的,该梯度方向可能不与任何坐标轴平行。而坐标轴下降法法是利用当前坐标方向进行搜索,不需要求目标函数的导数,只按照某一坐标方向进行搜索最小值。

  d) 两者都是迭代方法,且每一轮迭代,都需要O(mn)的计算量(m为样本数,n为系数向量的维度)

 

最小角回归法求解Lasso回归

在介绍最小角回归前,先介绍两个预备算法:

 

前向选择(Forward Selection)算法

前向选择算法的原理是是一种典型的贪心算法。要解决的问题是对于:Y=Xθ这样的线性关系,如何求解系数向量θ的问题。其中Y为 mx1的向量,X为mxn的矩阵,θ为nx1的向量。m为样本数量,n为特征维度。

把矩阵X看做n个mx1的向量Xi(i=1,2,…n),在Y的X变量Xi(i =1,2,…m)中,选择和目标Y最为接近(余弦距离最大)的一个变量Xk,用Xk来逼近Y,得到下式:

Y-=Xkθk

其中:θk=<Xk,Y>/||Xk||2

即:Y¯ 是 Y在 Xk上的投影。那么,可以定义残差(residual):   Yyes=Y−Y-。由于是投影,所以很容易知道 Yyes和Xk是正交的。再以Yyes为新的因变量,去掉Xk后,剩下的自变量的集合Xi,i={1,2,3…k−1,k+1,…n}为新的自变量集合,重复刚才投影和残差的操作,直到残差为0,或者所有的自变量都用完了,才停止算法。

Lasso回归总结

当X只有2维时,例子如上图,和Y最接近的是X1,首先在X1上面投影,残差如上图长虚线。此时X1θ1模拟了Y,θ1模拟了θ(仅仅模拟了一个维度)。接着发现最接近的是X2,此时用残差接着在X2投影,残差如图中短虚线。由于没有其他自变量了,此时X1θ1+X2θ2模拟了Y,对应的模拟了两个维度的θ即为最终结果,此处θ计算设计较多矩阵运算,这里不讨论。

此算法对每个变量只需要执行一次操作,效率高,速度快。但也容易看出,当自变量不是正交的时候,由于每次都是在做投影,所有算法只能给出一个局部近似解。因此,这个简单的算法太粗糙,还不能直接用于我们的Lasso回归。

 

前向梯度(Forward Stagewise)算法

前向梯度算法和前向选择算法有类似的地方,也是在Y的X变量Xi(i =1,2,…n)中,选择和目标Y最为接近(余弦距离最大)的一个变量Xk,用Xk来逼近Y,但是前向梯度算法不是粗暴的用投影,而是每次在最为接近的自变量Xt的方向移动一小步,然后再看残差Yyes和哪个Xi(i =1,2,…n)最为接近。此时我们也不会把Xt 去除,因为我们只是前进了一小步,有可能下面最接近的自变量还是Xt 。如此进行下去,直到残差Yyes减小到足够小,算法停止。

Lasso回归总结

当X只有2维时,例子如上图,和Y最接近的是X1,首先在X1上面走一小段距离,此处ε为一个较小的常量,发现此时的残差还是和X1最接近。那么接着沿X1走,一直走到发现残差不是和X1最接近,而是和X2最接近,此时残差如上图长虚线。接着沿着X2走一小步,发现残差此时又和X1最接近,那么开始沿着X1走,走完一步后发现残差为0,那么算法停止。此时Y由刚才所有的所有步相加而模拟,对应的算出的系数θ即为最终结果。此处θ计算设计较多矩阵运算,这里不讨论。

当算法在ε很小的时候,可以很精确的给出最优解,当然,其计算的迭代次数也是大大的增加。和前向选择算法相比,前向梯度算法更加精确,但是更加复杂。

有没有折中的办法可以综合前向梯度算法和前向选择算法的优点,做一个折中呢?这就是终于要出场的最小角回归法。

 

最小角回归(Least Angle Regression, LARS)算法

最小角回归法对前向梯度算法和前向选择算法做了折中,保留了前向梯度算法一定程度的精确性,同时简化了前向梯度算法一步步迭代的过程。具体算法是这样的: 

首先,还是找到与因变量Y最接近或者相关度最高的自变量Xk,使用类似于前向梯度算法中的残差计算方法,得到新的目标Yyes,此时不用和前向梯度算法一样小步小步的走。而是直接向前走直到出现一个Xt,使得Xt和Yyes的相关度和Xk与Yyes的相关度是一样的,此时残差Yyes就在Xt和Xk的角平分线方向上,此时我们开始沿着这个残差角平分线走,直到出现第三个特征Xp和Yyes的相关度足够大的时候,即Xp到当前残差Yyes的相关度和θt,θk与Yyes的一样。将其也叫入到Y的逼近特征集合中,并用Y的逼近特征集合的共同角分线,作为新的逼近方向。以此循环,直到Yyes足够的小,或者说所有的变量都已经取完了,算法停止。此时对应的系数θ即为最终结果。

Lasso回归总结

当θ只有2维时,例子如上图,和Y最接近的是X1,首先在X1上面走一段距离,一直到残差在X1和X2的角平分线上,此时沿着角平分线走,直到残差最够小时停止,此时对应的系数β即为最终结果。此处θ计算设计较多矩阵运算,这里不讨论。

最小角回归法是一个适用于高维数据的回归算法,其主要的优点有:

  1)特别适合于特征维度n 远高于样本数m的情况。

  2)算法的最坏计算复杂度和最小二乘法类似,但是其计算速度几乎和前向选择算法一样

  3)可以产生分段线性结果的完整路径,这在模型的交叉验证中极为有用

主要的缺点是:

  由于LARS的迭代方向是根据目标的残差而定,所以该算法对样本的噪声极为敏感。

 

总结

Lasso回归是在ridge回归的基础上发展起来的,如果模型的特征非常多,需要压缩,那么Lasso回归是很好的选择。一般的情况下,普通的线性回归模型就够了。

 

参考自Lasso回归算法: 坐标轴下降法与最小角回归法小结

转载于:https://www.cnblogs.com/wmx24/p/9555219.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/138755.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 亚马逊服务器购买_电商平台用什么服务器

    亚马逊服务器购买_电商平台用什么服务器Siteground主机空间怎么样?很多国内的小伙伴可能对siteground主机空间比较陌生,感觉不如bluehost或者Godaddy名气大,实际上siteground在国外是一家非常有名气和实力的美国主机服务商,也是wordpress、Drupal、Jommla这三家知名建站程序一致推荐的主机商。我们蓝鲨网络使用siteground也好多年,最近几年也有非常多的客户选购了他家的主机,这几年使用下来最明显的感觉就是稳定、速度快、客服解决问题的技术水平都比较高。siteground套餐配置区别首先

  • CreateMutex() 、ReleaseMutex()

    CreateMutex() 、ReleaseMutex()功能:CreateMutex()用于有独占要求的程序(在其进程运行期间不允许其他使用此端口设备的程序运行,或不允许同名程序运行)。比如运行金山词霸时,一次只能运行一个实例,当运行第二个实例时,实际上是激活第一个实例,将其带到最顶层。原型:1HANDLECreateMutex(2LPSECURITY_ATTRIBUTESlpMutexAttribut…

  • mysql的建表语句_mysql如何查询建表语句

    mysql的建表语句_mysql如何查询建表语句mysql建表语句mysql安装教程见博客:MySQL7.7.25图文安装教程(Win10)本篇博客以学生表、课程表以及学生-课程表为例,讲解mysql常用的建表语句。1.学生表Sno(学号)Sname(姓名)Sex(性别)Sage(年龄)Sdept(系)201215121李勇男20CS201215122刘晨女19CS201215…

  • 笔试面试算法经典–最长回文子串

    笔试面试算法经典–最长回文子串回文的定义正读和反读都相同的字符序列为“回文”,如“abba”、“abccba”是“回文”,“abcde”和“ababab”则不是“回文”。字符串的最长回文子串,是指一个字符串中包含的最长的回文子串。例如“1212134”的最长回文子串是“12121”。下面给出了三种求最长子串的方法。解法1(中心扩展法)时间复杂度O(n^2),空间复杂度为O(1)。中心扩展法的思路是,遍历到数组的某一个元素时,以这

  • 安装Chrome驱动[通俗易懂]

    安装Chrome驱动[通俗易懂]相信许多小伙伴在学习selenium时候遇到驱动器无法运行的错误,就跟我一样,所以写一篇博客讲一讲如何安装这就是谷歌浏览器驱动没有安装成功而产生的报错。下面我给大家简单说说如何安装谷歌驱动器。Windows系统1.下载谷歌浏览器可以参考以下链接https://www.google.cn/intl/zh-CN/chrome然后检测自己的版本2.下载对应的Chrome驱动参考以下的链接http://npm.taobao.org/mirrors/chromedriver/应该可以看到以下

  • 大数据时代

    大数据时代

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号