SVM——支持向量回归(SVR)[通俗易懂]

大家好，又见面了，我是你们的朋友全栈君。

1、支持向量回归的原始问题

先来看看SVM线性支持向量机(软间隔)的原始问题：

其中ξ_i是松弛变量，但它实际上是hinge(合页)损失函数，所以ξ_i也作为对应的点(x_i, y_i)的损失，如下图所示：
在这里插入图片描述
当点(x_i, y_i)位于间隔面上或者间隔面之外(这两种都是正确分类的情况)则ξ_i=0，若点(x_i, y_i)位于分割面上或者位于间隔面与分割面之间(正确分类)或者位于间隔面与分割面之间(错误分类)，这三种情况都是有损失的，损失为 1 – y_i(w·x_i + b)。

SVM线性支持向量机(软间隔)的原始问题等价于如下问题：

好了现在来看SVR的原始问题：在这里插入图片描述
如上图所示，SVR需要学到一个最大间隔(几何间隔)的回归面或回归线，ε代表精度，在2ε间隔之内的点和间隔面上的点离回归面最近，所以认为这些点的预测结果比较可靠，是没有损失的，而2ε间隔之外的点离回归面较远，所以认为这些点的预测结果不太可靠，是有损失的。而敏感度损失函数刚好就能用来计算每个点的损失，如下图所示：
在这里插入图片描述
其中w·x_i+b代表预测值，y_i是实际值，|w·x_i+b – y_i|表示误差绝对值，如果点(x_i, y_i)的预测误差绝对值小于等于ε，则ξ_i=0，ξ_i代表损失；如果点(x_i, y_i)的预测误差绝对值大于ε，则ξ_i= |w·x_i+b – y_i| – ε。
综上所述得出SVR的原始约束问题：
在这里插入图片描述
其中约束条件的意义就是让所有的点(x_i, y_i)都满足敏感度损失函数，也就是让 ξ_i 能足够代替点(x_i, y_I)的损失，因为ξ_i 始终大于等于该点的预测误差绝对值减去ε。

SVR目标表达式的解释：
这里附上一点自己的理解，不对的地方欢迎指证。将上述SVR的目标表达式分两部分来分析，先看后半部分的惩罚项，它的最小化使得训练集中绝大多数的点都位于精度为|ε|的间隔面内；再来看前半部分的1/2||w||² ，它的最小化是为了几何间隔最大化，而几何间隔最大化保证了间隔面内的绝大部分y为正的点会预测为正的，y为负的点会预测为负的。综上所述，惩罚项控制预测的精度，几何间隔控制预测的正负号，所以该目标表达式最小化的解w^*和b^*将是最优的回归线。

根据硬间隔SVM和软间隔SVM的知识，我们知道SVM的原始问题最终都转换为求其对偶问题，所以SVR也不例外。因为SVR原始问题的不等式约束不是凸函数，所以该不等式约束需要转换一下，如下：
|w·x_i+b – y_i| – ε <= ξ_i 等价于 -ε – ξ_i <= w·x_i+b – y_i <= ε + ξ_i ，其中 -ε – ξ_i <= w·x_i+b – y_i 即 y_i – w·x_i+b <= ε + ξ_i 代表上图中回归面(蓝色线)的下方区域，当点(x_i, y_i)位于回归面和下间隔面之间时，ξ_i =0，当点(x_i, y_i)位于下间隔面下方时ξ_i>0，这时 ξ_i 就代表回归面下方区域中的点的损失，我们可以用ξ_i^v来代替它。同理-ε – ξ_i <= w·x_i+b – y_i <= ε + ξ_i 中的右侧部分 w·x_i+b – y_i <= ε + ξ_i就可以看作上图中回归面(蓝色线)的上方区域，当点(x_i, y_i)位于回归面和上间隔面之间时，ξ_i =0，当点(x_i, y_i)位于上间隔面上方时ξ_i>0，这时 ξ_i 就代表回归面上方区域中的点的损失，我们可以用ξ_i^ 来代替它。
令f(x_i) = w·x_i+b，我们最终得到SVR的原始问题如下：
在这里插入图片描述

2、支持向量回归的对偶问题

先求原始问题的拉格朗日函数，再对拉格朗日函数求极大(对拉格朗日乘子)极小(对模型参数)问题就得到对偶问题。过程如下：
拉格朗日函数：

对拉格朗日函数求极大极小问题：
(1)先对拉格朗日函数求极小(对模型参数)
分别令L(w, b, α^v, α^ , ξ^v , ξ^ , μ^v, μ^ ) 对w, b, ξ^v , ξ^的倒数等于0得：

其中Φ(x_i)指的是x_i向量。
将上面式子带入拉格朗日函数中消去w, b, ξ^v , ξ^得：

(2)再对(1)中得到的式子求极大(对拉格朗日乘子)

约束条件是：

其中α_i^v >=0，μ_i^v >=0，α_i^ >=0，μ_i^ >=0，由α_i^v= C – μ_i^v 得 0 <= α_i^v <= C，同理得 0 <= α_i^ <= C。
所以支持向量回归的原始问题对应的对偶问题如下：

再将对偶问题的目标表达式转换成求极小，就得到最终的对偶问题如下：
在这里插入图片描述
对偶问题的求解即求出α_i^v 和 α_i^ 可以用SMO算法，这里不再讲了。

3、支持向量

支持向量可以说是代表了SVM模型的稀疏性，对于SVR同样有支持向量。
硬间隔线性可分支持向量机的支持向量是间隔面上的点；
软间隔线性支持向量机的支持向量是间隔面上的点、间隔面内被正确分类的点、分割面上的点以及所有被分错的点的集合；
支持向量回归的支持向量则是间隔面之外的点也就是(α_i^v – α_i^) != 0的点。
(不想看分析过程的可以这么理解，因为支持向量回归必然要使得训练数据集中大部分的点都位于回归线附近，即位于间隔面之内(包括间隔面上)，所以只允许小部分的点(预测误差较大)位于间隔面之外，支持向量本来就是数据集中的一小部分点，所以位于间隔面之外的点就是支持向量)
分析过程如下：
要使得(w^* , b^* , ξ^v^*, ξ^^* , α_i^v^* , α_i^^* , μ_i^v^* , μ_i^ ^*)这一组解满足(w^* , b^* , ξ^v^*, ξ^^*)是原始问题的最优解且(α_i^v^* , α_i^^* , μ_i^v^* , μ_i^ ^*)是对偶问题的最优解，则必须满足以下KKT条件：

由(3)(4)(9)(10)可得：
在这里插入图片描述
因为位于间隔面之内的点(包括间隔面)满足 ξ^v^* = ξ^^* = 0，位于下间隔面下方的点满足ξ^^* = 0， ξ^v^* ！= 0 ；位于上间隔面上方的点满足 ξ^v^* =0，ξ^^* ！= 0，；综上所述ξ^v^* ， ξ^^* 至少有一个为0，所以ξ^v^* ξ^^*=0
当ξ^v^* = ξ^^* = 0时：
假设α_i^v^* 和 α_i^^* 都不为0，由(5)和(6)可得，f(x_i) – y_i – ε = 0， y_i – f(x_i) – ε = 0，两式相加，所以ε=0。由题设可知ε是精度(>0)，不可能为0，故矛盾，所以假设错误，则可得α_i^v^* 和 α_i^^* 中至少有一个为0。
当ξ^v^* =0， ξ^^* ！= 0时：
假设α_i^v^* 和 α_i^^* 都不为0，由(5)和(6)可得，f(x_i) – y_i – ε = 0， y_i – f(x_i) – ε – ξ^^* = 0，两式相加，所以 ξ^^* = -2ε。由题设可知ξ^^* 是大于等于0的，而这里ξ^^*小于0，故矛盾，所以假设错误，则可得α_i^v^* 和 α_i^^* 中至少有一个为0。
当ξ^v^* ！=0， ξ^^* = 0时：
同理可得，α_i^v^* 和 α_i^^* 中至少有一个为0。
综上所述，α_i^v^* 和 α_i^^* 中至少有一个为0，所以α_i^v^* α_i^^* = 0。
整理上述过程推导的一些条件，可得如下部分KKT条件：
在这里插入图片描述
因为α_i^v^* 和 α_i^^* 中至少有一个为0，如果α_i^v^* = α_i^^*，则必有α_i^v^* = α_i^^* = 0，由(d)可知必有ξ^v^* = ξ^^* = 0，所以α_i^v^* = α_i^^*对应的点位于间隔面之内(包括间隔面上)。
那么α_i^v^* ！= α_i^^*，即(α_i^v^* – α_i^^*) !=0对应的点位于间隔面之外，所以(α_i^v^* – α_i^^*) !=0对应的点就是我们支持向量。