大家好，又见面了，我是你们的朋友全栈君。

作者：張張張張
github地址：https://github.com/zhanghekai
【转载请注明出处，谢谢！】

【机器学习系列】之SVM硬间隔和软间隔
 【机器学习系列】之SVM核函数和SMO算法
 【机器学习系列】之支持向量回归SVR
【机器学习系列】之sklearn实现SVM代码

一、SVM回归模型概述

对于SVM回归模型：给定样本 $D=\{(x_1,y_1),(x_2,y_2),\cdots ,(x_m,y_m)\}, y\in R$ (由于是回归模型， $y$ 没有类别)，我们的目标是让训练集中的每个点 $x_i,y_i)$ 尽量拟合到一个线性模型 $y_i=w\cdot\phi(x_i)+b$ 。

对于一般的回归模型： 通常采用均方差作为损失函数。传统回归模型通常直接基于“模型输出”与“真实输出”之间的差别来计算损失，当切仅当二者完全相同时，损失才为 $0$ 。

对于SVM回归模型： “支持向量回归（Support Vector Regression）”需要定义一个常量 $\epsilon>0$ , $\epsilon$ 为能容忍“模型输出”与“真实输出”之间最多有 $\epsilon$ 的偏差。

如果 $|y_i-w\cdot\phi(x_i)-b|\leq\epsilon$ ，则完全没有损失；
如果 $|y_i-w\cdot\phi(x_i)-b|\geq\epsilon$ ，则对应的损失为 $|y_i-w\cdot\phi(x_i)-b|-\epsilon$

即：仅当 $f(x)=w\cdot\phi(x_i)-b$ 与 $y$ 之间的差别绝对值大于 $\epsilon$ 时才计算损失。

如下图所示，这相当于以 $f (x)$ 为中心，构建了一个宽度为 $2\epsilon$ 的间隔带，若训练样本落入此间隔带，则认为是被预测正确的。

在这里插入图片描述
综上所述，SVM回归模型的损失函数度量为：
$err(x_i,y_i)=\begin{cases}0,\qquad\qquad\qquad\qquad\qquad\qquad |y_i-w\cdot\phi(x_i)-b|\leq\epsilon\\ |y_i-w\cdot\phi(x_i)-b|-\epsilon,\qquad\quad|y_i-w\cdot\phi(x_i)-b|>\epsilon \end{cases}$

二、SVM回归模型目标函数

定义SVM回归模型目标函数为：
$\underbrace{min}_{w,b}\;\frac{1}{2}||w||^2\\ s.t. \quad|y_i-w\cdot\phi(x_i)-b|\leq\epsilon\;(i = 1,2,\cdots,m)$

回归模型也可以对每个样本加入松弛变量，但由于这里 $s . t .$ 处用的是绝对值，实际上是两个不等式，即两边都需要松弛变量，定义松弛变量为 $\check{\xi}、\hat{\xi}$ ，加入松弛变量后的SVM回归模型的损失函数为：
$\underbrace{min}_{w,b,\check{\xi}_i,\hat{\xi}_i}\;\frac{1}{2}||w||^2+C\sum_{i=1}^{m}(\check{\xi}_i+\hat{\xi}_i)\\ s.t.\quad -\epsilon-\check{\xi}_i\leq y_i-w\cdot \phi(x_i)-b\leq\epsilon+\hat{\xi}_i\\ \check{\xi}_i\geq 0,\hat{\xi}_i\geq0\quad(i=1,2,\cdots,m)$

间隔带两侧的松弛程度可有所不同。

同SVM分类模型相似，可以用拉格朗日函数将目标优化哈数变成无约束的形式：

带求目标 $f(x)=\underbrace{min}_{w,b,\check{\xi}_i,\hat{\xi}_i}\;\frac{1}{2}||w||^2+C\sum_{i=1}^{m}(\check{\xi}_i+\hat{\xi}_i)$
不等式约束：
- $h_1(x)=y_i-w\cdot\phi(x_i)-b- \epsilon-\hat{\xi}_i\leq0$
- $h_2(x)=w\cdot\phi(x_i)+b-y_i- \epsilon-\check{\xi}_i\leq0$
- $g_1(x)=-\check{\xi}_i\leq0$
- $g_2(x)=-\hat{\xi}_i\leq0$
拉格朗日乘子：
- $\hat{\alpha}_i = (\hat{\alpha}_1,\hat{\alpha}_2,\cdots,\hat{\alpha}_m)$
- $\check{\alpha}_i = (\check{\alpha}_1,\check{\alpha}_2,\cdots,\check{\alpha}_m)$
- $\hat{\mu}_i=(\hat{\mu}_1,\hat{\mu}_2,\cdots,\hat{\mu}_m)$
- $\check{\mu}_i=(\check{\mu}_1,\check{\mu}_2,\cdots,\check{\mu}_m)$
拉格朗日函数：
$L(w,b,\check{\xi}_i,\hat{\xi}_i,\check{\alpha}_i,\hat{\alpha}_i,\check{\mu}_i,\hat{\mu}_i)=f(x)+\hat{\alpha}_ih_1(x)+\check{\alpha}_ih_2(x)+\check{\mu}_ig_1(x)+\hat{\mu}_ig_2(x)\\ =\frac{1}{2}||w||^2+C\sum_{i=1}^{m}(\check{\xi}_i+\hat{\xi}_i)+\sum_{i=1}^{m}\hat{\alpha}_i(y_i-w\cdot\phi(x_i)-b-\epsilon-\hat{\xi}_i)\\ +\sum_{i=1}^{m}\check{\alpha}_i(x\cdot\phi(x_i)+b-y_i-\epsilon-\check{\xi})-\sum_{i=1}^{m}\check{\mu}_i\check{\xi}_i-\sum_{i=1}^{m}\hat{\mu}_i\hat{\xi}_i$

SVM回归模型原始形式：
$\underbrace{min}_{w,b,\check{\xi}_i,\hat{\xi}_i}\quad \underbrace{max}_{\hat{\alpha}_i\geq0,\check{\alpha}_i\geq0,\hat{\mu}_i\geq0,\check{\mu}_i\geq0}L(w,b,\check{\xi}_i,\hat{\xi}_i,\check{\alpha}_i,\hat{\alpha}_i,\check{\mu}_i,\hat{\mu}_i)$

和SVM分类模型一样，这个优目标也满足KKT条件，可以通过拉格朗日对偶将优化问题转化为等价的对偶问题来求解：
$\underbrace{max}_{\hat{\alpha}_i\geq0,\check{\alpha}_i\geq0,\hat{\mu}_i\geq0,\check{\mu}_i\geq0}\quad \underbrace{min}_{w,b,\check{\xi}_i,\hat{\xi}_i}L(w,b,\check{\xi}_i,\hat{\xi}_i,\check{\alpha}_i,\hat{\alpha}_i,\check{\mu}_i,\hat{\mu}_i)$
可以先求优化函数对于 $w,b,\check{\xi}_i,\hat{\xi}_i$ 的极小值，接着再求拉格朗日乘子 $\hat{\alpha}_i,\check{\alpha}_i,\hat{\mu}_i,\check{\mu}_i$ 的极大值。

三、SVM回归模型目标函数求解

首先来求优化函数对于 $w,b,\check{\xi}_i,\hat{\xi}_i$ 的极小值，这个可以通过对 $L$ 求偏导数求得：
$\frac{\partial L}{\partial w}=0\implies w=\sum_{i=1}^{m}(\hat{\alpha}_i-\check{\alpha}_i)\phi(x_i)\\[1ex] \frac{\partial L}{\partial b}=0\implies\sum_{i=1}^{m}(\hat{\alpha}_i-\check{\alpha}_i)=0\\[1ex] \frac{\partial L}{\partial \check{\xi}_i}=0\implies C=\check{\alpha}_i+\check{\mu}_i\\[1ex] \frac{\partial L}{\partial \hat{\xi}_i}=0\implies C=\hat{\alpha}_i+\hat{\mu}_i$

将上述4个式子带入 $L(w,b,\check{\xi}_i,\hat{\xi}_i,\check{\alpha}_i,\hat{\alpha}_i,\check{\mu}_i,\hat{\mu}_i)$ ，消去 $w,b,\check{\xi}_i,\hat{\xi}_i$ 。
$\underbrace{max}_{\check{\alpha}_i,\hat{\alpha}_i}\quad\sum_{i=1}^{m}(y_i(\hat{\alpha}_i-\check{\alpha}_i)-\epsilon(\hat{\alpha}_i+\check{\alpha}_i))-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}(\hat{\alpha}_i-\check{\alpha}_i)(\hat{\alpha}_j-\check{\alpha}_j)\kappa_{ij}\\ s.t. \quad \sum_{i=1}^{m}(\hat{\alpha}_i-\check{\alpha}_i)=0\\ 0<\check{\alpha_i}<C\quad(i=1,2,\cdots,m)\\ 0<\hat{\alpha}_i<C \quad(i=1,2,\cdots,m)$

对目标函数取负号，得到求极小值的目标函数如下：
$\underbrace{min}_{\hat{\alpha}_i,\check{\alpha}_i}\quad\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}(\hat{\alpha}_i-\check{\alpha}_i)(\hat{\alpha}_j-\check{\alpha}_j)\kappa_{ij}-\sum_{i=1}^{m}(y_i(\hat{\alpha}_i-\check{\alpha}_i)-\epsilon(\hat{\alpha}_i+\check{\alpha}_i))\\ s.t. \quad \sum_{i=1}^{m}(\hat{\alpha}_i-\check{\alpha}_i)=0\\ 0<\check{\alpha_i}<C\quad(i=1,2,\cdots,m)\\ 0<\hat{\alpha}_i<C \quad(i=1,2,\cdots,m)$

对于这个目标函数，依然可以用SMO算法来求出对应的 $\check{\alpha_i},\hat{\alpha_i}$ ，进而求出回归模型系数 $w, b$ 。

四、SVM回归模型系数的系数的稀疏性

上述过程需满足KKT条件，即要求：
$\begin{cases}\hat{\alpha}_i(y_i-w\cdot\phi(x_i)-b-\epsilon-\hat{\xi}_i)=0\\ \check{\alpha}_i(x\cdot\phi(x_i)+b-y_i-\epsilon-\check{\xi}_i)=0\\ \check{\alpha}_i\hat{\alpha}_i=0,\quad\check{\xi}_i\hat{\xi}_i=0\\ (C-\check{\alpha}_i)\check{\xi}_i=0,\quad (C-\hat{\alpha}_i)\hat{\xi}_i=0 \end{cases}$

由KKT条件知：

当且仅当 $y_i-w\cdot\phi(x_i)-b-\epsilon-\hat{\xi}_i=0$ 时， $\hat{\alpha}_i$ 能取非零值；
当且仅当 $x\cdot\phi(x_i)+b-y_i-\epsilon-\check{\xi}_i=0$ 时， $\check{\alpha}_i$ 能取非零值；
总结： 仅当样本 $x_i,y_i)$ 不落入 $\epsilon-$ 间隔带中，相应的 $\check{\alpha}_i$ 和 $\hat{\alpha}_i$ 才能取非零值。
约束 $y_i-w\cdot\phi(x_i)-b-\epsilon-\hat{\xi}_i=0$ 和 $x\cdot\phi(x_i)+b-y_i-\epsilon-\check{\xi}_i=0$ 不能同时成立，因此 $\check{\alpha}_i$ 和 $\hat{\alpha}_i$ 中至少有一个为 $0$ 。
落在 $\epsilon-$ 间隔带中的样本都满足 $\check{\alpha}_i=0$ 且 $\hat{\alpha}_i=0$ 。

最终SVM线性回归的解形式如下：
$f(x)=\sum_{i=1}^{m}(\hat{\alpha}_i-\check{\alpha}_i)\kappa(x,x_i)+b$
其中 $\kappa(x_i,x_j)=\phi(x_i)^T\phi(x_j)$ 为核函数。

能使 $f (x)$ 中的 $(\hat{\alpha}_i-\check{\alpha}_i)$ 不等于 $0$ 的样本即为SVR的支持向量，它们必落在 $\epsilon-$ 间隔带之外。 显然，SVR的支持向量仅是训练样本的一部分。

由KKT条件可以看出，对每个样本 $x_i,y_i)$ 都有： $(C-\check{\alpha}_i)\check{\xi}_i=0$ 且 $\check{\alpha}_i(x\cdot\phi(x_i)+b-y_i-\epsilon-\check{\xi}_i)=0$ 。于是，在得到 $\check{\alpha}_i$ 后，若 $0<\check{\alpha}_i<C$ ，必有 $\check{\xi_i}=0$ ，则 $x\cdot\phi(x_i)+b-y_i-\epsilon=0$ ，进而有：
$b=y_i+\epsilon-\sum_{j=1}^{m}(\hat{\alpha}_j-\check{\alpha}_j)x_j^Tx_i$
因此，通过SMO算法得到 $\check{\alpha}_i$ 后，可任意选取满足 $0<\check{\alpha}_i<C$ 的样本通过上式求得 $b$ 。实践中常采用一种更鲁棒的办法：选取多个（或所有）满足条件 $0<\check{\alpha}_i<C$ 的样本求解b后取平均值。

【参考文献】

刘建平博客园：https://www.cnblogs.com/pinard/
周志华《机器学习》

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/137537.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

【机器学习系列】之支持向量回归SVR

一、SVM回归模型概述

二、SVM回归模型目标函数

三、SVM回归模型目标函数求解

四、SVM回归模型系数的系数的稀疏性

相关推荐

JAVA HD japan_电竞小金刚：优派VX2778-hd-PRO

yum安装telnet命令_centos 安装telnet

CreatePipe匿名管道通信

getchar的使用

如何更改linux文件的拥有者及用户组(chown和chgrp)[通俗易懂]

O泡果奶-APK反编译-Lua脚本

发表回复