大家好，又见面了，我是你们的朋友全栈君。

支持向量回归(Support Vector Regression)

文章目录

支持向量回归(Support Vector Regression)
总结

支持向量机除了能够分类，还可以用于回归。

回归的目的是得到一个能够尽量拟合训练集样本的模型 $f(\mathbf{x})$ ，通常用的方法是构建一个样本标签与模型预测值的损失函数，使损失函数最小化从而确定模型 $f(\mathbf{x})$ 。

在这里插入图片描述

例如，在线性回归模型中，损失函数(L2损失，L1损失，huber损失)由模型输出 $f(\mathbf{x})$ 与真实输出 $y$ 之间的差别来计算，通过最小化损失函数来确定模型 $f(\mathbf{x})$ ，当且仅当 $f(\mathbf{x})$ 与 $y$ 完全相等时，损失才为0。

那支持向量机是如何用于回归的呢？

支持向量机的精髓在于间隔最大化。

在分类任务中，使靠超平面最近的样本点之间的间隔最大；

在这里插入图片描述

而在回归任务中，同样也是间隔最大，不同的是它使靠超平面最远的样本点之间的间隔最大。

在这里插入图片描述
如果使靠超平面最远的样本点之间的间隔最大，那么上图样本点的回归超平面结果就应该变成下左图那样。

在这里插入图片描述
显然，我们希望回归能达到右图的效果，于是SVR对间隔加了限制，对所有的样本点，回归模型 $f(\mathbf{x})$ 与 $y$ 的偏差必须 $\le \varepsilon$ 。我们把这个偏差范围称作 $\varepsilon$ 管道。

在这里插入图片描述
依据以上的思路，SVR的优化问题可以用数学式表示为
$\begin{aligned} &\min_{\mathbf{w},b} \frac{1}{2} ||\mathbf{w}||_2^2 \\ s.t. \quad |y_i – (\mathbf{w}^T &\mathbf{x}_i + b)| \le \varepsilon, \quad i = 1,2,\cdots,N \end{aligned}$
SVR的目的是：保证所有样本点在 $\varepsilon$ 管道内的前提下，回归超平面 $f(\mathbf{x})$ 尽可能地平。

在这里插入图片描述
在 $\varepsilon$ 不变的前提下，回归超平面 $f(\mathbf{x})$ 尽可能平和间隔尽可能大是等效的。

带松弛变量的SVR

实际应用中， $\varepsilon$ 设置太小无法保证所有样本点都在 $\varepsilon$ 管道内， $\varepsilon$ 太大回归超平面会被一些异常点带偏。

在这里插入图片描述
和软间隔SVM模型类似，SVR允许每个样本 $(\mathbf{x}_i,y_i)$ 添加松弛变量 $\xi_i \ge 0$ ，用来描述样本点偏离 $\varepsilon$ 管道的程度。

如何添加松弛变量？

如果直接在约束条件中加上松弛变量，变成 $|y_i – (\mathbf{w}^T \mathbf{x}_i + b)| \le \varepsilon + \xi_i$ ，即
$\left\{ \begin{aligned} y_i – (\mathbf{w}^T \mathbf{x}_i + b) &\le \varepsilon + \xi_i \quad 上界约束 \\ (\mathbf{w}^T \mathbf{x}_i + b) – y_i &\le \varepsilon + \xi_i \quad 下界约束 \end{aligned} \right.$
在这里插入图片描述
显然，超出间隔上界的样本点影响到了下界面的约束。

那么是否可以对超出不同界面的样本点分开添加松弛变量？

比如：样本点超出间隔上界，我们令
$\left\{ \begin{aligned} y_i – (\mathbf{w}^T \mathbf{x}_i + b) &\le \varepsilon + \xi_i \quad 上界约束 \\ (\mathbf{w}^T \mathbf{x}_i + b) – y_i &\le \varepsilon \quad 下界约束 \end{aligned} \right.$
超出间隔下界，令
$\left\{ \begin{aligned} y_i – (\mathbf{w}^T \mathbf{x}_i + b) &\le \varepsilon \quad 上界约束 \\ (\mathbf{w}^T \mathbf{x}_i + b) – y_i &\le \varepsilon + \xi_i \quad 下界约束 \end{aligned} \right.$
但是事先不知道样本点超出的是上界还是下界，因此也不可行，而且超出上界和超出下界的约束条件形式还不相同。

其实，上下界的松弛变量可以用不同符号来表示： $\xi_i^{\bigwedge} \ge 0,\xi_i^{\bigvee} \ge 0$ ，约束条件变成
$\left\{ \begin{aligned} y_i – (\mathbf{w}^T \mathbf{x}_i + b) &\le \varepsilon + \xi_i^{\bigwedge} \quad 上界约束 \\ (\mathbf{w}^T \mathbf{x}_i + b) – y_i &\le \varepsilon + \xi_i^{\bigvee} \quad 下界约束 \end{aligned} \right.$
当 $\xi_i^{\bigwedge} \ne 0,\xi_i^{\bigvee} = 0$ 时，样本点超出上界；

当 $\xi_i^{\bigwedge} = 0,\xi_i^{\bigvee} \ne 0$ 时，样本点超出下界；

当 $\xi_i^{\bigwedge} = 0,\xi_i^{\bigvee} = 0$ 时，样本点在 $\varepsilon$ 通道内。

$\xi_i^{\bigwedge} \ne 0, \xi_i^{\bigvee} \ne 0$ 这种情况不可能出现，因为这表示样本点既超出上界又超出下界，明显不可能发生。

引入松弛变量，SVR的优化问题形式为
$\begin{aligned} &\min_{\mathbf{w},b} \frac{1}{2} ||\mathbf{w}||_2^2 + C \sum_{i=1}^N (\xi_i^{\bigvee} + \xi_i^{\bigwedge}) \\ s.t. \quad – \varepsilon – \xi_i^{\bigvee}& \le y_i – (\mathbf{w}^T \mathbf{x}_i + b) \le \varepsilon + \xi_i^{\bigwedge}, \quad i = 1,2,\cdots,N \\ &\xi_i^{\bigvee} \ge 0, \xi_i^{\bigwedge} \ge 0, \quad i = 1,2,\cdots,N \end{aligned}$

带松弛变量的SVR目标函数的优化

依然与SVM分类模型类似，先用拉格朗日乘子法，将目标函数变成：
$\begin{aligned} &L(\mathbf{w},b,\boldsymbol{\alpha}^{\bigvee},\boldsymbol{\alpha}^{\bigwedge},\boldsymbol{\xi}^{\bigvee},\boldsymbol{\xi}^{\bigwedge},\boldsymbol{\mu}^{\bigvee},\boldsymbol{\mu}^{\bigwedge}) \\ = &\frac{1}{2} ||\mathbf{w}||_2^2 + C \sum_{i=1}^N (\xi_i^{\bigvee} + \xi_i^{\bigwedge}) + \sum_{i=1}^N \alpha_i^{\bigvee} [- \varepsilon – \xi_i^{\bigvee} – y_i + (\mathbf{w}^T \mathbf{x}_i + b)] \\ &+ \sum_{i=1}^N \alpha_i^{\bigwedge} [y_i – (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon – \xi_i^{\bigwedge}] – \sum_{i=1}^N \mu_i^{\bigvee} \xi_i^{\bigvee} – \sum_{i=1}^N \mu_i^{\bigwedge} \xi_i^{\bigwedge} \end{aligned}$

其中， $\alpha_i^{\bigvee} \ge 0, \alpha_i^{\bigwedge} \ge 0, \mu_i^{\bigvee} \ge 0, \mu_i^{\bigwedge} \ge 0$ 都是拉格朗日系数。

那么优化问题变为
$\begin{aligned} \min_{\mathbf{w}, b, \boldsymbol{\xi}^{\bigvee}, \boldsymbol{\xi}^{\bigwedge}} \, \max_{\boldsymbol{\alpha}^{\bigvee}, \boldsymbol{\alpha}^{\bigwedge}, \boldsymbol{\mu}^{\bigvee}, \boldsymbol{\mu}^{\bigwedge}} \, L(&\mathbf{w},b,\boldsymbol{\alpha}^{\bigvee},\boldsymbol{\alpha}^{\bigwedge},\boldsymbol{\xi}^{\bigvee},\boldsymbol{\xi}^{\bigwedge},\boldsymbol{\mu}^{\bigvee},\boldsymbol{\mu}^{\bigwedge}) \\ s.t. \quad \xi_i^{\bigvee} \ge 0,& \quad i = 1,2,\cdots,N \\ \xi_i^{\bigwedge} \ge 0,& \quad i = 1,2,\cdots,N \\ \quad \alpha_i^{\bigvee} \ge 0,& \quad i=1,2,\cdots,N \\ \alpha_i^{\bigwedge} \ge 0,& \quad i=1,2,\cdots,N \\ \mu_i^{\bigvee} \ge 0,& \quad i=1,2,\cdots,N \\ \mu_i^{\bigwedge} \ge 0,& \quad i=1,2,\cdots,N \end{aligned}$
优化问题满足KKT条件，可以等价为对偶问题
$\begin{aligned} \max_{\boldsymbol{\alpha}^{\bigvee}, \boldsymbol{\alpha}^{\bigwedge}, \boldsymbol{\mu}^{\bigvee}, \boldsymbol{\mu}^{\bigwedge}} \, \min_{\mathbf{w}, b, \boldsymbol{\xi}^{\bigvee}, \boldsymbol{\xi}^{\bigwedge}} \, L(&\mathbf{w},b,\boldsymbol{\alpha}^{\bigvee},\boldsymbol{\alpha}^{\bigwedge},\boldsymbol{\xi}^{\bigvee},\boldsymbol{\xi}^{\bigwedge},\boldsymbol{\mu}^{\bigvee},\boldsymbol{\mu}^{\bigwedge}) \\ s.t. \quad \xi_i^{\bigvee} \ge 0,& \quad i = 1,2,\cdots,N \\ \xi_i^{\bigwedge} \ge 0,& \quad i = 1,2,\cdots,N \\ \quad \alpha_i^{\bigvee} \ge 0,& \quad i=1,2,\cdots,N \\ \alpha_i^{\bigwedge} \ge 0,& \quad i=1,2,\cdots,N \\ \mu_i^{\bigvee} \ge 0,& \quad i=1,2,\cdots,N \\ \mu_i^{\bigwedge} \ge 0,& \quad i=1,2,\cdots,N \end{aligned}$
先求目标函数的最小化问题
$\min_{\mathbf{w},b,\boldsymbol{\xi}^{\bigvee},\boldsymbol{\xi}^{\bigwedge}} L(\mathbf{w},b,\boldsymbol{\alpha}^{\bigvee},\boldsymbol{\alpha}^{\bigwedge},\boldsymbol{\xi}^{\bigvee},\boldsymbol{\xi}^{\bigwedge},\boldsymbol{\mu}^{\bigvee},\boldsymbol{\mu}^{\bigwedge})$
对参数求偏导得：
$\left\{ \begin{aligned} &\frac{\partial L}{\partial \mathbf{w}} = 0 \Rightarrow \mathbf{w} = \sum_{i=1}^N (\alpha_i^{\bigwedge} – \alpha_i^{\bigvee}) \mathbf{x}_i \\ &\frac{\partial L}{\partial b} = 0 \Rightarrow \sum_{i=1}^N (\alpha_i^{\bigwedge} – \alpha_i^{\bigvee}) = 0 \\ &\frac{\partial L}{\partial \xi_i^{\bigvee}} = 0 \Rightarrow C – \alpha_i^{\bigvee} – \mu_i^{\bigvee} = 0 \\ &\frac{\partial L}{\partial \xi_i^{\bigwedge}} = 0 \Rightarrow C – \alpha_i^{\bigwedge} – \mu_i^{\bigwedge} = 0 \end{aligned} \right.$
令
$\psi(\boldsymbol{\alpha}^{\bigvee},\boldsymbol{\alpha}^{\bigwedge},\boldsymbol{\mu}^{\bigvee},\boldsymbol{\mu}^{\bigwedge}) = \min_{\mathbf{w}, b, \boldsymbol{\xi}^{\bigvee},\boldsymbol{\xi}^{\bigwedge}} L(\mathbf{w},b,\boldsymbol{\alpha}^{\bigvee},\boldsymbol{\alpha}^{\bigwedge},\boldsymbol{\xi}^{\bigvee},\boldsymbol{\xi}^{\bigwedge},\boldsymbol{\mu}^{\bigvee},\boldsymbol{\mu}^{\bigwedge})$
把以上偏导结果代入目标函数得到
$\begin{aligned} &\psi(\boldsymbol{\alpha}^{\bigvee},\boldsymbol{\alpha}^{\bigwedge},\boldsymbol{\mu}^{\bigvee},\boldsymbol{\mu}^{\bigwedge}) \\ = &\frac{1}{2} ||\mathbf{w}||_2^2 + C \sum_{i=1}^N (\xi_i^{\bigvee} + \xi_i^{\bigwedge}) + \sum_{i=1}^N \alpha_i^{\bigvee} [- \varepsilon – \xi_i^{\bigvee} – y_i + (\mathbf{w}^T \mathbf{x}_i + b)] \\ &+ \sum_{i=1}^N \alpha_i^{\bigwedge} [y_i – (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon – \xi_i^{\bigwedge}] – \sum_{i=1}^N \mu_i^{\bigvee} \xi_i^{\bigvee} – \sum_{i=1}^N \mu_i^{\bigwedge} \xi_i^{\bigwedge} \\ = &\frac{1}{2} ||\mathbf{w}||_2^2 + \sum_{i=1}^N [(C-\alpha_i^{\bigvee}-\mu_i^{\bigvee})\xi_i^{\bigvee} + (C-\alpha_i^{\bigwedge}-\mu_i^{\bigwedge}) \xi_i^{\bigwedge}] \\ &+ \sum_{i=1}^N \alpha_i^{\bigvee} [- \varepsilon – y_i + (\mathbf{w}^T \mathbf{x}_i + b)] + \sum_{i=1}^N \alpha_i^{\bigwedge} [y_i – (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon] \\ = &\frac{1}{2} ||\mathbf{w}||_2^2 + \sum_{i=1}^N \alpha_i^{\bigvee} [- \varepsilon – y_i + (\mathbf{w}^T \mathbf{x}_i + b)] + \sum_{i=1}^N \alpha_i^{\bigwedge} [y_i – (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon] \\ = &\frac{1}{2} \mathbf{w}^T \mathbf{w} – \mathbf{w}^T \sum_{i=1}^N ( \alpha_i^{\bigwedge} – \alpha_i^{\bigvee} ) \mathbf{x}_i + b \sum_{i=1}^N (\alpha_i^{\bigvee} – \alpha_i^{\bigwedge}) – \sum_{i=1}^N [ ( \varepsilon – y_i ) \alpha_i^{\bigwedge} + (\varepsilon + y_i) \alpha_i^{\bigvee} ] \\ = &\frac{1}{2} \mathbf{w}^T \sum_{i=1}^N (\alpha_i^{\bigwedge} – \alpha_i^{\bigvee}) \mathbf{x}_i – \mathbf{w}^T \sum_{i=1}^N (\alpha_i^{\bigwedge} – \alpha_i^{\bigvee}) \mathbf{x}_i – \sum_{i=1}^N [ ( \varepsilon – y_i ) \alpha_i^{\bigwedge} + (\varepsilon + y_i) \alpha_i^{\bigvee} ] \\ = & – \frac{1}{2} \mathbf{w}^T \sum_{i=1}^N (\alpha_i^{\bigwedge} – \alpha_i^{\bigvee}) \mathbf{x}_i – \sum_{i=1}^N [ ( \varepsilon – y_i ) \alpha_i^{\bigwedge} + (\varepsilon + y_i) \alpha_i^{\bigvee} ] \\ = & – \frac{1}{2} [ \sum_{j=1}^N (\alpha_j^{\bigwedge} – \alpha_j^{\bigvee}) \mathbf{x}_j ]^T \sum_{i=1}^N (\alpha_i^{\bigwedge} – \alpha_i^{\bigvee}) \mathbf{x}_i – \sum_{i=1}^N [ ( \varepsilon – y_i ) \alpha_i^{\bigwedge} + (\varepsilon + y_i) \alpha_i^{\bigvee} ] \\ = & – \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N (\alpha_i^{\bigwedge} – \alpha_i^{\bigvee}) (\alpha_j^{\bigwedge} – \alpha_j^{\bigvee}) \mathbf{x}_j^T\mathbf{x}_i – \sum_{i=1}^N [ ( \varepsilon – y_i ) \alpha_i^{\bigwedge} + (\varepsilon + y_i) \alpha_i^{\bigvee} ] \\ = & – \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N (\alpha_i^{\bigwedge} – \alpha_i^{\bigvee}) (\alpha_j^{\bigwedge} – \alpha_j^{\bigvee}) \mathbf{x}_i^T\mathbf{x}_j – \sum_{i=1}^N [ ( \varepsilon – y_i ) \alpha_i^{\bigwedge} + (\varepsilon + y_i) \alpha_i^{\bigvee} ] \end{aligned}$
因为目标函数已经消去了参数 $\boldsymbol{\xi}^{\bigvee}$ 和 $\boldsymbol{\xi}^{\bigwedge}$ ，所以相应的约束条件也可以去掉。

剩下约束条件
$\begin{aligned} \alpha_i^{\bigvee} \ge 0,& \quad i = 1,2,\cdots,N \\ \alpha_i^{\bigwedge} \ge 0,& \quad i = 1,2,\cdots,N \\ \mu_i^{\bigvee} \ge 0,& \quad i = 1,2,\cdots,N \\ \mu_i^{\bigwedge} \ge 0,& \quad i = 1,2,\cdots,N \end{aligned}$
联合等式
$\begin{aligned} C – \alpha_i^{\bigvee} – \mu_i^{\bigvee} = 0,& \quad i = 1,2,\cdots,N \\ C – \alpha_i^{\bigwedge} – \mu_i^{\bigwedge} = 0,& \quad i = 1,2,\cdots,N \end{aligned}$
可以去掉 $\mu_i^{\bigvee}, \mu_i^{\bigwedge}$ ，等效为
$\begin{aligned} 0 \le \alpha_i^{\bigvee} \le C,& \quad i = 1,2,\cdots,N \\ 0 \le \alpha_i^{\bigwedge} \le C,& \quad i = 1,2,\cdots,N \end{aligned}$

去掉包含参数 $\mu_i^{\bigvee}, \mu_i^{\bigwedge}$ 的约束条件的原因和软间隔SVM分类模型的类似，是为了让整个优化问题涉及的参数尽量少，方便优化问题的求解。

综上，优化问题的数学形式表示为：
$\begin{aligned} \max_{\boldsymbol{\alpha}^{\bigvee}, \boldsymbol{\alpha}^{\bigwedge}} \, – \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N (\alpha_i^{\bigwedge} – &\alpha_i^{\bigvee}) (\alpha_j^{\bigwedge} – \alpha_j^{\bigvee}) \mathbf{x}_i^T \mathbf{x}_j – \sum_{i=1}^N [ ( \varepsilon – y_i ) \alpha_i^{\bigwedge} + (\varepsilon + y_i) \alpha_i^{\bigvee} ] \\ s.t. \quad &\sum_{i=1}^N(\alpha_i^{\bigwedge} – \alpha_i^{\bigvee}) = 0 \\ &0 \le \alpha_i^{\bigvee} \le C, \quad i=1,2,\cdots,N \\ &0 \le \alpha_i^{\bigwedge} \le C, \quad i=1,2,\cdots,N \end{aligned}$
目标函数去掉负号，将上述的最大化问题变成最小化问题，得到等价问题：
$\begin{aligned} \min_{\boldsymbol{\alpha}^{\bigvee}, \boldsymbol{\alpha}^{\bigwedge}} \, \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N (\alpha_i^{\bigwedge} – &\alpha_i^{\bigvee}) (\alpha_j^{\bigwedge} – \alpha_j^{\bigvee}) \mathbf{x}_i^T\mathbf{x}_j + \sum_{i=1}^N [ ( \varepsilon – y_i ) \alpha_i^{\bigwedge} + (\varepsilon + y_i) \alpha_i^{\bigvee} ] \\ s.t. \quad &\sum_{i=1}^N(\alpha_i^{\bigwedge} – \alpha_i^{\bigvee}) = 0 \\&0 \le \alpha_i^{\bigvee} \le C, \quad i=1,2,\cdots,N \\&0 \le \alpha_i^{\bigwedge} \le C, \quad i=1,2,\cdots,N \end{aligned}$
通过SMO算法可以求得最优参数 ${\boldsymbol{\alpha}^{\bigvee}}^*$ 和 ${\boldsymbol{\alpha}^{\bigwedge}}^*$ ，然后计算
$\mathbf{w}^* = \sum_{i=1}^N ({\alpha_i^{\bigwedge}}^* – {\alpha_i^{\bigvee}}^*) \mathbf{x}_i$

与软间隔SVM分类模型类似，SVR的支持向量并不都在最大间隔边界上，而且SVR上下界的数学表达式还不相同，为方便处理，我们只选用下界的支持向量(当然，你也可以选用上界的支持向量)。

在这里插入图片描述
对任一下界的支持向量 $(\mathbf{x}_k,y_k)$ ，有
$b^* = y_k +\epsilon – {\mathbf{w}^*}^T \mathbf{x}_k$

实践中常采用一种求 $b^*$ 的更鲁棒(robust)的方法：选取多个(或所有)下界(或上界)的支持向量求解b后再取平均。

SVM回归模型的支持向量

已知KKT条件(部分，不是全部)：
$\begin{aligned} C – \alpha_i^{\bigvee} – \mu_i^{\bigvee} = 0,& \quad i = 1,2,\cdots,N \\ C – \alpha_i^{\bigwedge} – \mu_i^{\bigwedge} = 0,& \quad i = 1,2,\cdots,N \\ \alpha_i^{\bigvee} [ \varepsilon + \xi_i^{\bigvee} + y_i – (\mathbf{w}^T \mathbf{x}_i + b)] = 0,& \quad i = 1,2,\cdots,N \\ \alpha_i^{\bigwedge} [ \varepsilon + \xi_i^{\bigwedge} – y_i + (\mathbf{w}^T \mathbf{x}_i + b) ] = 0,& \quad i = 1,2,\cdots,N \\ \mu_i^{\bigvee} \xi_i^{\bigvee} = 0,& \quad i = 1,2,\cdots,N \\ \mu_i^{\bigwedge} \xi_i^{\bigwedge} = 0,& \quad i = 1,2,\cdots,N \\ y_i \ge (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon – \xi_i^{\bigvee},& \quad i = 1,2,\cdots,N \\ y_i \le (\mathbf{w}^T \mathbf{x}_i + b) + \varepsilon + \xi_i^{\bigwedge},& \quad i = 1,2,\cdots,N \\ \xi_i^{\bigvee} \ge 0,& \quad i = 1,2,\cdots,N \\ \xi_i^{\bigwedge} \ge 0,& \quad i = 1,2,\cdots,N \\ \alpha_i^{\bigvee} \ge 0,& \quad i = 1,2,\cdots,N \\ \alpha_i^{\bigwedge} \ge 0,& \quad i = 1,2,\cdots,N \\ \mu_i^{\bigvee} \ge 0,& \quad i = 1,2,\cdots,N \\ \mu_i^{\bigwedge} \ge 0,& \quad i = 1,2,\cdots,N \end{aligned}$

我们有以下推论：

如果 $\alpha_i^{\bigvee} \ne 0$ 且 $\alpha_i^{\bigwedge} \ne 0$ ，那么根据
$\left\{ \begin{aligned} \alpha_i^{\bigvee} [ \varepsilon + \xi_i^{\bigvee} + y_i – (\mathbf{w}^T \mathbf{x}_i + b)] &= 0 \\ \alpha_i^{\bigwedge} [ \varepsilon + \xi_i^{\bigwedge} – y_i + (\mathbf{w}^T \mathbf{x}_i + b) ] &= 0 \end{aligned} \right.$
样本点 $(\mathbf{x}_i, y_i)$ 就必须满足
$\left\{ \begin{aligned} \varepsilon + \xi_i^{\bigvee} + y_i – (\mathbf{w}^T \mathbf{x}_i + b) &= 0 \\ \varepsilon + \xi_i^{\bigwedge} – y_i + (\mathbf{w}^T \mathbf{x}_i + b) &= 0 \end{aligned} \right.$
即
$\left\{ \begin{aligned} y_i = (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon – \xi_i^{\bigvee} \\ y_i = (\mathbf{w}^T \mathbf{x}_i + b) + \varepsilon + \xi_i^{\bigwedge} \end{aligned} \right.$
因为
$\left\{ \begin{aligned} \xi_i^{\bigvee} \ge 0 \\ \xi_i^{\bigwedge} \ge 0 \end{aligned} \right.$

所以样本点 $(\mathbf{x}_i, y_i)$ 同时在上界外和下界外，显然是不可能的。

在这里插入图片描述

如果 $\alpha_i^{\bigvee}=0$ 且 $\alpha_i^{\bigwedge}=0$ ，根据
$\left\{ \begin{aligned} C – \alpha_i^{\bigvee} – \mu_i^{\bigvee} &= 0 \\ C – \alpha_i^{\bigwedge} – \mu_i^{\bigwedge} &= 0 \end{aligned} \right.$
有
$\left\{ \begin{aligned} \mu_i^{\bigvee} &= C \\ \mu_i^{\bigwedge} &= C \end{aligned} \right.$
再根据
$\left\{ \begin{aligned} \mu_i^{\bigvee} \xi_i^{\bigvee} &= 0 \\ \mu_i^{\bigwedge} \xi_i^{\bigwedge} &= 0 \end{aligned} \right.$
有
$\left\{ \begin{aligned} \xi_i^{\bigvee} &= 0 \\ \xi_i^{\bigwedge} &= 0 \end{aligned} \right.$
所以
$\left\{ \begin{aligned} y_i &\ge (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon \\ y_i &\le (\mathbf{w}^T \mathbf{x}_i + b) + \varepsilon \end{aligned} \right.$
样本点 $(\mathbf{x}_i,y_i)$ 在 $\varepsilon$ 通道内，不是支持向量；

在这里插入图片描述
上面两种情况的讨论可以总结出
$\begin{aligned} \alpha_i^{\bigvee} \ne 0 \quad&\Rightarrow \quad y_i = (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon – \xi_i^{\bigvee} \\ \alpha_i^{\bigwedge} \ne 0 \quad&\Rightarrow \quad y_i = (\mathbf{w}^T \mathbf{x}_i + b) + \varepsilon + \xi_i^{\bigwedge} \\ \alpha_i^{\bigvee}=0 \quad&\Rightarrow \quad y_i \ge (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon \\ \alpha_i^{\bigwedge}=0 \quad&\Rightarrow \quad y_i \le (\mathbf{w}^T \mathbf{x}_i + b) + \varepsilon \end{aligned}$

如果 $\alpha_i^{\bigvee} \ne 0$ 且 $\alpha_i^{\bigwedge} = 0$ ，有
$\left\{ \begin{aligned} y_i &= (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon – \xi_i^{\bigvee} \\ y_i &\le (\mathbf{w}^T \mathbf{x}_i + b) + \varepsilon \end{aligned} \right. \quad \Rightarrow \quad y_i = (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon – \xi_i^{\bigvee}$
说明样本点 $(\mathbf{x}_i,y_i)$ 在最大间隔的下界外，是支持向量。

在这里插入图片描述
可以更进一步讨论：

如果 $\lt \alpha_i^{\bigvee} \lt C$ ，根据
$\alpha_i^{\bigvee} – \mu_i^{\bigvee} = 0$
可知
$\mu_i^{\bigvee} \gt 0$
由
$\mu_i^{\bigvee} \xi_i^{\bigvee} = 0$
得出
$\xi_i^{\bigvee} = 0$
因此
$y_i = (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon$
说明样本点 $(\mathbf{x}_i,y_i)$ 恰好落在最大间隔的下界；
如果 $\alpha_i^{\bigvee} = C$ ，根据
$\alpha_i^{\bigvee} – \mu_i^{\bigvee} = 0$
可知
$\mu_i^{\bigvee} = 0$
由
$\mu_i^{\bigvee} \xi_i^{\bigvee} = 0$
得出
$\xi_i^{\bigvee} \ge 0$
由于样本点 $(\mathbf{x}_i,y_i)$ 满足
$y_i = (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon – \xi_i^{\bigvee}$
说明样本点 $(\mathbf{x}_i,y_i)$ 不高于最大间隔的下界；
同理，如果 $\alpha_i^{\bigvee} = 0$ 且 $\alpha_i^{\bigwedge} \ne 0$ ，那么有
$\left\{ \begin{aligned} y_i &= (\mathbf{w}^T \mathbf{x}_i + b) + \varepsilon + \xi_i^{\bigwedge} \\ y_i &\ge (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon \end{aligned} \quad \Rightarrow \quad y_i = (\mathbf{w}^T \mathbf{x}_i + b) + \varepsilon + \xi_i^{\bigwedge} \right.$
说明样本点 $(\mathbf{x}_i,y_i)$ 在最大间隔的上界外，是支持向量。

在这里插入图片描述

如果 $\lt \alpha_i^{\bigwedge} \lt C$ ，根据
$\alpha_i^{\bigwedge} – \mu_i^{\bigwedge} = 0$
可知
$\mu_i^{\bigwedge} \gt 0$
由
$\mu_i^{\bigwedge} \xi_i^{\bigwedge} = 0$
得出
$\xi_i^{\bigwedge} = 0$
因此
$y_i = (\mathbf{w}^T \mathbf{x}_i + b) + \varepsilon$
样本点 $(\mathbf{x}_i,y_i)$ 恰好落在最大间隔的上界；
如果 $\alpha_i^{\bigwedge} = C$ ，根据
$\alpha_i^{\bigwedge} – \mu_i^{\bigwedge} = 0$
可知
$\mu_i^{\bigwedge} = 0$
由
$\mu_i^{\bigwedge} \xi_i^{\bigwedge} = 0$
得出
$\xi_i^{\bigwedge} \ge 0$
由于样本点 $(\mathbf{x}_i,y_i)$ 满足
$y_i = (\mathbf{w}^T \mathbf{x}_i + b) + \varepsilon + \xi_i^{\bigwedge}$
说明样本点 $(\mathbf{x}_i,y_i)$ 不低于最大间隔的上界；

所以，当 $\lt \alpha_i^{\bigvee} \lt C$ 时，样本点是落在最大间隔下界的支持向量。

如果你要找落在最大间隔上界的支持向量，应该要找 $\lt \alpha_i^{\bigwedge} \lt C$ 的样本点。

SVR的算法过程

输入：训练数据集 $T=\{(\mathbf{x}_1,y_1), (\mathbf{x}_2,y_2), \cdots, (\mathbf{x}_N,y_N)\}$ 。

输出：分离超平面和分类决策函数。

算法步骤：

选择一个惩罚系数 $\gt 0$ ，构造约束优化问题
$\begin{aligned} \min_{\boldsymbol{\alpha}^{\bigvee}, \boldsymbol{\alpha}^{\bigwedge}} \, \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N (\alpha_i^{\bigwedge} – &\alpha_i^{\bigvee}) (\alpha_j^{\bigwedge} – \alpha_j^{\bigvee}) \mathbf{x}_i^T\mathbf{x}_j + \sum_{i=1}^N [ ( \varepsilon – y_i ) \alpha_i^{\bigwedge} + (\varepsilon + y_i) \alpha_i^{\bigvee} ] \\ s.t. \quad &\sum_{i=1}^N(\alpha_i^{\bigwedge} – \alpha_i^{\bigvee}) = 0 \\&0 \le \alpha_i^{\bigvee} \le C, \quad i=1,2,\cdots,N \\&0 \le \alpha_i^{\bigwedge} \le C, \quad i=1,2,\cdots,N \end{aligned}$
用SMO算法求出最优参数 ${\boldsymbol{\alpha}^{\bigvee}}^*$ 和 ${\boldsymbol{\alpha}^{\bigwedge}}^*$ 。
计算 $\mathbf{w}^* = \sum_{i=1}^N ({\alpha_i^{\bigwedge}}^* – {\alpha_i^{\bigvee}}^*) \mathbf{x}_i$ 。
寻找一个满足 $\lt {\alpha_i^{\bigvee}}^* \lt C$ 的样本点 $(\mathbf{x}_k,y_k)$ ，计算 $b^* = y_k +\epsilon – {\mathbf{w}^*}^T \mathbf{x}_k$ 。
构建最终的回归超平面 ${\mathbf{w}^*}^T \mathbf{x} + b^*=0$ 和预测函数 $\text{sgn}({\mathbf{w}^*}^T \mathbf{x} + b^*)$ 。

与SVM类似，非线性情况下SVR也可以使用核方法，算法流程只要将内积 $\mathbf{x}_i^T \mathbf{x}_j$ 都替换成核函数 $\kappa(\mathbf{x}_i, \mathbf{x}_j)$ 即可。

带松弛变量的SVR的一种解释： $\varepsilon$ 不敏感损失+L2正则

$\varepsilon$ 不敏感损失( $\varepsilon$ -insensitive loss)

$\varepsilon$ 不敏感损失表达式
$L_{\varepsilon}(x)= \left\{ \begin{aligned} 0, \quad |x| \le \varepsilon \\ |x| – \varepsilon, \quad |x| \gt \varepsilon \end{aligned} \right.$

在这里插入图片描述

带松弛变量的SVR的一种解释

带松弛变量的SVR的优化函数： $L(\mathbf{w}, b) = \frac{1}{2}||\mathbf{w}||_2^2 + C \sum_{i=1}^N (\xi_i^{\bigvee} + \xi_i^{\bigwedge})$

根据之前对支持向量的讨论，有下列结论：

对于在 $\varepsilon$ 管道内的样本点 $(\mathbf{x}_i,y_i)$ ，即 $|y_i – (\mathbf{w}^T \mathbf{x}_i + b)| \le \varepsilon$

$\xi_i^{\bigvee} = 0$ ， $\xi_i^{\bigwedge} = 0$ ，所以 $\xi_i^{\bigvee} + \xi_i^{\bigwedge} = 0$ 。
对于在 $\varepsilon$ 管道外的样本点 $(\mathbf{x}_i,y_i)$ ，即 $|y_i – (\mathbf{w}^T \mathbf{x}_i + b)| \ge \varepsilon$
- 如果不低于间隔上界
  
  有 $\xi_i^{\bigvee} = 0$ ， $y_i – (\mathbf{w}^T \mathbf{x}_i + b) = \varepsilon + \xi_i^{\bigwedge}$ ，即 $\xi_i^{\bigwedge} = y_i – (\mathbf{w}^T \mathbf{x}_i + b) – \varepsilon$ 。
  
  所以 $\xi_i^{\bigvee} + \xi_i^{\bigwedge} = |y_i – (\mathbf{w}^T \mathbf{x}_i + b)| – \varepsilon$ 。
- 如果不高于间隔下界
  
  有 $\xi_i^{\bigwedge} = 0$ ， $(\mathbf{w}^T \mathbf{x}_i + b) – y_i = \varepsilon + \xi_i^{\bigvee}$ ，即 $\xi_i^{\bigvee} = (\mathbf{w}^T \mathbf{x}_i + b) – y_i – \varepsilon$ 。
  
  所以 $\xi_i^{\bigvee} + \xi_i^{\bigwedge} = |y_i – (\mathbf{w}^T \mathbf{x}_i + b)| – \varepsilon$ 。

因此，所有样本的 $\xi_i^{\bigvee} + \xi_i^{\bigwedge}$ 都可以用$ \varepsilon$不敏感损失表示
$\begin{aligned} \xi_i^{\bigvee} + \xi_i^{\bigwedge} =& L_{\varepsilon}(y_i – (\mathbf{w}^T \mathbf{x}_i + b)) \\ =&\left\{ \begin{aligned} 0, \quad |y_i – (\mathbf{w}^T \mathbf{x}_i + b)| \le \varepsilon \\ |y_i – (\mathbf{w}^T \mathbf{x}_i + b)| – \varepsilon, \quad |y_i – (\mathbf{w}^T \mathbf{x}_i + b)| \gt \varepsilon \end{aligned} \right. \end{aligned}$

在这里插入图片描述
这里 $\varepsilon$ 不敏感损失要传达的意思是：如果样本点在 $\varepsilon$ 管道内，损失为0；否则损失是样本点在 $y$ 方向上到 $\varepsilon$ 管道的距离。

也就是，样本点在 $\varepsilon$ 管道内认为无损失，在 $\varepsilon$ 管道外才计算损失。

带松弛变量的SVR的目标函数可以写成
$L(\mathbf{w}, b) = C \sum_{i=1}^N L_{\varepsilon}(y_i – (\mathbf{w}^T \mathbf{x}_i + b)) + \frac{1}{2}||\mathbf{w}||_2^2$
这个数学形式表明带松弛变量的SVR可以解释为 $\boldsymbol{\varepsilon}$ 不敏感损失+L2正则的机器学习模型。

总结

SVM是非常经典的机器学习算法，在集成学习和神经网络的算法流行之前，SVM在分类领域占据着统治地位。在大数据时代，SVM由于在大样本数据集上的计算量太大，所以热度有所下降，但不失为一个常用的机器学习算法。

SVM算法的优点：

解决高维特征的分类问题和回归问题很有效，在特征维度大于样本数时依然能保持良好的效果；
仅仅依靠支持向量来决定超平面，无需依赖全部数据；
有大量核函数可以使用，从而可以很灵活的来解决各种非线性的分类回归问题；
样本量不是海量数据的时候，分类准确率高，泛化能力强。

SVM算法的缺点：

如果特征维度远远大于样本点，则SVM表现一般；
SVM在样本量非常大，核函数映射维度非常高时，计算量过大，不太适合使用；
非线性问题的核函数的选择没有通用标准，难以选择一个合适的核函数；
SVM对缺失数据敏感。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/134958.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

支持向量回归(Support Vector Regression)

支持向量回归(Support Vector Regression)

文章目录

带松弛变量的SVR

带松弛变量的SVR目标函数的优化

SVM回归模型的支持向量

SVR的算法过程

带松弛变量的SVR的一种解释： ε \varepsilon ε不敏感损失+L2正则

ε \varepsilon ε不敏感损失( ε \varepsilon ε-insensitive loss)

带松弛变量的SVR的一种解释

总结

相关推荐

Jmeter下载安装配置—测试小白

【SAP】-激活WDA程序SICF

arping 报错「建议收藏」

Android启动模式之singleTask解析「建议收藏」

超级账本(hyperledger)介绍_以太坊上的账户类型有哪些

java链表排序方法_java链表排序

发表回复

带松弛变量的SVR的一种解释： $\varepsilon$ 不敏感损失+L2正则

$\varepsilon$ 不敏感损失( $\varepsilon$ -insensitive loss)