大家好，又见面了，我是你们的朋友全栈君。

误差反向传播算法误差

反向传播算法（back propagation，简称BP模型）是1986年由Rumelhart和McClelland为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络，是目前应用最广泛的神经网络。

误差反向传播算法系统的解决了多层神经网络隐含层连接权学习问题，人们把采用这种算法进行误差校正的多层前馈网络称为BP网。BP神经网络具有任意复杂的模式分类能力和优良的多维函数映射能力，解决了简单感知器不能解决的异或(Exclusive OR，XOR)和一些其他问题。

从结构上讲，BP网络具有输入层、隐藏层和输出层；
从本质上讲，BP算法就是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值。

因此学习误差反向传播算法对于深度学习的深造起到非常重要的作用，这也是本篇博客的主题。

由于梯度下降法需要求解相邻层的梯度，这就要求网络中需要处处可导，也就是需要激活函数也必须支持可导性。M-P模型中使用step函数作为激活函数，只能输出0或1，不连续所以不可导。为了使误差能够顺利传播，科学家们提出了可导函数sigmoid作为激活函数 $f (u)$ ，但是在后期的使用中发现sigmoid函数也存在一定的问题（梯度饱和问题），于是发展出了ReLU函数及其变形激活函数，想深入了解激活函数的小伙伴可以查看下这篇博客：https://blog.csdn.net/ViatorSun/article/details/82418578。

1）以单层感知器入

反向传播算法便于大家理解，下面先解释下单层感知器的梯度下降法。由复合函数求导法则可以知道，误差函数求导如下所示：

$\frac{\partial E}{\partial w_i} = \frac{\partial E}{\partial y}\frac{\partial y}{\partial w_i}$

设 $y = f (u)$ ，求误差函数 $E$ 对 $w_i$ 的导数为：

$\frac{\partial E}{\partial w_i} = -(r-y)\frac{\partial y}{\partial w_i} = -(r-y)\frac{\partial f(u)}{\partial w_i}$

$f (u)$ 的导数就是对复合函数求导

$\frac{\partial E}{\partial w_i} = -(r-y)\frac{\partial f(u)}{\partial u} \frac{\partial u}{\partial w_i}$

$u$ 对 $w_i$ 求导的结果只和 $x_i$ 相关： $\frac{\partial u}{\partial w_i} = x_i$ 整理下上面两个式子，得到：

$\frac{\partial E}{\partial w_i} = -(r-y)x_i\frac{\partial f(u)}{\partial u}$

在此，我们对激活函数 $S i g m o i d$ ： $\sigma(x) = \frac {1}{1+e^{-x}}$ 函数求导：

$\frac{\partial \sigma(x)}{\partial x} = \frac {e^{-x}}{(1+e^{-x})^2}$

令 $e^{-x} = u$ 则导函数为：

$\frac{\partial f(u)}{\partial u} = f(u)(1-f(u))$

将激活函数的导数代入上面整理结果得到：

$\frac{\partial E}{\partial w_i} = -(r-y)x_i f(u)(1-f(u))$

由于输出结果 $y = f (u)$ ，所以单层感知器的权重调整值为（其中 $\eta$ 为学习率）：

$\Delta w_i = – \eta\frac{\partial E}{\partial w_i} = \eta(r-y)y(1-y)x_i$

至此，这就是单层感知器权重的调节量。

2）多层感知器的反传传播算法

接下来，我们再分析下多层感知器。多层感知器的误差函数 $E$ 等于个输出单元的误差总和。 $\frac{1}{2} \sum_{j=1}^q (r_j – y_j)^2$

对误差函数求导得：

$\frac{\partial E}{\partial w_{ij}} = \frac{\partial E}{\partial y_j} \frac{\partial y_j}{\partial w_{ij}}$

其中， $w_{ij}$ 代表 $x_i$ 和 $y_j$ 之间的连接权重，对 $E$ 求导的结果只和 $y_j$ 相关，如下所示：

$\frac{\partial E}{\partial w_{ij}} = -(r_j – y_j) \frac{\partial y_j}{\partial w_{ij}}$

与单层感知相同，对上式展开后对复合函数求导：

$\frac{\partial E}{\partial w_{ij}} = -(r_j – y_j) \frac{\partial y_j}{\partial u_j} \frac{\partial u_j}{\partial w_{ij}}$

下面与单层感知器一样，对误差函数求导得：

$\frac{\partial E}{\partial w_{ij}} = -(r_j – y_j) y_j (1-y_j)x_i$

则权重的调节值为（其中 $\eta$ 为学习率）：

$\Delta w_{ij} = \eta(r_j – y_j )y_j (1-y_j)x_i$

由此可见，多层感知器中，只需要使用与连接权重 $w_{ij}$ 相关的输入 $x_i$ 和输出 $y_j$ ，即可计算出连接权重的调节值。

将神经网络分解开可以更清晰的分析，再将最后一列各变量之间的偏导数累成就是整个链式法则的体现。

3）带中间层的多层感知器的反向传播算法

最后我们再解释下带中间层的多层感知器的梯度下降法。由于中间层的加入，层之间的权重下标我们增加到三个，其中 $i$ 表示输入层单元， $j$ 表示中间层单元， $k$ 表示输出层单元。如下图所

首先考虑输出层与中间层之间的连接权重 $w_{2jk}$ 的调整。对权重 $w_{2jk}$ 求导：

$\frac{\partial E}{\partial w_{2jk}} = \frac{\partial E}{\partial y_k} \frac{\partial y_k}{\partial u_{2k}} \frac{\partial u_{2k}}{\partial w_{2jk}}$

经过误差函数 $E$ 对输出 $y_k$ 求导，输出 $y_k$ 求导，输出 $y_k$ 对激活值 $u_{2k}$ 求导，激活值 $u_{2k}$ 对连接权重 $w_{2jk}$ 求导之后，得到：

$\frac{\partial E}{\partial w_{2jk}} = -(r_k – y_k) y_k ( 1-y_k) z_j$

所以，即便是输出层有多个单元，只要对每个输出单元分别求导后，也能得到误差函数对中间层权重的偏导数接下来计算输入层和中间层之间的连接权重 $w_{1ij}$ 的偏导数：

$\frac{\partial E}{\partial w_{1ij}} = \sum_{k=1}^q[ \frac{\partial E}{\partial y_k} \frac{\partial y_k}{\partial u_{2k}} \frac{\partial u_{2k}}{\partial w_{1ij}}]$

中间层的单元 $j$ 和输出层的所有单元相连，所以如上式所示，误差函数 $E$ 对连接权重 $W_{1ij}$ 求偏导，就是对所有输出单元的导数进行加权和，实际使用的是所有输出单元连接权重的总和。将 $s i g m o i d$ 函数的导数和误差函数代入到上式，得：

$\frac{\partial E}{\partial w_{1ij}} = -\sum_{k=1}^q[ (r_k – y_k)y_k(1-y_k) \frac{\partial u_{2k}}{\partial w_{1ij}}]$

由于连接权重 $w_{1ij}$ 只对中间层 $z_j$ 的状态产生影响，所以上式中剩余部分求导后的结果如下：

$\frac{\partial u_{2k}}{\partial w_{1ij}} = \frac{\partial u_{2k}}{\partial z_j } \frac{\partial z_j}{\partial w_{1ij}}$

激活值 $u_{2k}$ 对 $z_j$ 求导得到连接权重 $w_{2jk}$ ，结合下式就可以求出输入层与中间层之间的连接权重 $w_{1ij}$ 的调整值：

$\frac{\partial z_j}{\partial w_{1ij}} = \frac{\partial z_j}{\partial u_{1j}} \frac{\partial u_{1j}}{\partial w_{1ij}} = z_j ( 1- z_j) x_i$ $\Delta w_{1ij} = \eta \sum_{k=1}^q [ (r_k – y_k) y_k ( 1- y_k) w_{2jk} ] z_j (1-z_j) x_i$

具体推导过程可以参考下列公式

在此需要注意 $z_j=f(u_j)$ ，输入层与中间层之间的权重调整值是相关单元在中间层与输出层之间的权重调整值的总和。

4）小结

至此，误差反向传播算法的讲解就全部结束了，其中包含了大量的公式，理解起来可能会有一些难度，但是这是必过的槛。如果实在不理解过程的话，只记住最后那张图也可以，那张图便是整个算法的精髓所在。除此之外，在实际应用过程中可能还会遇到一个问题，那就是激活函数使用 $S i g m o i d$ 或者 $t a n h$ 函数的时候，如果 $x$ 趋向正负无穷的时候，会出现偏导数为零的情况，见下图，左侧为 $S i g m o i d$ 函数图像，右侧为其导函数的图像。这时候，由于权重调整值趋近于0，所以无法调整连接权重，权重所在的单元也就不再起作用。