大家好，又见面了，我是你们的朋友全栈君。

有了上一篇神经网络的反向传播算法推导 — 前期知识准备做铺垫，下一步来看看反向传播算法具体的推导过程。

一、定义

机器学习中常说的两个函数：

损失函数 (loss function)：是定义在单个样本上的，算的是一个样本的值和预测值的误差，记为C(Θ)；

代价函数 (cost function)：是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均，记为J(Θ)；

假设函数： $h_{\theta }(x) = g(z^{l}) = g(\Theta^{l} x)$

[变量定义]

$s_{l}$ : 表示神经网络第 l 层神经元的个数

$s_{L}$ ：表示神经网络最终输出的类别数（L表示最后一层）

i： $\theta$ 的尺寸/维度的列，第 i 列

j： $\theta$ 的尺寸/维度的行，第 j 行

二、神经网络结构图

以三层神经网络为例：

神经网络的反向传播算法推导

（图1）

上图按照神经网络的计算方法（如不清楚的请参考文章从逻辑回归到神经网络）：

神经网络的反向传播算法推导

（图2）

说明：图2中将 $\theta _{10}^{(2)}$ 、 $\theta _{20}^{(2)}$ 标为”常量“，有些欠妥，总之意思就是与 $a_{j}^{(2)}$ 无关。

在计算图中可表示如下（损失函数计算方式有多种，假设我们使用最小化误差函数 $\frac{1}{2} \sum_{i=1}^{n} (f(x_{i}) - y_{i})^{2}$ ）：

这里为什么不是平方误差损失函数 $\frac{1}{2m} \sum_{i=1}^{m} (f(x_{i}) - y_{i})^{2}$ ，我的理解是在神经网络在计算损失函数时 i 从1到 n对应的是一个样本的多个特征属性，而不是多个样本，因此无需求和后除以m.

三、反向传播算法的四个公式推导

先抛出反向传播算法的四个公式：

$\delta ^{L} = \bigtriangledown _{a} C$ $\odot$ $g^{'}(z^{L})$ ——————– BP1

$\delta ^{l} = ( (\theta ^{l})^{T} \delta ^{l+1} )$ $\odot$ $g^{'}(z^{l})$ ——————- BP2

$\frac{\partial C}{ \partial b_{j}^{l}} = \delta _{j}^{l+1}$ ————————————– BP3

$\frac{ \partial C }{ \partial \theta_{ji}^{l} } = a_{i}^{l} \delta _{j}^{l+1}$ ———————————- BP4

（说明：其中，

BP2有的定义为： $\delta ^{l} = ( (w ^{l+1})^{T} \delta ^{l+1} )$ $\odot$ $g^{'}(z^{l})$

BP3有的定义为： $\frac{\partial C}{ \partial b_{j}^{l}} = \delta _{j}^{l}$

BP4有的定义为： $\frac{ \partial C }{ \partial \Theta_{jk}^{l} } = a_{k}^{l-1} \delta _{j}^{l}$

主要是层数 l 的定义不同，和变量命名不同，本质一样的。

)

下面用计算图的方式逐一推导（依然以三层神经网络开头）：

神经网络的反向传播算法推导

（图3）

由三层神经网络推广到L层，我们从L-1层开始计算，则计算图如下：

神经网络的反向传播算法推导

（图4）

为了方便对图中路径进行求导（计算权重），所以补充了节点虚线，类似如下：

神经网络的反向传播算法推导

（图5）

下一步开始对每条路径求偏导：

神经网络的反向传播算法推导

（图6）

根据上一篇神经网络的反向传播算法推导 — 前期知识准备求导的反向模式求导：求损失函数C关于某一节点的偏导数，只需要把该节点每条反向路径上的偏导数做乘积，再求和即可。到此，我们已经在计算图上求得损失函数C关于模型参数的偏导数 $\frac{\partial C}{\partial \Theta _{ji}^{(l)}}$ 、 $\frac{\partial C}{\partial b _{j}^{(l)}}$ ，而反向传播算法就是在此基础上通过定义一个损失/误差： $\delta _{j}^{(l)}$ ，先逐层向后传播得到每一层节点的损失 $\delta _{j}^{(l)}$ ，再通过每一个节点的损失 $\delta _{j}^{(l)}$ 来求解该节点的 $\frac{\partial C}{\partial \Theta _{ji}^{(l)}}$ 、 $\frac{\partial C}{\partial b _{j}^{(l)}}$ ，计算步骤：

第一步：令损失函数C关于第 l 层的第 j 个元素的偏导为： $\delta _{j}^{(l)} = \frac{\partial C}{\partial z _{j}^{(l)}}$

第二步：计算最后一层 $\delta _{j}^{(L)}$

神经网络的反向传播算法推导

（图7）

按照反向模式求导，节点 C 到 $z _{j}^{(L)}$ 的反向路径只有一条，例如：上图中 C 到 $z _{1}^{(L)}$ 的路径为① -> ② ，按照”同一可达路径相乘，不同可达路径相加“的原则：

$\delta _{1}^{(L)} = \frac{\partial C}{\partial z _{1}^{(L)}} = \frac{\partial C}{\partial a _{1}^{(L)}} * g^{'}(z _{1}^{(L)}) = (a _{1}^{(L)} - y_{1}) * g^{'}(z _{1}^{(L)})$

$\delta _{j}^{(L)} = \frac{\partial C}{\partial z _{j}^{(L)}} = \frac{\partial C}{\partial a _{j}^{(L)}} * g^{'}(z _{j}^{(L)}) = (a _{j}^{(L)} - y_{j}) * g^{'}(z _{j}^{(L)})$

神经网络的反向传播算法推导

（图8）

【说明】▽的物理意义：▽为对矢量做偏导,它是一个矢量，▽U表示为矢量U的梯度；

其中 $\odot$ 的操作是把两个向量对应元素相乘组成新的元素。

图8即为反向传播算法公式 BP1： $\delta ^{L} = \bigtriangledown _{a} C$ $\odot$ $g^{'}(z^{L})$

图7中（紫色路径） C 节点到 $z _{j}^{(L-1)}$ 的反向路径有 $s_{L}$ 条，按照“同一可达路径相乘，不同可达路径相加”的原则：

$\delta _{1}^{(L-1)} = \frac{\partial C}{\partial z _{1}^{(L-1)}}$

$= (a _{1}^{(L)} - y_{1}) * g^{'}(z _{1}^{(L)}) * \Theta _{11}^{L-1} * g^{'}(z _{1}^{(L-1)})$

$+ (a _{2}^{(L)} - y_{2}) * g^{'}(z _{2}^{(L)}) * \Theta _{21}^{L-1} * g^{'}(z _{1}^{(L-1)})$

…

$+ (a _{ j }^{(L)} - y_{ j }) * g^{'}(z _{ j }^{(L)}) * \Theta _{j1}^{L-1} * g^{'}(z _{1}^{(L-1)})$

…

$+ (a _{ s_{L} }^{(L)} - y_{ s_{L} }) * g^{'}(z _{ s_{L} }^{(L)}) * \Theta _{s_{L} 1}^{L-1} * g^{'}(z _{1}^{(L-1)})$

其中 $(a _{ s_{L} }^{(L)} - y_{ s_{L} }) = \frac{\partial C}{\partial a _{s_{L}}^{(L)}}$ ——> $(a _{ s_{L} }^{(L)} - y_{ s_{L} }) * g^{'}(z _{ s_{L} }^{(L)}) = \frac{\partial C}{\partial a _{s_{L}}^{(L)}} * g^{'}(z _{ s_{L} }^{(L)}) = \delta _{s_{L} }^{(L)}$ ，所以，提取公共部分 $g^{'}(z _{1}^{(L-1)})$ ，并且向量化、得到：

$\delta ^{L-1} = ( (\Theta ^{L-1})^{T} \delta ^{L} )$ $\odot$ $g^{'}(z^{L-1})$

推广到 l 层： $\delta ^{l} = ( (\Theta ^{l})^{T} \delta ^{l+1} )$ $\odot$ $g^{'}(z^{l})$ 即反向传播算法公式 BP2

说明：有的定义 BP2 为 $\delta ^{l} = ( (w ^{l+1})^{T} \delta ^{l+1} )$ $\odot$ $g^{'}(z^{l})$ ，这应该是层数 l 的定义不同， $w ^{l+1}$ 相当于 $\theta ^{l}$ ，本文延续斯坦福大学机器学习教程中的定义 $z^{(l)} = \theta ^{(l-1)} a^{(l-1)}$ 、 $h_{\theta } (x) = a^{l} = g(z^{(l)})$

接下来计算 $\frac{\partial C}{ \partial b_{j}^{l}}$

神经网络的反向传播算法推导

（图9）

图9中节点C到节点 $b_{1}^{L-1}$ 的反路径为 ① -> ② -> ③

$\frac{\partial C}{ \partial b_{1}^{L-1}} = \frac{\partial C}{\partial z _{1}^{L}} *\frac{\partial z _{1}^{L}}{\partial b_{1}^{L-1}} = \frac{\partial C}{\partial z _{1}^{L}} * 1 = \delta _{1}^{L} *1 = \delta _{1}^{L}$

$\frac{\partial C}{ \partial b_{1}^{L-2}} = \frac{\partial C}{\partial z _{1}^{L-1}} *1 =\delta _{1}^{L-1}$

…

$\frac{\partial C}{ \partial b_{j}^{l}} = \frac{\partial C}{\partial z _{j}^{l+1}} *1 =\delta _{j}^{l+1}$

…

$\frac{\partial C}{ \partial b_{s_{l}}^{l}} = \frac{\partial C}{\partial z _{s_{l}}^{l+1}} *1 =\delta _{s_{l}}^{l+1}$

由此，得到反向传播算法公式 BP3 $\frac{\partial C}{ \partial b_{j}^{l}} = \delta _{j}^{l+1}$

最后计算 $\frac{ \partial C }{ \partial \Theta_{jk}^{l} }$

神经网络的反向传播算法推导

（图9）

图9中节点C到节点 $\theta _{11}^{L-1}$ 的反路径为 ① -> ② -> ③

$\frac{\partial C}{ \partial \theta _{11}^{L-1}} = \frac{\partial C}{\partial z _{1}^{L}} * a_{1}^{L-1} = \delta _{1}^{L}*a_{1}^{L-1} = a_{1}^{L-1} \delta _{1}^{L}$

$\frac{\partial C}{ \partial \theta _{11}^{L-2}} = \frac{\partial C}{\partial z _{1}^{L-1}} * a_{1}^{L-2} = \delta _{1}^{L-1}*a_{1}^{L-2} = a_{1}^{L-2} \delta _{1}^{L-1}$

…

$\frac{\partial C}{ \partial \theta _{ji}^{l}} = \frac{\partial C}{\partial z _{j}^{l+1}} * a_{i}^{l} = \delta _{j}^{l+1}*a_{i}^{l} = a_{i}^{l} \delta _{j}^{l+1}$

由此，得到反向传播算法公式 BP4 $\frac{ \partial C }{ \partial \theta_{ji}^{l} } = a_{i}^{l} \delta _{j}^{l+1}$

到此，神经网络的反向传播算法的四个公式推导结束。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/140822.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...