RNN-bptt简单推导「建议收藏」

大家好，又见面了，我是你们的朋友全栈君。

摘要：

在前面的文章里面，RNN训练与BP算法,我们提到了RNN的训练算法。但是回头看的时候在时间的维度上没有做处理，所以整个推导可能存在一点问题。

那么，在这篇文章里面，我们将介绍bptt（Back Propagation Through Time）算法如在训练RNN。

关于bptt

这里首先解释一下所谓的bptt，bptt的思路其实很简单，就是把整个RNN按时间的维度展开成一个“多层的神经网络”。具体来说比如下图：
这里写图片描述

既然RNN已经按时间的维度展开成一个看起来像多层的神经网络，这个时候用普通的bp算法就可以同样的计算，只不过这里比较复杂的是权重共享。比如上图中每一根线就是一个权重，而我们可以看到在RNN由于权重是共享的，所以三条红线的权重是一样的，这在运用链式法则的时候稍微比较复杂。

正文：

首先，和以往一样，我们先做一些定义。
$h_i^t=f(net_{hi}^t)$

$net_{hi}^t=\sum_m{(v_{im}x_m^t)}+\sum_s{(u_{is}h_s^{t-1})}$

$net_{yk}^t=\sum_m{w_{km}h_m^t}$
最后一层经过softmax的转化
$o_k^t=\frac{e^{net_{yk}^t}}{\sum_{k'}{e^{net_{y{k'}}^t}}}$
在这里我们使用交叉熵作为Loss Function
$E_t=-\sum_k{z_k^tlno_k^t}$

我们的任务同样也是求 $\left.\frac{\partial E}{\partial w_{km}}\right.$ 、 $\left.\frac{\partial E}{\partial v_{im}}\right.$ 、 $\left.\frac{\partial E}{\partial u_{im}}\right.$ 。
注意，这里的 $E$ 没有时间的下标。因为在RNN里，这些梯度分别为各个时刻的梯度之和。
即：
$\left.\frac{\partial E}{\partial w_{km}}\right.=\sum_{t=0}^{step}\left.\frac{\partial E_t}{\partial w_{km}}\right.$
$\left.\frac{\partial E}{\partial v_{im}}\right.=\sum_{t=0}^{step}\left.\frac{\partial E_t}{\partial v_{im}}\right.$
$\left.\frac{\partial E}{\partial u_{im}}\right.=\sum_{t=0}^{step}\left.\frac{\partial E_t}{\partial u_{im}}\right.$ 。

所以下面我们推导的是 $\left.\frac{\partial E_t}{\partial w_{km}}\right.$ 、 $\left.\frac{\partial E_t}{\partial v_{im}}\right.$ 、 $\left.\frac{\partial E_t}{\partial u_{im}}\right.$ 。

我们先推导 $\left.\frac{\partial E_t}{\partial w_{km}}\right.$ 。
$\left.\frac{\partial E_t}{\partial w_{km}}\right.=\sum_{k'}{\left.\frac{\partial E_t}{\partial o_{k'}^t}\right.\left.\frac{\partial o_{k'}^t}{\partial net_{yk}^t}\right.\left.\frac{\partial net_{yk}^t}{\partial w_{km}}\right.}=(o_k^t-z_k^t)*h_m^t$ 。（这一部分的推导在前面的文章已经讨论过了）。
在这里，记误差信号：
$\delta_k^{(output,t)}=\left.\frac{\partial E_t}{\partial net_{yk}^t}\right.=\sum_{k'}{\left.\frac{\partial E_t}{\partial o_{k'}^t}\right.\left.\frac{\partial o_{k'}^t}{\partial net_{yk}^t}\right.}=(o_k^t-z_k^t)$ （后面会用到）

对于 $\left.\frac{\partial E_t}{\partial v_{im}}\right.$ 、 $\left.\frac{\partial E_t}{\partial u_{im}}\right.$ 其实是差不多的，所以这里详细介绍其中一个。这两个导数也是RNN里面最复杂的。

推导： $\left.\frac{\partial E_t}{\partial v_{im}}\right.$

$\left.\frac{\partial E_t}{\partial v_{im}}\right.=\sum_{t'=0}^{t}{\left.\frac{\partial E_{t}}{\partial net_{hi}^{t'}}\right.\left.\frac{\partial net_{hi}^{t'}}{\partial v_{im}}\right.}$
对于这个式子第一次看可能有点懵逼，这里稍微解释一下：
从式： $h_i^t=f(\sum_m{(v_{im}x_m^t)}+\sum_s{(u_{is}h_s^{t-1})})$ 中我们可以看到， $v_{im}$ 影响的是所有时刻的 $net_{hi}^{t},t=0,1,2,....step$ 。所以当 $E_t$ 对 $v_{im}$ 求偏导的时候，由于链式法则需要考虑到所有时刻的 $net_{hi}^{t}$ 。

下面分成两部分来求 $\left.\frac{\partial E_{t}}{\partial net_{hi}^{t'}}\right.$ ， $\left.\frac{\partial net_{hi}^{t'}}{\partial v_{im}}\right..$ 。
第一部分： $\left.\frac{\partial E_{t}}{\partial net_{hi}^{t'}}\right.$ 。
这里我们记 $\delta_i^{(t',t)}=\left.\frac{\partial E_{t}}{\partial net_{hi}^{t'}}\right.$ （误差信号，和前面文章一样）。

（由于带着符号去求这两个导数会让人看起来非常懵逼，所以下面指定具体的值，后面抽象给出通式）
假设共3个时刻，即t=0,1,2。
对于 $t=2$ ， ${t'}=2$ 时：
（ $E_{2}$ 表示第2个时刻（也是最后一个时刻）的误差）
（ $net_{hi}^{2}$ 表示第2个时刻隐藏层第i个神经元的净输入）
具体来说： $\left.\frac{\partial E_{2}}{\partial net_{hi}^{2}}\right.=\left.\frac{\partial E_{2}}{\partial h_i^2}\right.\left.\frac{\partial h_i^2}{\partial net_{hi}^{2}}\right.$

对于 $\left.\frac{\partial E_{2}}{\partial h_i^2}\right.=\sum_{k'}{\left.\frac{\partial E_{2}}{\partial net_{yk'}^2}\right.\left.\frac{\partial net_{yk'}^2}{\partial h_i^2}\right.}$
由于 $\delta_k^{(output,t)}=\left.\frac{\partial E_t}{\partial net_{yk}^t}\right.$
所以，我们有：
$\left.\frac{\partial E_{2}}{\partial h_{i}^{2}}\right.=\sum_{k'}{\left.\frac{\partial E_{2}}{\partial net_{yk'}^2}\right.\left.\frac{\partial net_{yk'}^2}{\partial h_i^2}\right.}=\sum_{k'}{\delta_{k’}^{(output,2)}\left.\frac{\partial net_{yk'}^2}{\partial h_i^2}\right.}=\sum_{k'}{\delta_{k’}^{(output,2)}w_{k'i}}$
综上：
$\delta_i^{(2,2)}=\left.\frac{\partial E_{2}}{\partial net_{hi}^{2}}\right.=\left.\frac{\partial E_{2}}{\partial h_i^2}\right.\left.\frac{\partial h_i^2}{\partial net_{hi}^{2}}\right.=(\sum_{k'}{\delta_{k’}^{(output,2)}w_{k'i}})*f{'}(net_{hi}^2)$

对于 $t=1$ ， ${t'}=2$ 时：
（ $E_{2}$ 表示第2个时刻的误差）
（ $net_{hi}^1$ 表示第1个时刻隐藏层第i个神经元的净输入）
具体来说： $\left.\frac{\partial E_{2}}{\partial net_{hi}^{1}}\right.=\left.\frac{\partial E_{2}}{\partial h_i^1}\right.\left.\frac{\partial h_i^1}{\partial net_{hi}^{1}}\right.$
那么 $\left.\frac{\partial E_{2}}{\partial h_{i}^{1}}\right.=\sum_{k'}{\left.\frac{\partial E_{2}}{\partial net_{yk'}^1}\right.\left.\frac{\partial net_{yk'}^1}{\partial h_i^1}\right.}+\sum_{j}{\left.\frac{\partial E_{2}}{\partial net_{hj}^2}\right.\left.\frac{\partial net_{hj}^2}{\partial h_{i}^{1}}\right.}$ 。请对比这个式子和上面 $t=2$ ， ${t'}=2$ 时的区别，区别在于多了一项 $\sum_{j}{\left.\frac{\partial E_{2}}{\partial net_{hj}^2}\right.\left.\frac{\partial net_{hj}^2}{\partial h_{i}^{1}}\right.}$ 。这个原因我们已经在RNN与bp算法中讨论过，这里简单的说就是由于 $t=1$ 时刻有 $t=2$ 时刻反向传播回来的误差，所以要考虑上这一项，但是对于 $t=2$ 已经是最后一个时刻了，没有反向传播回来的误差。

对于第一项 $\sum_{k'}{\left.\frac{\partial E_{2}}{\partial net_{yk'}^1}\right.\left.\frac{\partial net_{yk'}^1}{\partial h_i^1}\right.}$ 其实是0。下面简单分析下原因：
上式进一步可以化为： $\sum_{k'}(\sum_{k''}{\left.\frac{\partial E_{2}}{\partial o_{k''}^1}\right.\left.\frac{\partial o_{k''}^1}{\partial net_{yk'}^1}\right.})\left.\frac{\partial net_{yk'}^1}{\partial h_i^1}\right.$ 而 $E_2$ 与第1个时刻输出 $o_{k''}^{1}$ 无关。所以为0。

对于第二项 $\sum_{j}{\left.\frac{\partial E_{2}}{\partial net_{hj}^2}\right.\left.\frac{\partial net_{hj}^2}{\partial h_{i}^{1}}\right.}$ ，我们带入 $\delta_i^{(t',t)}=\left.\frac{\partial E_{t}}{\partial net_{hi}^{t'}}\right.$ 有：
$\sum_{j}{\left.\frac{\partial E_{2}}{\partial net_{hj}^2}\right.\left.\frac{\partial net_{hj}^2}{\partial h_{i}^{1}}\right.}=\sum_{j}{\delta_j^{(2,2)}\left.\frac{\partial net_{hj}^2}{\partial h_{i}^{1}}\right.}$ 。
同时明显有 $\left.\frac{\partial net_{hj}^2}{\partial h_{i}^{1}}\right.=u_{ji}$
即： $\left.\frac{\partial E_{2}}{\partial h_{i}^{1}}\right.=\sum_{j}{\delta_j^{(2,2)}u_{ji}}$

综上：
$\delta_i^{(1,2)}=\left.\frac{\partial E_{2}}{\partial net_{hi}^{1}}\right.=\left.\frac{\partial E_{2}}{\partial h_i^1}\right.\left.\frac{\partial h_i^1}{\partial net_{hi}^{1}}\right.=(\sum_{j}{\delta_j^{(2,2)}\left.\frac{\partial net_{hj}^2}{\partial h_{i}^{1}}\right.})*f{'}(net_{hi}^1)=(\sum_{j}{\delta_j^{(2,2)}u_{ji}})*f{'}(net_{hi}^1)$

对于 $t=0$ ， ${t'}=2$ 时：
（ $E_{2}$ 表示第2个时刻的误差）
（ $net_{hi}^0$ 表示第0个时刻隐藏层第i个神经元的净输入）。
和上面的思路一样，我们容易得到：
$\delta_i^{(0,2)}=\left.\frac{\partial E_{2}}{\partial net_{hi}^0}\right.=(\sum_{j}{\delta_j^{(1,2)}u_{ji})*f{'}(net_{hi}^0)}$ 。

至此，我们求完了 $\left.\frac{\partial E_{t}}{\partial net_{hi}^{t'}}\right.$ 。下面我们来总结一下其通式：

\partial E t \partial n e t t ' h i = δ (t', t) i = {(\sum k' δ (o u t p u t, t) k' w k' i) * f' (n e t t' h i), (\sum j δ (t' + 1, t) j u j i) * f' (n e t t' h i), t = t' t \neq t'

$\left.\frac{\partial E_{t}}{\partial net_{hi}^{t'}}\right.=\delta_i^{(t',t)}=\begin{cases} (\sum_{k'}{\delta_{k’}^{(output,t)}w_{k'i}})*f{'}(net_{hi}^{t'}), & t=t'\\ (\sum_{j}{\delta_j^{(t'+1,t)}u_{ji})*f{'}(net_{hi}^{t'})}, & t\neq t' \end{cases}$

另外，对于 $\delta_k^{(output,t)}$ 有以下表达式：
$\delta_k^{(output,t)}=\left.\frac{\partial E_t}{\partial net_{yk}^t}\right.=\sum_{k'}{\left.\frac{\partial E_t}{\partial o_{k'}^t}\right.\left.\frac{\partial o_{k'}^t}{\partial net_{yk}^t}\right.}=(o_k^t-z_k^t)$

最后只要求出 $\left.\frac{\partial net_{hi}^{t'}}{\partial v_{im}}\right.$ ，其值具体为 $\left.\frac{\partial net_{hi}^{t'}}{\partial v_{im}}\right.=x_m^t$

最后，对于 $\left.\frac{\partial E_t}{\partial u_{im}}\right.$ 其实和上面的差不多，主要是后面的部分不一样，具体来说：
$\left.\frac{\partial E_t}{\partial u_{im}}\right.=\sum_{t'=0}^{t}{\left.\frac{\partial E_{t}}{\partial net_{hi}^{t'}}\right.\left.\frac{\partial net_{hi}^{t'}}{\partial u_{im}}\right.}$ ，可以看到就只有等式右边的第二项不一样，关键部分是一样的。 $\left.\frac{\partial net_{hi}^{t'}}{\partial u_{im}}\right.=h_m^{t'-1}$

细节-1

上面提到，当只有３个时刻时，t=0,1,2。
对于误差 $E_2$ （最后一个时刻的误差），没有再下一个时刻反向传回的误差。
那么对于 $E_1$ （第１个时刻的误差）存在下一个时刻反向传回的误差，但是在 $\left.\frac{\partial E_1}{\partial h_i^1}\right.$ 中的第二项 $\sum_{j}{\left.\frac{\partial E_{1}}{\partial net_{hj}^{2}}\right.\left.\frac{\partial net_{hj}^{2}}{\partial h_{i}^{1}}\right.}$ 仍然为０。是因为 $\left.\frac{\partial E_{1}}{\partial net_{hj}^{2}}\right.=0$ ，因为 $E_1$ 的误差和下一个时刻隐藏层的输出没有任何关系。