BPTT-应用于简单的循环神经网络「建议收藏」

BPTT-应用于简单的循环神经网络「建议收藏」上面是一组序列变量,即四个变量z1,z2,z3,z4z_1,z_2,z_3,z_4中的任一ziz_i的值均依赖于它前面的变量z1,z2,..,zi−1z_1,z_2,..,z_{i-1},且有z2=2∗z1z_2=2*z_1z3=3∗z2+z1z_3=3*z_2+z_1z4=4∗z3+2∗z2+z1z_4=4*z_3+2*z_2+z_1

大家好,又见面了,我是你们的朋友全栈君。

这里写图片描述
上面是一组序列变量,即四个变量 z1,z2,z3,z4 中的任一 zi 的值均依赖于它前面的变量 z1,z2,..,zi1 ,且有
z2=2z1

z3=3z2+z1

z4=4z3+2z2+z1

E=4z4+2z2

现在我们定义:

Ezi : 目标函数 E 对变量

zi
的偏微分,
+Edzi : 目标函数 E 对变量

zi
的全微分。比如,

+Ez4=Ez4=4

+Ez3=Ez3++Ez4z4z3=16

+Ez2=Ez2++Ez4z4z2++Ez3z3z2=58

+Ez1=Ez1++Ez4z4z1++Ez3z3z1++Ez2z2z1=136

综上,我们有如下的链式法则[1]

+Ezi=Ezi+j>iT+EzjzjziEq.1

traditional recurrent neural network

下图是一个基础的循环神经网络示意图
循环神经网络
Fig. 1: 循环神经网络示意图

其中x_t, h_t, y_t 分别代表 t 时刻网络的输入向量隐藏层向量输出向量w_ih, w_ho均为 权重矩阵,具体的计算公式如下:

xct=[xt,ht1]

ht=ϕ(zht)=tanh(wihxct+bih)

yt=σ(zot)=softmax(whoht+bho)

成本函数采用信息熵形式

C=t=1Tk(1y^(t)k)log(y(t)k)=t=1Tc(yt)




k表示输出层节点个数,

y^
表示真实的目标输出。

我们的目标是计算

+Cwih






+Cwho



即在给定

x1,x2,...xT
作为输入序列,

y^1,y^2,...,y^T
作为目标输出序列的前提下,计算成本函数

C
对权重矩阵



wih,who

的全微分 (这里我们暂时忽略

bih,bho
)。为此,我们先计算

+Czht


+Czot
, 其中

zht


zot
分别是图中绿色模块和黄色模块的输入。

根据 Fig. 1, 我们看出绿色模块之间有如下的依赖关系
differciate_h
那么 zhi 仅仅依赖于 zhi1 ,根据链式方程 Eq. 1:

+Czht=Czht+t>tT+Czhtzhtzht=Czht++Czht+1zht+1zht



并且,


+CzhT=CzhT=CzoTwhoϕ˙(zhT)

因为 Fig. 1 中黄色模块之间的相互依赖关系是通过绿色模块产生的,它们之间并没有直接的依赖关系,所以有

+Czot==Czotc˙(yt)σ˙(zot)



由上面的三个公式,可进而依次求出

t=T1,T2,...,2,1
时刻时的

+Czht
值。

最终有:

+Cwho=t=1T+Czotzotwho=t=1T+Czotht




+Cwih=t=1T+Czhtzhtwih=t=1T+Czhtxct



[1] Backpropagation through time: what it does and how to do it
(web)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/152284.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • Web服务器配置(服务器配置信息怎么查)

    课程名称服务器配置与管理实验成绩 实验名称Web服务器配置学号 姓名;指导老师-龚蕾 班级 日期 实验目的:1.掌握liunx系统的基本命令2 掌握Web服务器配置的基本原理3.掌握Apache服务器的安装与配制方法和客户端的测试方法实验平台:  云平台一、  实验内容配置Web服务器,可以从客户端访问服务器,打开网页。二、  服务器端设置1、    配置DNS服务器,要求能够解析域名。2、   …

  • Java集合List去重的几种方式「建议收藏」

    Java集合List去重的几种方式「建议收藏」1、使用LinkedHashSet删除arraylist中的重复数据LinkedHashSet是在一个ArrayList删除重复数据的最佳方法。LinkedHashSet在内部完成两件事: 删除重复数据 保持添加到其中的数据的顺序 Java示例使用LinkedHashSet删除arraylist中的重复项。在给定的示例中,numbersList是包含整数的arraylist,其中一些是重复的数字。例如1,3和5.我们将列表添加到LinkedHashSet,然后将内容返回到列表中。

  • Oracle数据库 – 安装教程[通俗易懂]

    Oracle数据库 – 安装教程[通俗易懂]Oracle安装,不断试错,总结经验,分享、看一次安装成功

    2022年10月25日
  • 职业炒股怎么操作_专业炒股的人天天都在干嘛

    职业炒股怎么操作_专业炒股的人天天都在干嘛转自http://blog.sina.com.cn/s/blog_4af4b1c20100f47u.html 一、我买哪只股票好?买你最熟悉的上市公司,同城的最好。记住,买卖时机大于选股。二、我持有的某某股票现在卖好吗?只要有赢利,任何时候抛都是好点。三、我准备借钱来炒股,好吗?借钱就等于是资金杠杆,你得有必胜的把握!这世界上利用杠杆在资本市场获大利的数不胜数。四、我准备专职炒股,好吗?以…

    2022年10月29日
  • windowsform和wpf(winform和wpf我选哪个)

    WPF开发于WinForm之后,从技术发展的角度,WPF比WinForm先进是不容置疑的。我觉得WPF相比于WinForm有下面的一些较好的特性:解决WindowHandle问题在WindowsGDI或WinForm开发中复杂的GUI应用程序,会使用的大量的控件,如Grid等。而每个控件或Gridcell都是一个小窗口,会使用一个Windowhandle,尽管控件厂商提供了很多优化…

  • Visio2007产品密钥

    Visio2007产品密钥注意:以下是一个产品密钥,全部粘贴,不是6选一W2JJW-4KYDP-2YMKW-FX36H-QYVD8QGRC3-KQF42-GXR8T-MJQJ7-76938H22HP-9PGYQ-FKHQ9-KYH6K-JPJ7WVMRGQ-G3YMP-RWYH2-4TQ97-CT2HDV9MTG-3GX8P-D3Y4R-68BQ8-4Q8VDW2JJW-4KYDP-2YMKW-FX36H-QYVD8…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号