DDPG存疑

全栈程序员-用户IM • 2022年6月16日下午10:07 • 未分类

DDPG存疑存疑的点：value函数的参数是（s,a)。离散状态下s,a作为横纵坐标来获取Q值。ｑ－ｌｅａｒｎｉｎｇDQN情况下，输出的是最大Q值。PG里面输出的是action的概率分布。DDPG里，actor网络输出的是Action。critic网络里输出的是Q值，依然和ｓ，ａ有关，由ｓ，ａ确定。只不过这里确定的方式是①将ｓ，ａ分别经过一个输出维度为３０的网络后　得到的值　相加(两个网络分别为：（s_dim,30)(a_dim,30)。②将ｓ，ａ维度拼接再经过网络计算（这个网络的维度是（s_d

大家好，又见面了，我是你们的朋友全栈君。

存疑的点：value函数的参数是（s, a)。
离散状态下 s, a 作为横纵坐标来获取Q值。ｑ－ｌｅａｒｎｉｎｇ
DQN情况下，输出的是最大Q值。
PG里面输出的是action的概率分布。
DDPG里，actor网络输出的是Action。critic网络里输出的是Q值，依然和ｓ，ａ有关，由ｓ，ａ确定。只不过这里确定的方式是①将ｓ，ａ分别经过一个输出维度为３０的网络后　得到的值　相加(两个网络分别为：（s_dim, 30) (a_dim, 30)。②将ｓ，ａ维度拼接再经过网络计算（这个网络的维度是（s_dim + a_dim, output_dim)。

ddpg多出的部分有
①action数值首先经过tanh(),其次再判断上下限界。
②噪音，对action添加噪音（可能tanh()这种本来就不精确吧）。
③对环境的action幅度进行normalization。
④是两个target网络的参数都采用soft更新，这与Dqn不同。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/149436.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

jQuery官网下载步骤[通俗易懂]

jQuery官网下载步骤[通俗易懂][转载出处](https://blog.csdn.net/u011870547/article/details/50033113)[原文作者](https://blog.csdn.net/u011870547)①.百度jQuery，进入官网②.进入官网后，点击下载③.之后进入下载页面，会看到有各种版本，解压版和未…

全栈程序员-用户IM
2022年6月3日
pandas函数手册_函数str

pandas函数手册_函数str一.假设有数据集dfdf.isnull()返回DateFrame,元素为空或者NA就显示True，否则就是False二.判断有空值的列df.isnull().any()当列有为空或者NA的元素，就为True，否则False三.显示出有空值列的列名的列表,iris.columns[iris.isnull().any()].tolist()四.删除全部是空值的行iris.dropna(axis=0,how=’all’,inplace=True)五。删除全部是空值的列iri

全栈程序员-用户IM
2022年10月7日
jvm内存参数图解，Xmn,Xms,Xmx,XX

Java中堆是JVM所管理的最大的一块内存空间，主要用于存放各种类的实例对象和数组，如下图所示：在Java中，堆被划分成两个不同的区域：年轻代、老年代。年轻代（Young）又被划分为三个区域：Eden、S0、S1。这样划分的目的是为了使JVM能够更好的管理堆内存中的对象，包括内存的分派以及回收。堆是GC收集垃圾的主要区域。GC分为两种：MinorGC、FullGC。1.年轻代…

全栈程序员-用户IM
2022年4月9日
MySql多库查询及连表查询[通俗易懂]

MySql多库查询及连表查询[通俗易懂]多库查询时，默认为当前连接的数据库，如果需要别的数据库时可在表面前加数据库名称即可实现，多库多表连接及查询

全栈程序员-用户IM
2022年8月19日
黑马程序员—wpf学习笔记四—banding的那些事

黑马程序员—wpf学习笔记四—banding的那些事——-WindowsPhone7手机开发、.Net培训、期待与您交流！——-一、WPF中,对控件做数据banding,可以方便的进行赋值和获得值的操作:例如一:<Grid><SliderName=”Slider1″HorizontalAlignment=”Left”Margi…

全栈程序员-用户IM
2022年10月13日
pycharm中的注释_java中单行注释

pycharm中的注释_java中单行注释”””注释””””’注释”’\#注释前两种不是真正的注释，知识字符串的另一种表现形式，例如会被用于写__doc__等长字符串的时候起到保留格式的目的，虽然能够完成注释功能，但实际上还是字符串。按ctrl+/即可快速注释代码块ps.转载出处作者已注销账号…

全栈程序员-用户IM
2022年8月26日

发表回复

关注全栈程序员社区公众号