RLChina 强化学习社区
发表
发动态
发帖子
登录/注册
首页
话题
发动态
发帖子
消息
登录/注册
最新
推荐
关注
R
RL
这家伙很懒,什么都没留下
个人成就
积分
1
帖子
1
评论
0
注册排名
1317
关注了
0
关注者
0
帖子
文章
R
R
RL
这家伙很懒,什么都没留下
发布于2022-08-19 09:45:10
为什么对目标函数求梯度的时候不对状态分布求梯度呢
Soft Q learning 公式 28 没有对 s~ρ 求梯度,但是状态分布又由策略决定,按理说应该求才对 此外,在策略梯度定理那篇论文里,提到由于他的推导避免了对状态分布求梯度,这表明实际上应该求,只是在策略梯度定理中通过推导避免了这一项而已。 所以...
赞
2
评论
浏览
500
水区
到底啦