RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
R

RL

这家伙很懒,什么都没留下

个人成就
  • 积分
    1
  • 帖子
    1
  • 评论
    0
  • 注册排名
    1317
  • 关注了
    0
  • 关注者
    0
  • 帖子
  • 文章
  • R
    R RL 这家伙很懒,什么都没留下
    发布于2022-08-19 09:45:10

    为什么对目标函数求梯度的时候不对状态分布求梯度呢

    Soft Q learning 公式 28 没有对 s~ρ 求梯度,但是状态分布又由策略决定,按理说应该求才对 此外,在策略梯度定理那篇论文里,提到由于他的推导避免了对状态分布求梯度,这表明实际上应该求,只是在策略梯度定理中通过推导避免了这一项而已。 所以...
    赞 2
    评论
    浏览 500
    水区
关于 标签 友链