RL

这家伙很懒，什么都没留下

R

R RL 这家伙很懒，什么都没留下

发布于2022-08-19 09:45:10

为什么对目标函数求梯度的时候不对状态分布求梯度呢
Soft Q learning 公式 28 没有对 s~ρ 求梯度，但是状态分布又由策略决定，按理说应该求才对此外，在策略梯度定理那篇论文里，提到由于他的推导避免了对状态分布求梯度，这表明实际上应该求，只是在策略梯度定理中通过推导避免了这一项而已。所以...

赞 2

评论

浏览 550

水区