cchenmy111
这家伙很懒,什么都没留下
评论(10)
请
登录后发表观点
-
对的,是 smac 框架下改的自定义环境,是加大缓冲区大小吗,但是我的计算资源有限,很容易 oom
是的,这个对 off policy 算法还是影响不小的
-
任务完成率低非常多,然后奖励也隔了一万分,目前 mappo 我把训练轮次加大,倒是保存的模型评估着还行,qmix 的暂时还是差距有点大,qmix 最后训练的时候探索是 0.05
SMAC 任务吗?先加大训练轮数和 replay buffer 以及 batch size 试试
-
最后训练的时候,探索是多少?eval 没有探索
最后训练的时候 qmix 是 0.05,评估是 0;mappo 的我看不出来,那个里面的 epsilon 好像和 qmix 里面定义的不一样,它指的是 GAE 的参数
-
请问保存的模型保存的参数是。state_dict(),还是直接把整个模型都保存,之前我也遇到这种问题,我把保存的。state_dict()换成整个模型就好了
-
目前尝试的 MAPPO 和 QMIX 都有这样的问题。
差距有多大?
-
最后训练的时候,探索是多少?eval 没有探索
-
目前尝试的 MAPPO 和 QMIX 都有这样的问题。