cchenmy111
这家伙很懒,什么都没留下
发布于

多智能体强化学习求助!

评论(10)
  • cchenmy111 cchenmy111 4天前

    对的,是 smac 框架下改的自定义环境,是加大缓冲区大小吗,但是我的计算资源有限,很容易 oom

    是的,这个对 off policy 算法还是影响不小的

  • cchenmy111

    SMAC 任务吗?先加大训练轮数和 replay buffer 以及 batch size 试试

    对的,是 smac 框架下改的自定义环境,是加大缓冲区大小吗,但是我的计算资源有限,很容易 oom

  • cchenmy111 cchenmy111 8天前

    任务完成率低非常多,然后奖励也隔了一万分,目前 mappo 我把训练轮次加大,倒是保存的模型评估着还行,qmix 的暂时还是差距有点大,qmix 最后训练的时候探索是 0.05

    SMAC 任务吗?先加大训练轮数和 replay buffer 以及 batch size 试试

  • cchenmy111

    最后训练的时候,探索是多少?eval 没有探索

    最后训练的时候 qmix 是 0.05,评估是 0;mappo 的我看不出来,那个里面的 epsilon 好像和 qmix 里面定义的不一样,它指的是 GAE 的参数

  • cchenmy111
    R rlercb 8天前

    请问保存的模型保存的参数是。state_dict(),还是直接把整个模型都保存,之前我也遇到这种问题,我把保存的。state_dict()换成整个模型就好了

    我是保存的 state_dict()诶,如果是整个模型会不会特别大啊,那是保存为什么格式呢

  • cchenmy111

    差距有多大?

    任务完成率低非常多,然后奖励也隔了一万分,目前 mappo 我把训练轮次加大,倒是保存的模型评估着还行,qmix 的暂时还是差距有点大,qmix 最后训练的时候探索是 0.05

  • 请问保存的模型保存的参数是。state_dict(),还是直接把整个模型都保存,之前我也遇到这种问题,我把保存的。state_dict()换成整个模型就好了

  • cchenmy111 cchenmy111 10天前

    目前尝试的 MAPPO 和 QMIX 都有这样的问题。

    差距有多大?

  • 最后训练的时候,探索是多少?eval 没有探索

  • cchenmy111

    目前尝试的 MAPPO 和 QMIX 都有这样的问题。