多智能体强化学习求助！

水区 #多智能体强化学习

浏览 (381) 点赞收藏

上

上善若水 2025-04-30 09:54:48 回复

 cchenmy111 2025-04-29 23:00:03

对的，是 smac 框架下改的自定义环境，是加大缓冲区大小吗，但是我的计算资源有限，很容易 oom

是的，这个对 off policy 算法还是影响不小的
cchenmy111 2025-04-29 23:00:03 回复

上上善若水 2025-04-26 20:54:35

SMAC 任务吗？先加大训练轮数和 replay buffer 以及 batch size 试试

对的，是 smac 框架下改的自定义环境，是加大缓冲区大小吗，但是我的计算资源有限，很容易 oom
上

上善若水 2025-04-26 20:54:35 回复

 cchenmy111 2025-04-26 12:51:55

任务完成率低非常多，然后奖励也隔了一万分，目前 mappo 我把训练轮次加大，倒是保存的模型评估着还行，qmix 的暂时还是差距有点大，qmix 最后训练的时候探索是 0.05

SMAC 任务吗？先加大训练轮数和 replay buffer 以及 batch size 试试
cchenmy111 2025-04-26 12:56:39 回复

R rlchina-baishi 2025-04-25 14:21:20

最后训练的时候，探索是多少？eval 没有探索

最后训练的时候 qmix 是 0.05，评估是 0；mappo 的我看不出来，那个里面的 epsilon 好像和 qmix 里面定义的不一样，它指的是 GAE 的参数
cchenmy111 2025-04-26 12:52:37 回复

R rlercb 2025-04-26 12:31:25

请问保存的模型保存的参数是。state_dict()，还是直接把整个模型都保存，之前我也遇到这种问题，我把保存的。state_dict()换成整个模型就好了

我是保存的 state_dict()诶，如果是整个模型会不会特别大啊，那是保存为什么格式呢
cchenmy111 2025-04-26 12:51:55 回复

上上善若水 2025-04-26 10:43:09

差距有多大？

任务完成率低非常多，然后奖励也隔了一万分，目前 mappo 我把训练轮次加大，倒是保存的模型评估着还行，qmix 的暂时还是差距有点大，qmix 最后训练的时候探索是 0.05
R

rlercb 2025-04-26 12:31:25 回复

请问保存的模型保存的参数是。state_dict()，还是直接把整个模型都保存，之前我也遇到这种问题，我把保存的。state_dict()换成整个模型就好了
上

上善若水 2025-04-26 10:43:09 回复

 cchenmy111 2025-04-23 23:43:42

目前尝试的 MAPPO 和 QMIX 都有这样的问题。

差距有多大？
R

rlchina-baishi 2025-04-25 14:21:20 回复

最后训练的时候，探索是多少？eval 没有探索
cchenmy111 2025-04-23 23:43:42 回复

目前尝试的 MAPPO 和 QMIX 都有这样的问题。