机器学习算法的强化学习(多智能体强化学习算法MADDPG)
机器学习算法的强化学习(多智能体强化学习算法MADDPG)OpenAI MADDPG每一个Critic更新参数时,需要知道所有Actor的(s a=μ(s) r s_next a'=μ'(s)) 其中a'来自其Target Policy。J指的是总奖赏,当成损失函数看待时,需要最小化其负值;注意虽然Q是全局的,但更新策略梯度只和当前Actor的(s a=μ(s))有关。action value Q损失函数:OpenAI MADDPG
MADDPG:Multi-Agent Deep Deterministic Policy Gradient,基于DDPG:深度确定性策略梯度算法的多智能体强化学习框架。
算法架构模型由多个DDPG网络组成,每个网络学习policy π (Actor) 和 action value Q (Critic);同时具有target network,用于Q-learning的off-policy学习。
损失函数policy π 梯度:
OpenAI MADDPG
J指的是总奖赏,当成损失函数看待时,需要最小化其负值;注意虽然Q是全局的,但更新策略梯度只和当前Actor的(s a=μ(s))有关。
action value Q损失函数:
OpenAI MADDPG
每一个Critic更新参数时,需要知道所有Actor的(s a=μ(s) r s_next a'=μ'(s)) 其中a'来自其Target Policy。
学习过程OpenAI MADDPG
- 整体如图,采样收集数据即执行部分是分别进行的,训练学习是统一进行的。
- 各个Actor收集数据(s a=μ(s) r s_next a'=μ'(s)),并存入Replay Buffer,当缓存池数量大于预设阈值时,开始学习。
- 每个Actor分别更新policy π参数,与DDPG一样,只需要当前(s a=μ(s))。
- 每个Critic分别更新action value Q参数,注意每个Critic都能看到所有的Actor收集的数据,更新参数时会考虑所有Actor生成的数据,即优化的是每个Critic对全局的贡献最大。
- 重复2,3,4,直至收敛。
- 通过基于Actor-Critic的DDPG作为基本结构,解决多智能体问题。
- 独立地采样,统一地学习。
- 通过所有Actor的数据更新Q的值,让系统比较平稳地优化。
- 框架没有对环境做限制,每个Agent可以有自己的Reward机制,并决定着整体是协作或是竞争。
- 对于每个Agent,测试时只需要当前Actor的数据进行预测;训练和测试输入数据不一致,这是个创新点。