快捷搜索:  汽车  科技

机器学习算法的强化学习(多智能体强化学习算法MADDPG)

机器学习算法的强化学习(多智能体强化学习算法MADDPG)OpenAI MADDPG每一个Critic更新参数时,需要知道所有Actor的(s a=μ(s) r s_next a'=μ'(s)) 其中a'来自其Target Policy。J指的是总奖赏,当成损失函数看待时,需要最小化其负值;注意虽然Q是全局的,但更新策略梯度只和当前Actor的(s a=μ(s))有关。action value Q损失函数:OpenAI MADDPG

MADDPG:Multi-Agent Deep Deterministic Policy Gradient,基于DDPG:深度确定性策略梯度算法的多智能体强化学习框架。

算法架构

模型由多个DDPG网络组成,每个网络学习policy π (Actor) 和 action value Q (Critic);同时具有target network,用于Q-learning的off-policy学习。

机器学习算法的强化学习(多智能体强化学习算法MADDPG)(1)

损失函数

policy π 梯度:

机器学习算法的强化学习(多智能体强化学习算法MADDPG)(2)

OpenAI MADDPG

J指的是总奖赏,当成损失函数看待时,需要最小化其负值;注意虽然Q是全局的,但更新策略梯度只和当前Actor的(s a=μ(s))有关。

action value Q损失函数:

机器学习算法的强化学习(多智能体强化学习算法MADDPG)(3)

OpenAI MADDPG

每一个Critic更新参数时,需要知道所有Actor的(s a=μ(s) r s_next a'=μ'(s)) 其中a'来自其Target Policy

学习过程

机器学习算法的强化学习(多智能体强化学习算法MADDPG)(4)

OpenAI MADDPG

  1. 整体如图,采样收集数据即执行部分是分别进行的,训练学习统一进行的。
  2. 各个Actor收集数据(s a=μ(s) r s_next a'=μ'(s)),并存入Replay Buffer,当缓存池数量大于预设阈值时,开始学习。
  3. 每个Actor分别更新policy π参数,与DDPG一样,只需要当前(s a=μ(s))。
  4. 每个Critic分别更新action value Q参数,注意每个Critic都能看到所有的Actor收集的数据,更新参数时会考虑所有Actor生成的数据,即优化的是每个Critic对全局的贡献最大
  5. 重复2,3,4,直至收敛。
模型特点
  1. 通过基于Actor-Critic的DDPG作为基本结构,解决多智能体问题。
  2. 独立地采样,统一地学习
  3. 通过所有Actor的数据更新Q的值,让系统比较平稳地优化。
  4. 框架没有对环境做限制,每个Agent可以有自己的Reward机制,并决定着整体是协作或是竞争。
  5. 对于每个Agent,测试时只需要当前Actor的数据进行预测;训练和测试输入数据不一致,这是个创新点。

猜您喜欢: