快捷搜索:  汽车  科技

集成学习相关算法的应用(技术论文改进Q)

集成学习相关算法的应用(技术论文改进Q)关注我的你,是最香哒!摘 要 :Q-learning 作为一种经典的强化学习算法 其在离散状态下存在计算量高、收敛速度慢等问题 。Speedy Q-learning 是 Q-learning 的变种 目 的是解决 Q-learning 算法收敛速度慢问题 。为解决多智能体强化学习 中“ 维数 灾”问题 在 Speedy Q-learning 算法的基础上提出了一种基于动作采样的(action sampling based on Speedy Q-learning ASSQ)算法 。该算法采用集中训练 -分散执行(centralized training with decentralized execution CTDE) 的框架 将上一 迭代步更新后的 Q 值作为下一状态的最大 Q 值 有效降低了 Q 值的比较次数 整体上提升了算法的收敛速度 。为减 少学习阶段计算量 算

欢迎引用

[1]赵德京 马洪聪 王家曜 周维庆.改进Q学习算法在多智能体强化学习中的应用[J].自动化与仪器仪表 2022 No.272(06):13-16 22.DOI:10.14016/j.cnki.1001-9227.2022.06.013.

赵德京,马洪聪,王家曜,周维庆

(1. 青岛大学自动化学院2. 青岛石化检修安装工程有限责任公司 )

摘 要 :Q-learning 作为一种经典的强化学习算法 其在离散状态下存在计算量高、收敛速度慢等问题 。Speedy Q-learning 是 Q-learning 的变种 目 的是解决 Q-learning 算法收敛速度慢问题 。为解决多智能体强化学习 中“ 维数 灾”问题 在 Speedy Q-learning 算法的基础上提出了一种基于动作采样的(action sampling based on Speedy Q-learning ASSQ)算法 。该算法采用集中训练 -分散执行(centralized training with decentralized execution CTDE) 的框架 将上一 迭代步更新后的 Q 值作为下一状态的最大 Q 值 有效降低了 Q 值的比较次数 整体上提升了算法的收敛速度 。为减 少学习阶段计算量 算法在集中训练阶段求取下一状态最大 Q 值时 并没有遍历所有联合动作 Q 值 而只在联合动 作空间上进行部分采样 。在动作选择和执行阶段 每个智能体又根据学习到的策略独立选择动作 从而有效提高了 算法的学习效率 。通过在目标运输任务上验证 ASSQ 算法能够以 100%的成功率学习到最优联合策略 且计算量明 显少于 Q-learning 算法。

关键词 :Q-learning;Speedy Q-learning;多智能体强化学习;动作采样

集成学习相关算法的应用(技术论文改进Q)(1)

集成学习相关算法的应用(技术论文改进Q)(2)

集成学习相关算法的应用(技术论文改进Q)(3)

集成学习相关算法的应用(技术论文改进Q)(4)

(来源: 自动化与仪器仪表 2022年第6期)

关注我的你,是最香哒!

猜您喜欢: