Asynchronous Methods for Deep Reinforcement Learning(A3C)

2024-11-23 22:41:02 202人阅读

Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016.

DeepMind rl系列文章之一。

他们提出了一个简单的轻量级框架，使得deep rl能通过异步更新进行训练。在单个多核CPU上只用了一半的训练时间，取得了优于以前模型在GPU上的训练结果。另外，该框架也支持连续输出的控制任务。

1.动机

类似于DQN, Double DQN等模型，是一种off-policy的训练方式，需要存储运行过程。他们提出了一种异步框架，能够实现on-policy，能够运用到多种rl模型上，训练时间和硬件要求大大降低，还能提高模型性能。他们自己觉得这个工作做得非常的好。当然，大家也觉得很好。

2.方法

（1）好处：作者指出，训练时间的减少量和并行的数量大约成线性。也就是说，learner越多，时间就越少。

（2）作者在one-step Qlearning, one-step Sarsa, n-step Q-learning and advantage actor-critic四个模型上实现了异步算法。在优化算法上，作者用了RMSProp。

Asynchronous Methods for Deep Reinforcement Learning(A3C)

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们