首页 > 代码库 > Asynchronous Methods for Deep Reinforcement Learning(A3C)

Asynchronous Methods for Deep Reinforcement Learning(A3C)

Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016.

 

DeepMind rl系列文章之一。

 

他们提出了一个简单的轻量级框架,使得deep rl能通过异步更新进行训练。在单个多核CPU上只用了一半的训练时间,取得了优于以前模型在GPU上的训练结果。另外,该框架也支持连续输出的控制任务。

 

1.动机

类似于DQN, Double DQN等模型,是一种off-policy的训练方式,需要存储运行过程。他们提出了一种异步框架,能够实现on-policy,能够运用到多种rl模型上,训练时间和硬件要求大大降低,还能提高模型性能。他们自己觉得这个工作做得非常的好。当然,大家也觉得很好。

 

2.方法

(1)好处:作者指出,训练时间的减少量和并行的数量大约成线性。也就是说,learner越多,时间就越少。

(2)作者在one-step Qlearning, one-step Sarsa, n-step Q-learning and advantage actor-critic四个模型上实现了异步算法。在优化算法上,作者用了RMSProp。

<style>p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 10.0px Helvetica } _ --> { }</style>

Asynchronous Methods for Deep Reinforcement Learning(A3C)