首页 > 代码库 > 强化学习(David Silver)4:免模型控制
强化学习(David Silver)4:免模型控制
1、一般的策略迭代优化的方法
1)策略评估
2)策略改善
2、model free的策略迭代优化的方法
基于v(s)的优化需要MDP,基于Q的优化不需要,所以策略是
1)使用Q函数策略评估
2)使用厄普西隆贪心策略优化
缺点:非常慢
修正方案:不用积累一批episode再优化;每个episode都优化一次;提升更新频率
3、如何保证找到了最优策略
GLIE策略保证收敛:
1)每个(s,a)都探索无限次
2)最终策略是收敛的
厄普西隆贪心是GLIE(当厄普西隆收敛时)
4、TD学习:SARSA
SARSA收敛性依赖于:sum(a)->无穷;sum(a^2)->有限值;实践中不要这么设置也可以用
5、SARSA和GridWorldSample
6、未知策略学习
1)MC重要性抽样:为什么u/v的重要性采样公式是这样?移项可以发现两边相等;Silver不建议这样做,这样效果很差,因为中间乘积太多,变化太大了
2)直接使用Q函数,不需要重要性采样,就是Q-Learning;是对a做修正,不是对v做修正
7、DP和TD的对比关系:没有看懂
策略迭代为什么对应sarsa?value迭代为什么对应Q-learing?
强化学习(David Silver)4:免模型控制
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。