强化学习(David Silver)4：免模型控制

2024-11-27 14:38:02 203人阅读

1、一般的策略迭代优化的方法

1)策略评估

2)策略改善

2、model free的策略迭代优化的方法

基于v(s)的优化需要MDP，基于Q的优化不需要，所以策略是

1)使用Q函数策略评估

2)使用厄普西隆贪心策略优化

缺点：非常慢

修正方案：不用积累一批episode再优化；每个episode都优化一次；提升更新频率

3、如何保证找到了最优策略

GLIE策略保证收敛：

1)每个(s,a)都探索无限次

2)最终策略是收敛的

厄普西隆贪心是GLIE(当厄普西隆收敛时)

4、TD学习:SARSA

SARSA收敛性依赖于:sum(a)->无穷；sum(a^2)->有限值；实践中不要这么设置也可以用

5、SARSA和GridWorldSample

6、未知策略学习

1)MC重要性抽样：为什么u/v的重要性采样公式是这样？移项可以发现两边相等；Silver不建议这样做，这样效果很差，因为中间乘积太多，变化太大了

2)直接使用Q函数，不需要重要性采样，就是Q-Learning；是对a做修正，不是对v做修正

7、DP和TD的对比关系：没有看懂

策略迭代为什么对应sarsa？value迭代为什么对应Q-learing？

强化学习(David Silver)4：免模型控制

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们