首页 > 代码库 > 中国mooc北京理工大学机器学习第三周(一):强化学习基础
中国mooc北京理工大学机器学习第三周(一):强化学习基础
强化学习是程序或者智能体通过与环境不断地进行交互学习一个从环境到动作的映射,学习的目标使累计回报最大化。
强化学习是一种试错学习,在各种状态选需要尽量尝试所有可以选择的动作,通过环境的反馈来判断动作的优劣,最终获得环境和最优动作的映射关系。
(马尔可夫)MDP通常来描述一个强化学习问题,智能体根据当前环境的观察采取动作获得反馈,并使环境改变。
在现实的强化学习任务中,很多条件不能获得,若学习不再依赖环境,则称为免疫模型学习,蒙特卡洛强化学习。
Q-learning结合了动态规划和蒙特卡洛强化学习算法。
深度强化学习(Deep Q Network)DQN是将神经网络和Q-learning结合起来。
这课比较简单,科普类型的,在cs223和林轩田,andrew的课上有讲。
以上。
:)
中国mooc北京理工大学机器学习第三周(一):强化学习基础
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。