频道栏目
首页 > 资讯 > 其他综合 > 正文

什么是强化学习(Reinforcement Learning)?

18-04-26        来源:[db:作者]  
收藏   我要投稿

什么是强化学习

在监督学习中,对于得到的输出值需要与给出的标准答案比较后,向前反馈更新网络参数。在强化学习中,通过与环境的不断交互,获得环境给出的反馈,不断更新优化自身。环境并不会给出标准答案,只会针对每次输出给出得分,让计算机自己不断探索规律,逐步找到得到高得分的方法。

MDP

实际上强化学习解决的数学模型问题是MDP(Markov Decision Process)
三个基本元素:系统动作 / 状态 / 奖励
通过训练,每进行一次更迭机器都能从环境中观察到当前的状态,基于观察给出相应的动作改变状态,环境会给予机器奖励。

例如在经典的俄罗斯方块游戏中:
状态:已下落方块的堆积情况
系统动作:正在下落的方块采取什么形状,该在哪放下
奖励:方块堆砌完整并消除一行/多行给予得分

两个关键的模块

价值函数:在特定的状态下执行某动作,带来的长期收益
决策:基于价值函数决定该执行怎样的动作

RL的目标是使其学到的决策能够达到长远来看最优的总奖励收益

分类

理解环境 (model-based):通过对环境的理解,根据经验模拟出一个虚拟的环境。通过想象预判断接下来发生的所有情况,选择最好的并采取下一步行动。
不理解环境 (model-free):不关心真实环境的结构等,只关注得分,不关注为什么。在测试时,等待真实环境给出的反馈,采取下一步的行动。

基于概率(Policy-Based RL):利用概率衡量下一次采取各种行动的可能性,因此概率高的行动也并不一定被选中,每种行动都有被选中的可能性,只不过概率不同;对于连续值表示的行动,利用概率分布进行选择
基于价值(Value-Based RL):利用得分衡量下一次采取各种行动的可能性,价值最高的被选中,决策更铁定;但是基于价值的方法无法适用于连续值表示的行动
Actor-Critic:actor 会基于概率选择出行动, 而 critic 会对做出的行动给出价值, 这样就在原有的 policy gradients 上加速了学习过程.

回合更新(Monte-Carlo update):例如,当游戏的一整个游戏回合完成之后(从游戏开始到结束)再根据结果总结经验,更新行为准则
单步更新(Temporal-Difference update):“边玩边学习”,对游戏中的每一步造成的影响进行学习和更新(单步更新更有效率,所以当前的大多数RL都是基于单步更新)

在线学习(On-Policy):必须“本人边玩边学”
离线学习(Off-Policy):可以看“别人玩”从中获取经验,可以“白天玩晚上学”白天得到的反馈保存,晚上通过记忆集中学习并更新

相关TAG标签
上一篇:VMware下Hadoop集群环境搭建之新建虚拟机操作步骤
下一篇:spark standalone模式安装和安装测试
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站