什么是强化学习（Reinforcement Learning）？

18-04-26 来源：[db:作者]

收藏我要投稿

什么是强化学习

在监督学习中，对于得到的输出值需要与给出的标准答案比较后，向前反馈更新网络参数。在强化学习中，通过与环境的不断交互，获得环境给出的反馈，不断更新优化自身。环境并不会给出标准答案，只会针对每次输出给出得分，让计算机自己不断探索规律，逐步找到得到高得分的方法。

MDP

实际上强化学习解决的数学模型问题是MDP（Markov Decision Process）
三个基本元素：系统动作 / 状态 / 奖励
通过训练，每进行一次更迭机器都能从环境中观察到当前的状态，基于观察给出相应的动作改变状态，环境会给予机器奖励。

例如在经典的俄罗斯方块游戏中：
状态：已下落方块的堆积情况
系统动作：正在下落的方块采取什么形状，该在哪放下
奖励：方块堆砌完整并消除一行/多行给予得分

两个关键的模块

价值函数：在特定的状态下执行某动作，带来的长期收益
决策：基于价值函数决定该执行怎样的动作

RL的目标是使其学到的决策能够达到长远来看最优的总奖励收益

分类

理解环境 (model-based):通过对环境的理解，根据经验模拟出一个虚拟的环境。通过想象预判断接下来发生的所有情况，选择最好的并采取下一步行动。
不理解环境 (model-free):不关心真实环境的结构等，只关注得分，不关注为什么。在测试时，等待真实环境给出的反馈，采取下一步的行动。

基于概率(Policy-Based RL)：利用概率衡量下一次采取各种行动的可能性，因此概率高的行动也并不一定被选中，每种行动都有被选中的可能性，只不过概率不同；对于连续值表示的行动，利用概率分布进行选择
基于价值(Value-Based RL)：利用得分衡量下一次采取各种行动的可能性，价值最高的被选中，决策更铁定；但是基于价值的方法无法适用于连续值表示的行动
Actor-Critic：actor 会基于概率选择出行动, 而 critic 会对做出的行动给出价值, 这样就在原有的 policy gradients 上加速了学习过程.

回合更新(Monte-Carlo update)：例如，当游戏的一整个游戏回合完成之后（从游戏开始到结束）再根据结果总结经验，更新行为准则
单步更新(Temporal-Difference update)：“边玩边学习”，对游戏中的每一步造成的影响进行学习和更新（单步更新更有效率，所以当前的大多数RL都是基于单步更新）

在线学习(On-Policy)：必须“本人边玩边学”
离线学习(Off-Policy)：可以看“别人玩”从中获取经验，可以“白天玩晚上学”白天得到的反馈保存，晚上通过记忆集中学习并更新

点击复制链接与好友分享!回本站首页