什么是强化学习?
强化学习(Reinforcement learning,简称RL)是和监督学习,非监督学习并列的第三种机器学习方法,如下图示:
首先让我们举一个小时候的例子:
你现在在家,有两个动作选择:打游戏和读书。如果选择打游戏的话,你就跑到了网吧,选择读书的话,就坐在了书桌面前。你爸妈下班回家,如果发现你在网吧,就会给你一套社会主义的铁拳,如果你在书桌面前的话,就会买根棒棒糖给你吃。
首先,你在家的时候并不知道选择哪一个动作,因此你可能会选择study或者game。但是,当你接受了多次社会主义的毒打和奖励棒棒糖之后,你会发现选择game会得到惩罚,选择study你会得到奖励。因此当你再次处于”home“状态时,你就会偏向于选择“study”。(这便是强化学习!!)
强化模型可以建模如下:
以上面的为例子,对如下进行说明:
Agent:Agent也就是执行个体,我们可以操作执行个体做出不同的选择(也就是动作Action)。
图中的“你”
Environment:我们研究的环境,它有一个一个的状态(State)。
图中你所处的位置状态:网吧or书桌
Action:当Agent做出动作(action)的时候,环境会发生改变也就是State会发生改变。
选择Study或者Game后你会处于书桌或者网吧的状态
Reward:当State发生改变时,环境会给予一定的奖励(奖励可为正负)。
拳头or棒棒糖
总的来说,就是Agent在$t$时刻处于$s_t$状态,它会做出某一个动作$a_i$,导致$t+1$的状态为$s_{t+1}$,同时在$t+1$时刻得到