【零基础强化学习】强化学习中的有模型和无模型

article/2025/9/18 5:34:48

递归与动态规划🤔

写在前面
关于Planning 与 Learning
关于有模型和无模型
写在最后
- 谢谢点赞交流！(❁´◡`❁)

更多代码: gitee主页：https://gitee.com/GZHzzz
博客主页： CSDN：https://blog.csdn.net/gzhzzaa

写在前面

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己强化学习的学习历程，希望大家互相交流一起进步。希望自己在2022年能保证把强化学习基础概念都过一遍，主要是成体系介绍强化学习的基础知识，在gitee收集了强化学习经典论文和基于pytorch的经典模型，大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

关于Planning 与 Learning

Learning 和 Planning 是序列决策的两个基本问题。
- 在强化学习中，环境初始时是未知的，agent 不知道环境如何工作，agent 通过不断地与环境交互，逐渐改进策略。
- 在 plannning 中，环境是已知的，我们被告知了整个环境的运作规则的详细信息。
  Agent 能够计算出一个完美的模型，并且在不需要与环境进行任何交互的时候进行计算。Agent 不需要实时地与环境交互就能知道未来环境，只需要知道当前的状态，就能够开始思考，来寻找最优解。
  在这个游戏中，规则是制定的（可能是动态的），我们知道选择 left 之后环境将会产生什么变化。我们完全可以通过已知的变化规则，来在内部进行模拟整个决策过程，无需与环境交互。

关于有模型和无模型

我们说的模型就是环境，对环境的了解
- 有模型就是指知道环境转移函数，学习问题就变成的规划问题（比如有条件的动态规划），也叫model-based
- 无模型就是不知道环境模型，只能用神经网络近似环境模型，所以强化学习的出现主要就是解决传统规划不能做的事
- 当然也有基于模型的强化学习算法（论文很多），本质上是加“约束”的强化学习
- 一个常用的强化学习问题解决思路是，先学习环境如何工作，也就是了解环境工作的方式，即学习得到一个模型，然后利用这个模型进行规划。