如果要用强化学习去解决一个实际问题,第一步要做的事情就是把这个实际问题抽象为一个马尔可夫决策过程,也就是明确马尔可夫决策过程的各个组成要素。
马尔可夫奖励过程:
奖励函数:环境给予智能体的即时反馈,最终求得价值函数:考虑了其他步后这一步的最终价值。