Chapter04 Dynamic Programming

上一章讲了马尔科夫决策过程的概念，末尾提出了针对MDP的value-state、value-action-state建立方法，很明显可以看出是使用了动态规划的方法，这一章就在上一章基础上，进一步讲述如何使用动态规划来训练以及优化MDP问题的强化学习算法。

对了这里给一个概念辨析，关于MDP和MRP的，其实两者是不一样的，通过状态转移得到reward的是MRP，通过action得到reward的是MDP。不过话说，有区别吗？action的结果就是state的转换。哈哈，还有有区别的，因为在本书中例子都比较简单，一般action和state的转换基本是对应的，有一个例子可以帮助理解这个问题，就是trajectory sampling的例程，这里每个action对应一个随机的branch，而每个branch对应的next state也是随机的，所以用MDP来解释的话，reward是对应action的，不同的action对应reward；用MRP解释的话，action之后，还要考虑导致了的哪个branch最终转到哪个state了，然后reward根据(current state,next state)来给定，这就和MDP差别很大了。一般简单来说两者是可以混用的…

4.1 Policy Evaluation

首先理解什么是策略的评估

策略的评估也可以认为是一种预测行为，是解决MDP问题的必要环节。通过评估，我们使用已有的policy选择action（大部分问题policy是一个随机函数，即按照一定的概率分布产生action），使用动态规划的方法更新整个state-set的value并达到收敛。评估结果即value-table，是我们决策的重要依据，所以可以为未知的player如何行动提供预测的参考。

评估模型经常使用迭代运算的方式，迭代同时分为原地迭代和旧值迭代，区别仅是在动态规划使用未来状态来更新当前value的时候，是否使用更新后的值，运算通式是：

png