Chapter12 Eligibility Traces

Posted on 2018-12-24

在以往的强化学习方法中我们看到，不管是使用纯粹采样的MC方法，还是基于Bellman equation的DP方法以及bootstrape方法，每个value(state or action)都依赖于其后发生的动作，即属于forward view的算法思想：

png

通过引入Eligibility trace，我们便能够将forward view的算法转变为backward view的算法。

Chapter11 counterexample

Posted on 2018-12-20

引用来自ShangtongZhang的代码chapter11/counterexample.py

通过Baird’s counterexample来分析off-policy的approximation方法的性能。

Chapter11 Off-policy Methods with Approximation

Posted on 2018-12-19

这章在第9章 On-policy Prediction with Approximation和第10章 On-policy Control with Approximation的基础上，讨论off-policy的approximation方法，主要讲解了off-policy with approximation的预测方法。在tubular方法里，从on-policy方法推广到off-policy方法基本是无痛的，收敛性也可以得到保障，但是这一章会讨论更多关于收敛性和可学习性(Learnable)的话题，理解这些不但可以帮助我们更好的理解off-policy的approximation方法，也可以更好的理解强化学习近似函数训练的本质。

首先提出off-policy的两个挑战，其实是相对于on-policy算法遇到的一些问题。第一个是target of update，因为off-policy方法使用behavior policy产生的数据更新target policy，所以target in update rule需要做一些改动，这个工作是通过重要采样因子完成的；第二个是distribution of updates，这里的distribution该怎么理解？完成更新所使用的state的分布？老实说我并没有get到this，我能理解的只是，一些显而易见的梯度下降的损失函数，比如BE(Bellman Error)，可能不能保证训练结果，也就是weight的收敛，需要考虑其他的最小化目标。那么我对于distribution of update可以这样理解吗，就是最终学习到的weight会导致value function的分布更趋于哪种，是趋于BE最小，还是RE最小，还是PBE最小等等。换句话说，distribution和target，感觉是approximation function method和tabular method的本质区别，前者更新weight，更新的的是整体state(or action) value的分布，或者函数形式，而后者更新的只是某个具体的value的值。所以两个挑战，只是不同方法的不同表现形式吧？

Chapter10 access control

Posted on 2018-12-15

引用来自ShangtongZhang的代码chapter10/access_control.py

使用访问控制的例子来测试continuing tasks下使用average reward setting训练action value function approximation的效果。

Chapter10 mountain car

Posted on 2018-12-15

引用来自ShangtongZhang的代码chapter10/mountain_car.py

使用强化学习中经典的例子:mountain car来测试semi-gradient Sarsa算法的性能。

Chapter10 On-policy Control with Approximation

Posted on 2018-12-15

上一章讲了value function approximation的评估问题，那么将固定的policy转换为需要优化的optimal policy，再加上policy improvement就可以完成控制问题。本章使用on-policy GPI的模式来考虑基于approximation的on-policy control问题。

Chapter09 square_wave

Posted on 2018-12-12

引用来自ShangtongZhang的代码chapter09/square_wave.py

使用Coarse Coding方法构造feature来比较不同参数对近似函数性能的影响

问题描述

这个例子是书上的Example 9.3: Coarseness of Coarse Coding：

使用Coarse Coding的方法建立近似函数去近似一个方波函数，即将方波函数的随机采样作为U_t来使用，通过修改区间之间的间隔、尺寸等参数来比较不同参数对Coarse Coding特征的泛化特性的影响。

Chapter09 1000-state Random Walk

Posted on 2018-12-08

引用来自ShangtongZhang的代码chapter09/random_walk.py

通过1000-state MRP的例子比较了linear近似函数的不同feature构造方法对应的value function approximation强化学习算法性能

Chapter09 On-policy Prediction with Approximation

Posted on 2018-12-08

之前在第一部分(Chapter01~Chapter08)讲的value function建立，是一种表格的方法(tabular method)，不管是state-value还是action-value，最终的收敛结果都是以有限的、准确的列表来存储的。这种方法是理解强化学习的基础方法，但是随着state space的扩大，传统的精确方法便被计算资源和计算时间所限制，这时，学习目标便从准确的value table变为了学习近似的value function。function approximation是value function的近似形式，之所以称之为function，是因为所有的value都是通过一个带参数的函数来近似的，函数参数是通过一部分的学习数据得到，用来在整个state space上推广。

这种思路比较像监督学习(supervised learning)。但是因为强化学习问题所引入的nonstationarity, bootstrapping, and delayed targets等特性，reinforcement learning with function approximation相较supervised learning还有很多新的问题需要讨论。本章主要讲了function approximation在on-policy的预测问题中的应用。

Chapter08 Planning and Learning with Tabular Methods

Posted on 2018-12-07

这章给出了关于model-free方法和model-based方法的一个统一观点，即将两者的思路结合起来解决问题：

model-based 方法训练采用基于model进行planning的方法，通过向后迭代(backup)来更新value function；而model-free 方法训练采用从环境抽样(sampling)来进行value function的learning，具体也是使用后续的state(action)-value来backup当前value function。两者之间同时有很多相似点，比如都会update value function，都采用backup的策略update等。可见两者的区别主要在于model的维护与否，当然这就是结合起来两种方法的训练策略。