Oppai>///<


  • Home

  • Tags

  • Archives

  • Search

Chapter12 Eligibility Traces

Posted on 2018-12-24

在以往的强化学习方法中我们看到,不管是使用纯粹采样的MC方法,还是基于Bellman equation的DP方法以及bootstrape方法,每个value(state or action)都依赖于其后发生的动作,即属于forward view的算法思想:

png

通过引入Eligibility trace,我们便能够将forward view的算法转变为backward view的算法。

Read more »

Chapter11 counterexample

Posted on 2018-12-20

引用来自ShangtongZhang的代码chapter11/counterexample.py

通过Baird’s counterexample来分析off-policy的approximation方法的性能。

Read more »

Chapter11 Off-policy Methods with Approximation

Posted on 2018-12-19

这章在第9章 On-policy Prediction with Approximation和第10章 On-policy Control with Approximation的基础上,讨论off-policy的approximation方法,主要讲解了off-policy with approximation的预测方法。在tubular方法里,从on-policy方法推广到off-policy方法基本是无痛的,收敛性也可以得到保障,但是这一章会讨论更多关于收敛性和可学习性(Learnable)的话题,理解这些不但可以帮助我们更好的理解off-policy的approximation方法,也可以更好的理解强化学习近似函数训练的本质。

首先提出off-policy的两个挑战,其实是相对于on-policy算法遇到的一些问题。第一个是target of update,因为off-policy方法使用behavior policy产生的数据更新target policy,所以target in update rule需要做一些改动,这个工作是通过重要采样因子完成的;第二个是distribution of updates,这里的distribution该怎么理解?完成更新所使用的state的分布?老实说我并没有get到this,我能理解的只是,一些显而易见的梯度下降的损失函数,比如BE(Bellman Error),可能不能保证训练结果,也就是weight的收敛,需要考虑其他的最小化目标。那么我对于distribution of update可以这样理解吗,就是最终学习到的weight会导致value function的分布更趋于哪种,是趋于BE最小,还是RE最小,还是PBE最小等等。换句话说,distribution和target,感觉是approximation function method和tabular method的本质区别,前者更新weight,更新的的是整体state(or action) value的分布,或者函数形式,而后者更新的只是某个具体的value的值。所以两个挑战,只是不同方法的不同表现形式吧?

Read more »

Chapter10 access control

Posted on 2018-12-15

引用来自ShangtongZhang的代码chapter10/access_control.py

使用访问控制的例子来测试continuing tasks下使用average reward setting训练action value function approximation的效果。

Read more »

Chapter10 mountain car

Posted on 2018-12-15

引用来自ShangtongZhang的代码chapter10/mountain_car.py

使用强化学习中经典的例子:mountain car来测试semi-gradient Sarsa算法的性能。

Read more »

Chapter10 On-policy Control with Approximation

Posted on 2018-12-15

上一章讲了value function approximation的评估问题,那么将固定的policy转换为需要优化的optimal policy,再加上policy improvement就可以完成控制问题。本章使用on-policy GPI的模式来考虑基于approximation的on-policy control问题。

Read more »

Chapter09 square_wave

Posted on 2018-12-12

引用来自ShangtongZhang的代码chapter09/square_wave.py

使用Coarse Coding方法构造feature来比较不同参数对近似函数性能的影响

问题描述

这个例子是书上的Example 9.3: Coarseness of Coarse Coding:

使用Coarse Coding的方法建立近似函数去近似一个方波函数,即将方波函数的随机采样作为U_t来使用,通过修改区间之间的间隔、尺寸等参数来比较不同参数对Coarse Coding特征的泛化特性的影响。

Read more »

Chapter09 1000-state Random Walk

Posted on 2018-12-08

引用来自ShangtongZhang的代码chapter09/random_walk.py

通过1000-state MRP的例子比较了linear近似函数的不同feature构造方法对应的value function approximation强化学习算法性能

Read more »

Chapter09 On-policy Prediction with Approximation

Posted on 2018-12-08

之前在第一部分(Chapter01~Chapter08)讲的value function建立,是一种表格的方法(tabular method),不管是state-value还是action-value,最终的收敛结果都是以有限的、准确的列表来存储的。这种方法是理解强化学习的基础方法,但是随着state space的扩大,传统的精确方法便被计算资源和计算时间所限制,这时,学习目标便从准确的value table变为了学习近似的value function。function approximation是value function的近似形式,之所以称之为function,是因为所有的value都是通过一个带参数的函数来近似的,函数参数是通过一部分的学习数据得到,用来在整个state space上推广。

这种思路比较像监督学习(supervised learning)。但是因为强化学习问题所引入的nonstationarity, bootstrapping, and delayed targets等特性,reinforcement learning with function approximation相较supervised learning还有很多新的问题需要讨论。本章主要讲了function approximation在on-policy的预测问题中的应用。

Read more »

Chapter08 Planning and Learning with Tabular Methods

Posted on 2018-12-07

这章给出了关于model-free方法和model-based方法的一个统一观点,即将两者的思路结合起来解决问题:

model-based 方法训练采用基于model进行planning的方法,通过向后迭代(backup)来更新value function;而model-free 方法训练采用从环境抽样(sampling)来进行value function的learning,具体也是使用后续的state(action)-value来backup当前value function。两者之间同时有很多相似点,比如都会update value function,都采用backup的策略update等。可见两者的区别主要在于model的维护与否,当然这就是结合起来两种方法的训练策略。

Read more »
123…5
xingE650

xingE650

46 posts
7 tags
Helpful Link
  • numpy-reference
  • RL-book-code
  • latex-common-grammer
  • common-pretrained-models
© 2019 xingE650
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6