Oppai>///<


  • Home

  • Tags

  • Archives

  • Search

Chapter08 trajectory_sampling

Posted on 2018-12-06

引用来自ShangtongZhang的代码chapter08/trajectory_sampling.py

通过一个MDP的例子比较了均匀采样和on-policy采样的性能

Read more »

Chapter08 expectation vs sample

Posted on 2018-12-06

引用来自ShangtongZhang的代码chapter08/expectation_vs_sample.py

通过一个简单的示例表现了使用expected 和sample update训练产生的相对误差

Read more »

Chapter08 maze

Posted on 2018-12-05

引用来自ShangtongZhang的代码chapter08/maze.py

通过maze问题帮助对8.1-8.4的内容有一个更好的理解^_^

Dyna-Q:8.2

Dyna-Q+:8.3

Prioritized Sweeping:8.4

Read more »

Chapter07 random walk 19-states

Posted on 2018-12-03

引用来自ShangtongZhang的代码chapter07/random_walk.py

n-step TD方法在random-walk问题上的应用

问题描述

本例通过将不同step的TD方法应用在Chapter06的random-walk问题中,不过将原来的5-state问题修改为了19-state问题。以此来对比不同的n-step算法的性能。

Read more »

Chapter07 n-step Bootstrapping

Posted on 2018-12-03

上一章提到了强化学习的一种重要方法:TD方法。TD方法结合了DP方法和MC方法的优点,不需要环境信息,并且通过DP的迭代思想大幅提高运算速度。这一章在上一章的基础上深入思考,如果增加更新时候使用的采样点数,即将TD方法推向MC方法,会有哪些新的算法,会获得更好的效果吗?

Read more »

Chapter06 maximization-bias and Double-Learning

Posted on 2018-12-01

引用来自ShangtongZhang的代码chapter06/maximization_bias.py

因为TD算法中的target policy建立中经常会用到maximization操作,在这些算法中,a maximum over estimated values is used implicitly as an estimate of the maximum value,这可能会导致显著的正向偏差,本例通过一个简单的MRP来讨论这个问题。

Read more »

Chapter06 Sarsa vs Q-Learning vs Expected Sarsa

Posted on 2018-12-01

引用来自ShangtongZhang的代码chapter06/windy_grid_world.py、chapter06/cliff_walking.py

本篇包含了两份代码,第一个主要测试了on-policy Sarsa的性能,第二个对标题的三种算法性能进行了比较

Read more »

Chapter06 TD(0) vs constant-alpha-MC

Posted on 2018-12-01

引用来自ShangtongZhang的代码chapter06/random_walk.py

通过一个例子比较了TD(0)和constant-α MC方法的训练性能

Read more »

Chapter06 Temporal-Difference Learning

Posted on 2018-12-01

Temporal Difference method 可以说是强化学习算法的代表,它结合了Monte Carlo方法和DP方法的优点:
TD方法不需要借助环境的信息(model-free),可以直接通过模拟得到经验进行学习;
同时它像DP算法一样,一个state的估计(estimate)可以通过其它部分的估计来进行更新,而不需要等待完整的episode结束。

Read more »

Chapter05 infinite_variance

Posted on 2018-11-28

引用来自ShangtongZhang的代码chapter05/infinite_variance.py

通过一个例子论证了ordinary importance sampling的不稳定性

问题描述

这个程序通过一个简单的例子证明了ordinary importance sampling 的方差经常会发生不收敛的问题。

本例使用了一个只有一个状态s和两个状态left和right,以及一个terminate state的MDP问题,详细的Reward和转移概率如下所示:

Read more »
12345
xingE650

xingE650

46 posts
7 tags
Helpful Link
  • numpy-reference
  • RL-book-code
  • latex-common-grammer
  • common-pretrained-models
© 2019 xingE650
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6