引用来自ShangtongZhang的代码chapter07/random_walk.py
n-step TD方法在random-walk问题上的应用
问题描述
本例通过将不同step的TD方法应用在Chapter06的random-walk问题中,不过将原来的5-state问题修改为了19-state问题。以此来对比不同的n-step算法的性能。
引入模块并定义常量
1 | import numpy as np |
使用n-step TD方法来对policy π进行predict
1 | # n-steps TD method |
绘制图表,通过图表观察不同n的算法的性能
1 |
|
100%|██████████| 100/100 [08:19<00:00, 4.90s/it]