简单记录一下最近(and future)看的关于机器人方面的论文,大致方向是manipulator相关的,具体涉及到了trajectory generation、motion planning和cv方面的内容,主要记录论文中自己不理解的地方和觉得重要的地方。
why do numpy so efficient
之前在毕设中使用了numpy来完成进化算法的优化,比起使用python自带的数据类型list,速度提高了将近10倍,但是为什么numpy如此地高效,我在网上的博客看到的理解主要有两点:优化的存储管理和使用了低级语言完成性能优化。通过学习论文The NumPy Array: A Structure for Efficient Numerical Computation来详细了解一下其中的原理吧^_^。
config for aria2
今天因为需要下载kaggle上的iwildcam比赛的数据集,折腾了一下aria2,下面记录一下过程备忘,and,之前的博客使用了大量的新浪图床的图片外链,最近发现新浪已经开始限制外链引用了,本文会给出解决方案,但是为了保险起见,近期最好将这些图片进行替换。
经典集合理论中的关系
接触粗糙集是因为毕设论文需要用到,但是wiki上和网上的一些博客,包括老师给的参考论文上的理论都有一些出入(其实是不同的东西混在一起),所以就查阅了《粗糙集理论、算法与应用》,对粗糙集理论进行了较为系统的认识。
接着的几篇blog,我将自己在书上看到的和理解的东西整理出来,这一次主要讲一下经典集合中的关系的概念。
Chapter13 short corridor
引用来自ShangtongZhang的代码chapter13/short_corridor.py
使用一个只含3个non-terminal state的简单grid-world问题讨论参数化policy算法的性能。
Chapter13 Policy Gradient Methods
目前为止讨论的的强化学习算法都是基于value的,即通过学习value来决定policy,这章绕过value这个学习目标,虽然仍然会更新value,但是学习目标是得到一个参数化的policy,来直接进行决策。
Chapter12 mountain car
引用来自ShangtongZhang的代码chapter12/mountain_car.py
使用喜闻乐见的MountainCar来测试Sarsa(λ)算法的性能
因为一直在纠结true online Sarsa(λ)的问题,然后我发现效果惨不忍睹。。。不知道是自己的问题还是不太合适用在这,可以在下面看出来。因为训练速度很慢(全部训练完差不多一下午,中间我还在sao改),所以就借鉴一下大佬的结果。