今天因为需要下载kaggle上的iwildcam比赛的数据集,折腾了一下aria2,下面记录一下过程备忘,and,之前的博客使用了大量的新浪图床的图片外链,最近发现新浪已经开始限制外链引用了,本文会给出解决方案,但是为了保险起见,近期最好将这些图片进行替换。
what is aria2
aria2 is a lightweight multi-protocol & multi-source command-line download utility. It supports HTTP/HTTPS, FTP, SFTP, BitTorrent and Metalink. aria2 can be manipulated via built-in JSON-RPC and XML-RPC interfaces.
我理解就是和wget、curl命令一样,属于命令行下载工具,但是aria2可以多线程下载,所以速度会快一点。之所以用aria2,主要是因为校园网只有教室的wifi是免费的,而wifi很不稳定,chrome下载的话是不支持断点重传的,如果失败了就重新下了,而我试了kaggle的api,但是完全不work(应该是网络比较差),然后还尝试了wget指令,但是只有10kb/s级别的下载速度,所以考虑了aria2。
how to config it
这里我走了不少弯路,首先是使用了uget。网上说这个是Linux环境下的迅雷,但是我将uget+aria2+chrome都配置了,但是不但效果不好,而且uget运行起来系统非常卡顿,而直接使用aria2的命令行也没用,速度很慢。
然后我在网上看到了这篇博客,这让我想起来了之前使用aria2下载百度云资源时候好像也是这样配置的,下面给出配置过程:
install aria2
1 | $ sudo apt-get install aria2 |
config aria2
1 | mkdir config_aria2 # config_aria2存放配置文件,这个可以随意,但是要和配置文件对应 |
aria2.conf文件配置可以参考这篇文章,下面我给出我的配置,注意要修改文件名对应前面的文件:
1 | ## '#'开头为注释内容, 选项都有相应的注释说明, 根据需要修改 ## |
注意要保证下面的语句和前面的文件对应:
1 | input-file=config_aria2/aria2.session |
如果使用了相对路径,那么要注意aria2c的运行路径。
然后需要在chrome上下载插件:添加到aria2
,并配置插件,配置方式很简单,如果没有修改aria2的配置文件的话,就可以直接使用插件的默认配置就行了。配置结束了点击插件图标将它打开就行了。
it seems that sth. is wrong
配置结束之后,我点击了kaggle上的Download All图标之后,显示aria2接收到了任务,命令行里程序也开始下载了,但是速度却非常慢,我修改了线程数什么的效果也不见好转。。。然后我就接着折腾了一下午,发现没什么用。
所以配置失败了吗?说实话我也不知道,但是将近下午5点的时候我发现,下载速度突然提高到了2Mb/s,比chrome下载速度提高了不少。这里还要说一下的就是,在windows上使用迅雷插件将任务导出到迅雷下载,以及ubuntu上将任务导出到aria2上下载,chrome的下载任务都会不可逆地降速到0,然后任务就会失败。反正又能用了,毕竟使用这个下载可以断点续传,也只能这样了。
这里再记录一个非常stupid的问题,今天我在aria2上下载数据集的时候,突然系统报错,说我的/目录磁盘空间不够了,我赶紧一看发现占用100%,然后一查是/media目录,也就是我挂载磁盘的位置挂了。我想不应该啊,这个位置不是应该挂载在我的windows的E盘上吗,怎么会让根目录爆了?百度了一下也没弄出什么名堂,折腾了快一个小时才发现/media目录下居然有两个文件夹!结果可想而知,我把aria2的下载目录搞成了没有挂载磁盘的那一个,所以一下载就提示根目录无空间。但是为什么呢?一想就明白了,是晚上开机的时候没有挂载磁盘就直接用aria2下载了,结果就直接在/media文件夹下新建和原来的磁盘挂载目录同名的目录,结果aria2报错之后我来挂载磁盘,磁盘就变成别的名字了,唉,自己实在太不小心了,以后还是自己指定下载位置吧,免得再出什么差错了。
about the picture link problem
最近几天发现我的github博客上的图片都加载不出来了,我一开始以为是新浪图床挂了,但是我将图片链接单独在浏览器中显示,发现图片仍然可以正常显示,直到今天看到一篇博客,作者说是最近新浪开始禁用外链引用的形式使用新浪图床了,解决方法就是在/themes/next/layout/_layout.swig的head标签中加入如下代码:
1 | <meta name="referrer" content="no-referrer" /> |
这样就可以绕过检测,图片又可以正常加载了。但是不知道什么时候又会有别的问题,所以还是尽量使用latex公式替换掉一些图片,尽量控制图片数量,然后考虑用github自带的服务器放图片吧。