config for aria2

今天因为需要下载kaggle上的iwildcam比赛的数据集,折腾了一下aria2,下面记录一下过程备忘,and,之前的博客使用了大量的新浪图床的图片外链,最近发现新浪已经开始限制外链引用了,本文会给出解决方案,但是为了保险起见,近期最好将这些图片进行替换。

what is aria2

aria2 is a lightweight multi-protocol & multi-source command-line download utility. It supports HTTP/HTTPS, FTP, SFTP, BitTorrent and Metalink. aria2 can be manipulated via built-in JSON-RPC and XML-RPC interfaces.

我理解就是和wget、curl命令一样,属于命令行下载工具,但是aria2可以多线程下载,所以速度会快一点。之所以用aria2,主要是因为校园网只有教室的wifi是免费的,而wifi很不稳定,chrome下载的话是不支持断点重传的,如果失败了就重新下了,而我试了kaggle的api,但是完全不work(应该是网络比较差),然后还尝试了wget指令,但是只有10kb/s级别的下载速度,所以考虑了aria2。

how to config it

这里我走了不少弯路,首先是使用了uget。网上说这个是Linux环境下的迅雷,但是我将uget+aria2+chrome都配置了,但是不但效果不好,而且uget运行起来系统非常卡顿,而直接使用aria2的命令行也没用,速度很慢。

然后我在网上看到了这篇博客,这让我想起来了之前使用aria2下载百度云资源时候好像也是这样配置的,下面给出配置过程:

install aria2

1
$ sudo apt-get install aria2

config aria2

1
2
3
4
mkdir config_aria2 # config_aria2存放配置文件,这个可以随意,但是要和配置文件对应
touch config_aria2/aria2.session # 这个文件会之前保留下载信息,比如下载网址什么的,aria2运行开始阶段会加载这个文件
chmod 777 config_aria2/aria2.session
gedit config_aria2/aria2.conf # 编辑配置文件

aria2.conf文件配置可以参考这篇文章,下面我给出我的配置,注意要修改文件名对应前面的文件:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
## '#'开头为注释内容, 选项都有相应的注释说明, 根据需要修改 ##
## 被注释的选项填写的是默认值, 建议在需要修改时再取消注释 ##

## 文件保存相关 ##

# 文件的保存路径(可使用绝对路径或相对路径), 默认: 当前启动位置
dir=/media/hehe/4B12CC4721F0E7F0
# 启用磁盘缓存, 0为禁用缓存, 需1.16以上版本, 默认:16M
#disk-cache=32M
# 文件预分配方式, 能有效降低磁盘碎片, 默认:prealloc
# 预分配所需时间: none < falloc ? trunc < prealloc
# falloc和trunc则需要文件系统和内核支持
# NTFS建议使用falloc, EXT3/4建议trunc, MAC 下需要注释此项
#file-allocation=none
# 断点续传
continue=true

## 下载连接相关 ##

# 最大同时下载任务数, 运行时可修改, 默认:5
#max-concurrent-downloads=20
# 同一服务器连接数, 添加时可指定, 默认:1
max-connection-per-server=10
# 最小文件分片大小, 添加时可指定, 取值范围1M -1024M, 默认:20M
# 假定size=10M, 文件为20MiB 则使用两个来源下载; 文件为15MiB 则使用一个来源下载
min-split-size=10M
# 单个任务最大线程数, 添加时可指定, 默认:5
#split=20
# 整体下载速度限制, 运行时可修改, 默认:0
#max-overall-download-limit=0
# 单个任务下载速度限制, 默认:0
#max-download-limit=0
# 整体上传速度限制, 运行时可修改, 默认:0
#max-overall-upload-limit=0
# 单个任务上传速度限制, 默认:0
#max-upload-limit=0
# 禁用IPv6, 默认:false
#disable-ipv6=true
# 连接超时时间, 默认:60
#timeout=60
# 最大重试次数, 设置为0表示不限制重试次数, 默认:5
#max-tries=5
# 设置重试等待的秒数, 默认:0
#retry-wait=0

## 进度保存相关 ##

# 从会话文件中读取下载任务
# pay attention!
input-file=config_aria2/aria2.session
# 在Aria2退出时保存`错误/未完成`的下载任务到会话文件
save-session=config_aria2/aria2.session
# 定时保存会话, 0为退出时才保存, 需1.16.1以上版本, 默认:0
#save-session-interval=60

## RPC相关设置 ##

# 启用RPC, 默认:false
enable-rpc=true
# 允许所有来源, 默认:false
rpc-allow-origin-all=true
# 允许非外部访问, 默认:false
rpc-listen-all=true
# 事件轮询方式, 取值:[epoll, kqueue, port, poll, select], 不同系统默认值不同
#event-poll=select
# RPC监听端口, 端口被占用时可以修改, 默认:6800
#rpc-listen-port=6800
# 设置的RPC授权令牌, v1.18.4新增功能, 取代 --rpc-user 和 --rpc-passwd 选项
#rpc-secret=<TOKEN>
# 设置的RPC访问用户名, 此选项新版已废弃, 建议改用 --rpc-secret 选项
#rpc-user=<USER>
# 设置的RPC访问密码, 此选项新版已废弃, 建议改用 --rpc-secret 选项
#rpc-passwd=<PASSWD>
# 是否启用 RPC 服务的 SSL/TLS 加密,
# 启用加密后 RPC 服务需要使用 https 或者 wss 协议连接
#rpc-secure=true
# 在 RPC 服务中启用 SSL/TLS 加密时的证书文件,
# 使用 PEM 格式时,您必须通过 --rpc-private-key 指定私钥
#rpc-certificate=/path/to/certificate.pem
# 在 RPC 服务中启用 SSL/TLS 加密时的私钥文件
#rpc-private-key=/path/to/certificate.key

## BT/PT下载相关 ##

# 当下载的是一个种子(以.torrent结尾)时, 自动开始BT任务, 默认:true
#follow-torrent=true
# BT监听端口, 当端口被屏蔽时使用, 默认:6881-6999
listen-port=51413
# 单个种子最大连接数, 默认:55
#bt-max-peers=55
# 打开DHT功能, PT需要禁用, 默认:true
enable-dht=false
# 打开IPv6 DHT功能, PT需要禁用
#enable-dht6=false
# DHT网络监听端口, 默认:6881-6999
#dht-listen-port=6881-6999
# 本地节点查找, PT需要禁用, 默认:false
#bt-enable-lpd=false
# 种子交换, PT需要禁用, 默认:true
enable-peer-exchange=false
# 每个种子限速, 对少种的PT很有用, 默认:50K
#bt-request-peer-speed-limit=50K
# 客户端伪装, PT需要
peer-id-prefix=-TR2770-
user-agent=Transmission/2.77
# 当种子的分享率达到这个数时, 自动停止做种, 0为一直做种, 默认:1.0
seed-ratio=0
# 强制保存会话, 即使任务已经完成, 默认:false
# 较新的版本开启后会在任务完成后依然保留.aria2文件
#force-save=false
# BT校验相关, 默认:true
#bt-hash-check-seed=true
# 继续之前的BT任务时, 无需再次校验, 默认:false
bt-seed-unverified=true
# 保存磁力链接元数据为种子文件(.torrent文件), 默认:false
bt-save-metadata=true

注意要保证下面的语句和前面的文件对应:

1
2
3
input-file=config_aria2/aria2.session
# 在Aria2退出时保存`错误/未完成`的下载任务到会话文件
save-session=config_aria2/aria2.session

如果使用了相对路径,那么要注意aria2c的运行路径。

然后需要在chrome上下载插件:添加到aria2
,并配置插件,配置方式很简单,如果没有修改aria2的配置文件的话,就可以直接使用插件的默认配置就行了。配置结束了点击插件图标将它打开就行了。

it seems that sth. is wrong

配置结束之后,我点击了kaggle上的Download All图标之后,显示aria2接收到了任务,命令行里程序也开始下载了,但是速度却非常慢,我修改了线程数什么的效果也不见好转。。。然后我就接着折腾了一下午,发现没什么用。

所以配置失败了吗?说实话我也不知道,但是将近下午5点的时候我发现,下载速度突然提高到了2Mb/s,比chrome下载速度提高了不少。这里还要说一下的就是,在windows上使用迅雷插件将任务导出到迅雷下载,以及ubuntu上将任务导出到aria2上下载,chrome的下载任务都会不可逆地降速到0,然后任务就会失败。反正又能用了,毕竟使用这个下载可以断点续传,也只能这样了。

这里再记录一个非常stupid的问题,今天我在aria2上下载数据集的时候,突然系统报错,说我的/目录磁盘空间不够了,我赶紧一看发现占用100%,然后一查是/media目录,也就是我挂载磁盘的位置挂了。我想不应该啊,这个位置不是应该挂载在我的windows的E盘上吗,怎么会让根目录爆了?百度了一下也没弄出什么名堂,折腾了快一个小时才发现/media目录下居然有两个文件夹!结果可想而知,我把aria2的下载目录搞成了没有挂载磁盘的那一个,所以一下载就提示根目录无空间。但是为什么呢?一想就明白了,是晚上开机的时候没有挂载磁盘就直接用aria2下载了,结果就直接在/media文件夹下新建和原来的磁盘挂载目录同名的目录,结果aria2报错之后我来挂载磁盘,磁盘就变成别的名字了,唉,自己实在太不小心了,以后还是自己指定下载位置吧,免得再出什么差错了。

最近几天发现我的github博客上的图片都加载不出来了,我一开始以为是新浪图床挂了,但是我将图片链接单独在浏览器中显示,发现图片仍然可以正常显示,直到今天看到一篇博客,作者说是最近新浪开始禁用外链引用的形式使用新浪图床了,解决方法就是在/themes/next/layout/_layout.swig的head标签中加入如下代码:

1
<meta name="referrer" content="no-referrer" />

这样就可以绕过检测,图片又可以正常加载了。但是不知道什么时候又会有别的问题,所以还是尽量使用latex公式替换掉一些图片,尽量控制图片数量,然后考虑用github自带的服务器放图片吧。