0%

ImageNet-1k 下载与组织

ImageNet-1k 一般指 ILSVRC2012 的数据,1k 表示类别有 1000 个。

主页为:ILSVRC2012

可以看看到分为 3 个任务:

  • Task 1: Classification
  • Task 2: Classification with localization,这应该就是 Obeject detection 了
  • Task 3: Fine-grained classification,细粒度分类

下载页面为:ILSVRC2012

训练图像数据 Task 1&2 和 Task 3 是分开的,只下载用于 Task 1& 2 的。

下载的三个文件分别为:

1
2
3
ILSVRC2012_img_train.tar
ILSVRC2012_img_val.tar
ILSVRC2012_img_test_v10102019.tar

ILSVRC2012_img_train.tar 里解压之后有 1000 个 .tar 文件,每个 .tar 文件里是一个类别的图片,每个类别大约有 1200-1300 张图片,ImageNet-1k 训练集的图片数量为 ~128m。用如下语句进行训练集的拆包和归类:

1
2
3
4
mkdir train && mv ILSVRC2012_img_train.tar train/ && cd train
tar -xvf ILSVRC2012_img_train.tar && rm -f ILSVRC2012_img_train.tar
find . -name "*.tar" | while read NAME ; do mkdir -p "${NAME%.tar}"; tar -xvf "${NAME}" -C "${NAME%.tar}"; rm -f "${NAME}"; done
cd ..

验证集有 50000 张图片,每个类别 50 张,但是都放在一起,需要将其按类别放到对应的文件夹中,这个类别在其 devkit 中有记录,但也可以使用别人提供的脚本:

1
2
mkdir val && mv ILSVRC2012_img_val.tar val/ && cd val && tar -xvf ILSVRC2012_img_val.tar
wget -qO- https://raw.githubusercontent.com/soumith/imagenetloader.torch/master/valprep.sh | bash

1. 参考链接:

  1. XUNGE’s Blog
  2. PyTorch examples