Skip to content

快速入门

本教程将使用 PASCAL VOC 2007检测数据集为例,演示数据处理及模型训练全流程。

1. 数据集下载

odl get VOC07-det

出现如下日志,说明数据集已经下载完成。

saving to {your home path}/datasets/VOC07-det
preparing...
start download...
Download |██████████████████████████████████████████████████| 100.0%, Eta 0 seconds
Download Complete
register local dataset...

下载完成后需要进行解压(解压步骤可以参考教程数据集准备),解压完成后,原始数据集目录结构如下:

voc数据集原始目录结构
original/                     # 原始数据集文件夹
├── Annotations/              # 里面存放的是每张图片打完标签所对应的XML文件
│  ├── 000001.xml             # 某张图片的标注信息
│  └── ...
├── ImageSets/                # 图片划分的txt存放位置
│  ├── Layout                 # 包含Layout标注信息的图像文件名列表
│  │  ├── test.txt 
│  │  ├── train.txt 
│  │  ├── trainval.txt 
│  │  └── val.txt 
│  ├── Main                   # 包含所有文件的列表和划分
│  │  ├── aeroplane_test.txt  # 按每个类别的训练集、测试集等划分
│  │  ├── aeroplane_train.txt 
│  │  ├── ...
│  │  ├── test.txt            # 全数据集的test划分
│  │  ├── train.txt           # 全数据集的train划分
│  │  ├── trainval.txt 
│  │  └── val.txt 
│  ├── Segmentation           # 包含语义分割信息图像文件的列表和划分
│  │  ├── test.txt 
│  │  ├── train.txt 
│  │  ├── trainval.txt 
│  │  └── val.txt 
├── JPEGImages/               # 存放的是训练与测试的所有图片
│  ├── 000001.jpg             # 图片(序号作为图片名) 
│  └── ...
├── SegmentationClass/        # 语义分割标注
│  ├── 000032.png             # 某张图片的媒体文件 
│  └── ...
└── SegmentationObject/       # 实例分割标注
   ├── 000032.png             # 某张图片的媒体文件 
   └── ...

对应的DSDL标准化文件的目录结构如下:

dsdl-voc目录结构
dsdl/
├── defs/  
│  ├── object-detection-def.yaml              # 任务类型的定义
│  └── class-dom.yaml                         # 数据集的类别域
├── set-train/                                # 训练集
│  ├── train.yaml                             # 训练的yaml文件
│  └── train_samples.json                     # 训练集sample的json文件
├── set-val/                                  # 验证集
│  ├── val.yaml
│  └── val_samples.json  
├── set-test/                                 # 测试集
│  ├── test.yaml
│  └── test_samples.json  
├── config.py                                 # 数据集读取路径等config文件
└── README.md                                 # 数据集简介

注: DSDL文件目录下各个文件的具体内容和解释可参考高阶教程

2. 数据集配置

dsdl采用了【媒体数据】和【标注文件】分离这一设计理念,若用户之前已经下载过相关数据集媒体文件,只需下载dsdl标注文件即可使用该数据集。为了使用下载好的数据集,我们需要修改配置文件config.py(位于VOC07-det/dsdl/config.py)来进行对媒体数据的定位。举例来说,假如下载的VOC07-det数据集位于~/datasets路径下,则只需要将~/datasets/VOC07-det/dsdl/config.py中的配置按照如下内容进行修改即可:

local = dict(
    type="LocalFileReader",
    working_dir="~/datasets/VOC07-det/original",
)

实际上,dsdl也支持从阿里云读取媒体数据,同样也只需要修改config.py文件即可,详细内容可以参考数据集配置教程

3. 数据集简单使用

3.1. 数据集初始化

dsdl将dsdl数据集的使用接口封装进DSDLDataset类,初始化一个DSDLDataset类需要yaml文件和location config,这里仍然假设上面VOC数据集的存放路径为~/datasets/VOC07-det,则初始化代码如下:

from dsdl.dataset import DSDLDataset

# 1. 指定要加载数据的dsdl文件
train_yaml = "~/datasets/VOC07-det/dsdl/set-train/train.yaml"
val_yaml = "~/datasets/VOC07-det/dsdl/set-val/val.yaml"

# 2. 配置数据集路径(支持本地、阿里云oss等主流存储)
loc_config = dict(
    type="LocalFileReader",
    working_dir="~/datasets/VOC07-det/original"
)
ds_train = DSDLDataset(dsdl_yaml=train_yaml, location_config=loc_config)
ds_val = DSDLDataset(dsdl_yaml=val_yaml, location_config=loc_config)

3.2. 获取类别名称

获取数据集的类别名称列表,代码如下(这里只展示了VOC数据集的前10个标签):

print(ds_val.class_names[0:10])
输出如下所示:

['aeroplane',
 'bicycle',
 'bird',
 'boat',
 'bottle',
 'bus',
 'car',
 'cat',
 'chair',
 'cow']

3.3. 获取样本信息

DSDLDataset使用索引的方式获取样本,如下展示了VOC数据集索引为0的样本的信息:

print(ds_val[0])
输出的内容如下所示:

{'Image': [path:JPEGImages/000005.jpg],
 'Label': [chair, chair, chair, chair, chair],
 'Bbox': [[263.0, 211.0, 324.0, 339.0],
  [165.0, 264.0, 253.0, 372.0],
  [5.0, 244.0, 67.0, 374.0],
  [241.0, 194.0, 295.0, 299.0],
  [277.0, 186.0, 312.0, 220.0]]}

在此基础上,也可以获取样本的不同字段,比如要获取图片字段,可以采用如下命令:

print(ds_val[0].Image)
得到输出如下:

[path:JPEGImages/000005.jpg]

类似的,要获取所有标注框的类别属性和第一个标注框位置属性,则可以采用下面的语句:

print(ds_val[0].Label)
print(ds_val[0].Bbox[0])
得到输出分别如下:

[chair, chair, chair, chair, chair]

[263.0, 211.0, 324.0, 339.0]