跳转至

目标跟踪任务

我们通过对目标跟踪任务进行调研,并总结数据集描述中的字段信息,从而制定出目标跟踪任务DSDL模板,供大家参考使用。

1. 任务调研

1.1 任务定义

目标跟踪任务是指在图像中检测出物体的位置,并识别出具体的实例,通过一个特殊识别ID对其进行跟踪。分为单目标跟踪和多目标跟踪,有的数据集还会对每个实例的类别进行标注。其示意图如下所示:

gif gif
图1 GOT10k 单目标跟踪 图2 MOT17 多目标跟踪

1.2 评价指标

最常用的就是两个:精确度和成功率(比如TrackingNet、UAV123、Nfs、OTB2015、LaSOT、TLP)。

  • 成功率(Success Rate/IOU Rate/AOS)

成功值 (success)计算是计算预测框与标注框的区域内像素的交并比。成功率 (Success Rate)即在success一定阈值之下,成功个数的比例。在不同的阈值下,成功率也会相应变化,以阈值为x,成功率为y,可作出成功率曲线 (Success rate plot)AUC(Area under curve)分数即为成功率曲线下的面积。有的论文也会直接指定阈值,由于中值定理,最常用的阈值是0.5。

  • 精确度Precision)

精确度是追踪成功的个数比例。为了计算追踪成功的个数,需要计算预测框中心点与标注框的中心点的之间欧氏距离,通常阈值为20像素,即它们的欧氏距离在20像素之内就视为追踪成功。

  • 归一化精确度(Normalized Precision)

考虑到标注框的尺度大小将影响对精确度的判断(比如,对于较小的标注框,预测框和标注框的中心点相隔20像素,两者的交并比已经下降到一个非常低的值),因此,将精确度 (Precision)根据标注框大小进行了归一化,得到了归一化精确度 (Normalized Precision)。

1.3 主流数据集调研

我们对4个目标检测数据集进行调研,对相关数据集描述文件(主要是标注字段)进行分析汇总,相同含义的标注字段会以统一命名进行展示,汇总信息如下表所示:

目标跟踪数据集 共享字段 独立字段
instance_id bbox category media_path frame_ID width height frameRate seqLength absence Visibility/Cover/Occluded truncated/cut_by_image ignore_flag
TrackingNet Y Y Y
GOT10k Y Y Y Y Y Y Y Y Y Y
MOT17 Y Y Y Y Y Y Y Y Y Y Y
KITTI-tracking Y Y Y Y Y Y Y

对共享字段和独立字段进行汇总,得到下表:

字段类型 字段名称 含义
共享字段 instance_id 目标编号,同一目标在整个视频片段中具有唯一的编号,在多目标跟踪里为必需字段
bbox 定位单个目标的矩形框,比如用[xmin, ymin, xmax, ymax]表示
category 单个目标所属的类别
media_path 媒体文件路径
frame_ID 帧号,用于视频序列排序
独立字段 width 图片的宽
height 图片的高
frameRate 帧率,有的数据集也叫anno_fps
seqLength 视频帧序列长度/张数
absence 指示该帧是否存在该对象
Visibility/Cover/Occluded 遮挡度。在不同数据集有不同的表示方法,可以是Cover(遮挡度、级别范围为0~8),也可以是visibility(物体可见程度,取值在 0~1 之间),还可以是Occluded(当前标注是否有被遮挡。0 表示 "fully visiable";1 表示 "partly occluded";2 表示 "largely occluded";3 表示 "unknown")
truncated/cut_by_image 当前标注的对象是否正被图像边缘截断,1表示被截断
ignore_flag 当前标注在评估中是否被考虑,若 flag = 1,则考虑当前标注,若 flag = 0,则忽略

可以看到,如果要描述一个检测数据集的样本,instance_id、bbox、media_path和frame_id是最基础的字段,此外还包含了各种描述边界框信息的特殊字段。

2. 模板展示

目标跟踪任务是目标检测任务的拓展,也包含嵌套结构体(其详细定义可以参考DSDL入门文档-语言定义-嵌套结构体)和类别域(class domain,或者cdom,具体可以参考DSDL入门文档-语言定义-类别域),但与之不同的是:根据上述的调研结果,我们知道对于目标跟踪任务重要的属性包括frame_id、media_path、instance_id、bbox和category,而这些属性分别属于 三个层级的结构体 ,第一层是视频,第二层是视频帧(即图片),第三层是标注。因此我们需要定义三层的嵌套结构体,用来详细描述每个样本的信息。

基于上述考虑,我们制定了目标跟踪任务的模板,如下所示:

object-tracking.yaml

$dsdl-version: "0.5.0"

LocalObjectEntry:  
    $def: struct   
    $params: ["cdom"]
    $fields: 
        instance_id: InstanceID
        bbox: BBox
        category: Label[dom=$cdom]

FrameSample:
    $def: struct
    $params: ["cdom"]
    $fields:
        frame_id: UniqueID
        media_path: Image
        objects: List[etype=LocalObjectEntry[cdom=$cdom]]

VideoFrame:
    $def: struct
    $params: ["cdom"]
    $fields:
        video_name: Str
        videoframes: List[etype=FrameSample[cdom=$cdom]]

在目标跟踪模板中的一些字段含义如下(详细学习请参考 DSDL语言教程

  • $dsdl-version: 描述了该文件对应的dsdl版本
  • LocalObjectEntry: 定义了标注框的描述方式的嵌套结构体,包含四个字段:
    • $def: struct, 表示这是一个结构体类型
    • $params: 定义了形参,在这里即class domain
    • $fields: 结构体类所包含的属性,具体包括:
      • instance_id:物体编号,同一物体在整个视频片段中具有唯一的编号
      • bbox:标注框信息,转化为bbox标准,即[x,y,w,h]
      • category:标注框类别,与ClassDom对应
  • FrameSample: 定义了视频帧sample的结构体,包含四个字段:
    • $def: struct, 表示这是一个结构体类型
    • $params: 定义了形参,在这里即class domain
    • $fields: 结构体类所包含的属性,具体包括:
      • frame_id:视频帧序号,类型为UniqueID,如有多个层级包含UniqueID,可指定参数id_type,比如UniqueID[id_type='frame']
      • media_path:视频帧的路径
      • objects:标注信息,为前面的标注框结构体构成的一个列表
  • VideoFrame:定义了一个视频sample的结构体,包含四个字段
    • $def: struct, 表示这是一个结构体类型
    • $params: 定义了形参,在这里即class domain
    • $fields: 结构体类所包含的属性,具体包括:
      • video_name:视频的名称(一般是文件夹名字)
      • videoframes:为前面的视频帧sample构成的一个列表

除了这些必需字段以外,用户还可以参考“主流数据集调研”中的特殊字段和其他字段,新增对结构体的属性定义。

3. 完整示例

我们以TrackingNet数据集(单目标跟踪)为例,展示目标跟踪数据集DSDL描述文件具体内容。

object-tracking.yaml

$dsdl-version: "0.5.3"

LocalObjectEntry:  
    $def: struct   
    $params: ["cdom"]
    $fields: 
        instance_id: InstanceID
        bbox: BBox
        category: Label[dom=$cdom]

FrameSample:
    $def: struct
    $params: ["cdom"]
    $fields:
        frame_id: UniqueID
        media_path: Image
        _image_shape: ImageShape
        objects: List[etype=LocalObjectEntry[cdom=$cdom]]

VideoFrame:
    $def: struct
    $params: ["cdom"]
    $fields:
        video_name: Str
        _folder: Str
        videoframes: List[etype=FrameSample[cdom=$cdom]]

字段含义解释及对应关系:

(以下划线开头的字段是目标跟踪任务模板中没有包含的字段)

  • 在LocalObjectEntry中:
    • bbox:对应原数据集txt标注文件中的标注框坐标,即[x,y,w,h]
  • 在ObjectTrackingSample中:
    • frame_id:视频帧序号,类型为UniqueID,这里对应的是原数据集的视频帧文件名,比如“0.jpg"对应的frame_id为“0”。
    • media_path:该字段是我们自适应的字段,用于储存图像的相对路径,主要从原始数据集的filename字段转化而来
    • _image_shape:图片的宽高信息,格式为[height, width],TrackingNet中并没有直接提供图片宽高属性,但是为了方便odl工具的筛选等操作,建议添加该字段
    • objects:该字段对应原始数据集的object字段,以List的形式存储具体bounding box的标注信息
  • 在VideoFrame中:
    • video_name:视频的名称(对应frames下的子目录文件名)
    • _folder: 主要是标识视频来自于哪个文件夹,因为训练集一共分了12个文件夹,模板中没有该字段,为新增字段
    • videoframes:以列表的形式存储了视频的每一帧的信息

值得注意的是,由于该数据集没有类别信息,因此其实可以不需要category字段和类别域文件,另外,因为是单目标跟踪,instance_id字段也可以省略。但为了保证示例的完整性,在此皆保留,供用户参考。

类别域的文件示例如下所示,由于TrackingNet没有类别标注,在这里用默认类别"object"作为单一类别信息。

class-dom.yaml

$dsdl-version: 0.5.3
TrackingNetClassDom:
  $def: class_domain
  classes:
      - object

train.yaml

在该示例中将展示的方式是从外部json读取样本具体标注信息。

$dsdl-version: "0.5.3"

$import:
    - ../defs/object-tracking
    - ../defs/class-dom

meta:
  dataset_name: "TrackingNet"
  creator: "King Abdullah University of Science and Technology"
  home-page: "https://tracking-net.org/"  
  opendatalab-page: "https://opendatalab.com/TrackingNet"
  sub_dataset_name: "train"
  task_name: "single-object tracking" 

data:
    sample-type: VideoFrame[cdom=TrackingNetClassDom]
    sample-path: train_samples.json

上面的描述文件中,首先定义了dsdl的版本信息,然后import了之前定义的数据集模板文件,包括任务模板和类别域模板。接着用meta和data字段来描述自己的数据集,具体的字段说明如下所示:

  • $dsdl-version: dsdl版本信息
  • $import: 模板导入信息,这里导入检测任务模板和TrackingNet的class domain
  • meta: 主要展示数据集的一些元信息,比如数据集名称,创建者等等,用户可以自己添加想要备注的其它信息
  • data: 其内容就是按照前面定义好的结构所保存的样本信息,具体如下:
    • sample-type: 数据的类型定义,在这里用的是从目标跟踪任务模板中导入的VideoFrame类,同时指定了采用的cdom为TrackingNetClassDom
    • sample-path: samples的存放路径,这里给了实际的json文件路径,因此samples的内容将从该文件读取

train_samples.json

train_samples.json需要我们写脚本从原始数据集转换来,转换脚本模板可以参考数据集转换页面注意,里面的字段需要和之前定义的struct对应,最终样式如下:

{"samples": [
    {
        "video_name": "0-6LB4FqxoE_0",
        "_folder": "TRAIN_0",
        "videoframes": [
            {
                "frame_id": “0”,
                "media_path": "TRAIN_0/frames/0-6LB4FqxoE_0/0.jpg",
                "_image_shape": [360, 480],
                "objects": [
                    {
                        "instance_id": 000000000001,
                        "bbox": [120.24, 0.32, 359.76, 596.04], 
                        "category": 1  
                    }, 
                    ...
                 ]
            },
            ...
        ]
     },
     ...  
]}