跳转至

整体介绍

DSDL简介

数据集描述语言DSDL(Data Set Description Language)旨在提供AI数据集统一规范,使用户可以高效便捷地使用多领域人工智能数据。

  1. 为了方便用户快捷获取数据,我们搭建了AI数据集平台【OpenDataLab】,平台具有以下特点:

    • 提供数据集LICENSE声明,保证数据集使用合规性;
    • 汇聚丰富的公开AI数据集资源,涵盖各行业、各研究领域的高质量数据集;
    • 提供多维数据检索能力及数据集高速下载支持。
  2. 为了方便用户高效使用数据,我们定义了AI数据集描述语言【DSDL】

    • 用户可以读取AI媒体数据及对应标注,无需进行繁琐的格式转换操作;
    • 用户可以用统一接口操作各种任务及模态数据,便捷灵活地组合使用多任务,多模态数据。

DSDL目标用户

DSDL核心目标是统一AI数据集标注规范,打通不同任务及模态间数据关联,其目标用户包含:

  • AI初学者:对于开始接触AI研究的新用户,无需花费大量时间对数据集格式、内容进行分析。我们提前对AI各个领域的主流数据集进行DSDL标准化操作(DSDL标准化数据列表),DSDL可以清晰简洁地提供数据元信息、标注信息,用户一目了然,并且可直接使用统一接口进行训练推理操作。

  • 特定领域研究/开发:我们对大部分主流数据集进行DSDL标准化,同时提供统一的Dataset函数接口,用户使用各种数据更加便捷。

  • 大模型研究/开发:大模型研究通常需要大量的数据获取,预处理操作。OpenDataLab可以快速获取各类数据,DSDL使得不同任务和模态数据以统一规范描述。用户可灵活高效组合使用所需数据。

DSDL学习使用

对于初次使用DSDL的用户,请先安装部署DSDL-SDK,我们为用户提供了下述学习资源:

快速开始:帮助用户快速了解DSDL数据集下载、使用方法。

用户教程:提供数据集下载预处理数据分析模型训练模型推理系统性教程。

DSDL任务模板:帮助用户快速了解相关任务DSDL模板定义,高效完成数据集转换工作。

DSDL语言教程:用户了解并系统性学习DSDL语言。

高阶教程:介绍DSDL任务拓展数据集转换、及DSDL Dataset开发流程。

如对DSDL有任何疑问,欢迎在GitHub页面提issue进行咨询。