整体介绍
DSDL简介
数据集描述语言DSDL(Data Set Description Language)旨在提供AI数据集统一规范,使用户可以高效便捷地使用多领域人工智能数据。
-
为了方便用户快捷获取数据,我们搭建了AI数据集平台【OpenDataLab】,平台具有以下特点:
- 提供数据集LICENSE声明,保证数据集使用合规性;
- 汇聚丰富的公开AI数据集资源,涵盖各行业、各研究领域的高质量数据集;
- 提供多维数据检索能力及数据集高速下载支持。
-
为了方便用户高效使用数据,我们定义了AI数据集描述语言【DSDL】:
- 用户可以读取AI媒体数据及对应标注,无需进行繁琐的格式转换操作;
- 用户可以用统一接口操作各种任务及模态数据,便捷灵活地组合使用多任务,多模态数据。
DSDL目标用户
DSDL核心目标是统一AI数据集标注规范,打通不同任务及模态间数据关联,其目标用户包含:
-
AI初学者
:对于开始接触AI研究的新用户,无需花费大量时间对数据集格式、内容进行分析。我们提前对AI各个领域的主流数据集进行DSDL标准化操作(DSDL标准化数据列表),DSDL可以清晰简洁地提供数据元信息、标注信息,用户一目了然,并且可直接使用统一接口进行训练推理操作。 -
特定领域研究/开发
:我们对大部分主流数据集进行DSDL标准化,同时提供统一的Dataset函数接口,用户使用各种数据更加便捷。 -
大模型研究/开发
:大模型研究通常需要大量的数据获取,预处理操作。OpenDataLab可以快速获取各类数据,DSDL使得不同任务和模态数据以统一规范描述。用户可灵活高效组合使用所需数据。
DSDL学习使用
对于初次使用DSDL的用户,请先安装部署DSDL-SDK,我们为用户提供了下述学习资源:
快速开始:帮助用户快速了解DSDL数据集下载、使用方法。
用户教程:提供数据集下载、预处理、数据分析、模型训练、模型推理系统性教程。
DSDL任务模板:帮助用户快速了解相关任务DSDL模板定义,高效完成数据集转换工作。
DSDL语言教程:用户了解并系统性学习DSDL语言。
高阶教程:介绍DSDL任务拓展、数据集转换、及DSDL Dataset开发流程。
如对DSDL有任何疑问,欢迎在GitHub页面提issue进行咨询。