发布方:MIT CSAIL Computer Vision Group 发布时间:2016 背景:视觉场景的语义理解是计算机视觉的关键问题。尽管社区在数据收集方面做出了努力,但仍然很少有图像数据集涵盖广泛的场景和对象类别,而且缺乏具有用于场景理解的逐像素注释。 简介:ADE20K涵盖了场景、对象、对象部分的各种注释,在某些情况下甚至是部分的部分。有25k张复杂日常场景的图像,其中包含自然空间环境中的各种对象。每个图像平均有19.5个实例和10.5个对象类。 1. 标注数据量 ● 训练集:20210张图像 ● 验证集:2000张图像 ● 测试集:3000张图像 2. 标注类别 数据集的标注包含三种视觉概念: ● 离散对象(discrete object),它是具有明确定义的形状的事物,例如汽车、人; ● 包含无定形背景区域的东西(stuff),例如草、天空; ● 对象部分(object part),它是某些具有功能意义的现有对象实例的组件,例如头部或腿部。 三种视觉概念共标注类别3169类,其中离散对象和无定形背景区域的东西有2693类。对象部分有476类。 3. 可视化 ![]() 图1:第一行显示样本图像,第二行显示对象的标注,第三行显示对象部分的标注。颜色方案同时编码对象类别和对象实例,即不同的对象类别具有较大的色差,而来自同一对象类别的不同实例具有较小的色差(例如,第一张图像中的不同人实例具有略微不同的颜色)。 1. 场景解析场景解析是将整个图像密集地分割成语义类,其中每个像素都被分配一个类标签,例如树的区域和建筑物的区域。 ● 基准 作者选择 ADE20K 数据集中按其总像素比排名的前150个类别,并构建 ADE20K 的场景解析基准,称为 SceneParse150。 在150个类别中,有35个东西类(即墙壁、天空、道路)和115个离散对象类(即汽车、人、桌子)。150个类的标注像素占数据集所有像素的92.75%,其中无定形背景区域的东西类占60.92%,离散对象类占31.83%。 结果以通常用于语义分割的四个指标报告: - Pixel accuracy(像素精度):表示正确分类的像素的比例; - Mean accuracy(平均准确度):表示在所有类别中平均正确分类的像素的比例; - Mean IoU(平均 IoU):表示预测像素和真实像素之间的交并比,在所有类上平均; - Weighted IoU(加权IoU):表示按每个类的总像素比加权的 IoU。 2. 实例分割实例分割是检测图像中的对象实例,并进一步生成对象的精确分割掩码。它与场景解析任务的不同之处在于,场景解析中没有分割区域的实例概念,而在实例分割中,如果场景中有三个人,则需要网络对每个人区域进行分割。 ● 基准 为了对实例分割的性能进行基准测试,作者从完整数据集中选择了100个前景对象类别,将其称为 InstSeg100。InstSeg100 中对象实例总数为 218K,平均每个对象类别有2.2K个实例,每个图像有10个实例;除船舶外的所有对象都有超过100个实例。 结果以如下指标报告: 一个总体度量平均精度 mAP,以及不同对象尺度上的度量,用mAP_S(小于32×32像素的对象)、mAP_M(在32×32和96×96像素之间)和 mAP_L(大于96×96像素)。 目录结构:(语言:Python) ADE20K_2021_17_01/ <filename>.json文件格式:
图2: index_ade20k.pkl 文件用Python打开后的格式 index_ade20k.pkl 里各个字段含义: 'folder':包含图像文件夹名称的长度为 N 的数组。 'objectIsPart':是对象部分的对象类别. 大小为 [C, N] 的数组,计算一个对象在每个图像中成为一部分的次数。objectIsPart[c,i]=m 如果在图像 i 中对象类 c 是另一个对象的一部分 m 次。 'objectPresence':大小为 [C, N] 的数组,每个图像的对象计数。objectPresence(c,i)=n 如果在图像 i 中有 n 个对象类 c 的实例。 'objectcounts':长度为 C 的数组,每个对象类的实例数。 'objectnames':带有对象类名的长度为 C 的数组。 'proportionClassIsPart':长度为 C 的数组,其中 c 类作为一部分的次数比例。如果 ratioClassIsPart[c]=0 则意味着这是一个主要对象(例如,汽车、椅子……)。 'scene':长度为 N 的数组,为每个图像提供场景名称(与 Places 数据库相同的类) 'wordnet_found':长度为 C 的数组。它表示是否在 Wordnet 中找到了对象名。 'wordnet_level1':长度为C 的列表。WordNet 关联的列表。 'wordnet_synset':长度为 C 的列表。每个对象名称的 WordNet 同义词集。 'wordnet_hypernym':长度为 C 的列表。每个对象名称的 WordNet 上位词列表。 'wordnet_gloss':长度为 C 的列表。存的是WordNet同义词集合对应的定义。 'wordnet_frequency':长度为 C 的数组。每个WordNet同义词集合出现的次数。 'description':对index ade20k.pkl中每个字段的描述。 ADE20K 2021数据集 https:///120 参考资料: [1]官网:https://groups.csail./vision/datasets/ADE20K/ [2]论文:Semantic Understanding of Scenes through ADE20K Dataset. Bolei Zhou, Hang Zhao, Xavier Puig, Tete Xiao, Sanja Fidler, Adela Barriuso and Antonio Torralba. International Journal on Computer Vision (IJCV).[PDF] [3]Github:https://github.com/CSAILVision/ADE20K |
|
来自: mynotebook > 《待分类》