分享

论文推荐 | 耿艳磊:高分辨率遥感影像语义分割的半监督全卷积网络法 ​

 沐沐阅览室 2020-05-17

《测绘学报》

构建与学术的桥梁        拉近与权威的距离

《测绘学报》抖音自开通以来,聚焦于测绘地理信息学术前沿进展,受到了广大专家学者的大力支持,播放量数万,粉丝1.7万。

高分辨率遥感影像语义分割的半监督全卷积网络法

耿艳磊1,2, 陶超1,2, 沈靖1,2, 邹峥嵘1,2     

1. 中南大学地球科学与信息物理学院, 湖南 长沙 410083;
2. 中南大学有色金属成矿预测与地质环境监测教育部重点实验室, 湖南 长沙 410083

收稿日期:2019-01-24;修回日期:2019-07-11

基金项目:国家自然科学基金(41771458);国家重点研发项目(2018YFB0504501);湖湘青年英才计划(2018RS3012);湖南省国土厅国土资源科研项目(2017-13);湖南省教育厅创新平台开放基金项目(18K005)

第一作者简介:耿艳磊(1993-), 男, 硕士, 研究方向为高分辨率遥感影像智能解译。E-mail:gengyanlei@csu.edu.cn

通信作者:陶超, E-mail: kingtaochao@126.com

摘要:在遥感领域,利用大量的标签影像数据来监督训练全卷积网络,实现影像语义分割的方法会导致标签绘制成本昂贵,而少量标签数据的使用会导致网络性能下降。针对这一问题,本文提出了一种基于半监督全卷积网络的高分辨率遥感影像语义分割方法。通过采用一种集成预测技术,同时优化有标签样本上的标准监督分类损失及无标签数据上的非监督一致性损失,来训练端到端的语义分割网络。为验证方法的有效性,分别使用ISPRS提供的德国Vaihingen地区无人机影像数据集及国产高分一号卫星影像数据进行试验。试验结果表明,与传统方法相比,无标签数据的引入可有效提升语义分割网络的分类精度并可有效降低有标签数据过少对网络学习性能的影响。

关键词:遥感影像    语义分割    半监督    全卷积网络    

High-resolution remote sensing image semantic segmentation based on semi-supervised full convolution network method

GENG Yanlei1,2, TAO Chao1,2, SHEN Jing1,2, ZOU Zhengrong1,2     

1. School of Geosciences and Info-Physics, Central South University, Changsha 410083, China;
2. Key Laboratory of Metallogenic Prediction of Nonferrous Metals and Geological Environment Monitoring(Central South University), Ministry of Education, Changsha 410083, China

Foundation support: The National Natural Science Foundation of China (No. 41771458); The National Key Research and Development Program (No. 2018YFB0504501); The Young Elite Scientists Sponsorship Program by Hunan province of China (No. 2018RS3012); Land and Resource Department Scientific Research Program of Hunan Province, China (No. 2017-13); Hunan Science and Technology Department Innovation Platform Open Fund Project (No. 18K005)

First author: GENG Yanlei(1993—), male, master, majors in semantic segmentation of high resolution remote sensing images based on deep learning.E-mail:gengyanlei@csu.edu.cn.

Corresponding author: TAO Chao, E-mail: kingtaochao@126.com.

Abstract: In the field of remote sensing, the method of realizing image semantic segmentation by using a large amount of label image data to supervise training full convolution network will result in expensive label drawing cost, while the use of a small amount of label data would lead to network performance degradation. To solve this problem, this paper proposes a semi-supervised full convolution network based semantic segmentation method for high resolution remote sensing images. Specifically, we explore an ensemble prediction technique to train the end-to-end semantic segmentation network by simultaneously optimizing a standard supervised classification loss on labeled samples along with an additional unsupervised consistence loss term imposed on labeled and unlabeled data. In the experiments, the image data set of Vaihingen in Germany provided by ISPRS and satellite GF-1 data were used, and the experimental results show that the proposed method can effectively improve the network performance degradation caused by using only a small amount of label data.

Key words: remote sensing image    semantic segmentation    semi-supervised    full convolution network    

随着遥感技术的发展,获取到的遥感影像分辨率不断提高,其包含的信息也更加丰富[1],为更好地服务人类提供了有利条件。影像地物提取可以应用到灾害评估、城市规划等众多方向[2],但人工目视解译方法成本昂贵,且更新效率低。如何有效地自动提取遥感影像上不同类别地物,是遥感应用智能化的研究方向,它可以加快推进数字中国、智慧城市建设进程。

为实现自动化遥感影像语义分割,在过去很长的时间内,许多研究工作都是根据人类对各种地物的理解认知,设定不同的特征参数,对影像地物进行提取。根据一种或者多种人为归纳的地物特征对影像地物识别,如采用角点特征、形状特征、颜色纹理梯度等单一特征或者组合特征对地物(建筑、植被、道路等)识别检测[3-8]。然而,影像地物的特征千变万化,即使为同一种地物,其特征也是差异明显。例如建筑物的颜色纹理差异,形状尺寸动态变化,以及成像的光照角度、分辨率不同,都给建筑物提取增加了难度。因此,基于人为设定特征针对多种影像地物的自动提取也更加困难。随着电脑(尤其是显卡)的计算能力提高,深度学习技术得以迅速发展,其中卷积神经网络[9-10](convolutional neural network,CNN)不断在自然图像分类领域创造新的记录。由于卷积神经网络自动学习训练数据特征,不再需要人工假定特征的特性,从而被一些研究者应用到遥感影像地物提取方向[11-14]。核心思路是以较小的影像块作为网络输入,学习影像块的特征,对影像块中心像素分类,进而实现整张影像像素点的分类,完成影像地物语义分割,但是这种方法存在检测成本昂贵(检测时间长,执行效率下降,占用机器大量内存)的弊端,不适用于大量影像的处理。直到全卷积网络[15](full convolution network,FCN)的提出,突破了CNN应用到语义分割领域的限制。但由于FCN仅在CNN基础上采用最后的巻积层特征进行上采样得到最后的分割图,导致分割效果模糊。因此一些研究者尝试将FCN改进应用到遥感影像地物检测,例如HF_FCN[2]是在FCN的基础上改进而来,减少了网络参数,提高了在复杂场景下的建筑物语义分割精度。

目前,主流的全卷积网络大都是基于FCN的思想和先进的CNN网络进行扩展,如HF_FCN是基于VGG16[11]扩展而来。无论CNN还是FCN都需要大量的训练数据,造成数据标签制作成本巨大,最重要的是语义分割任务需要像素级标签数据,以及考虑到遥感影像场景的复杂性,导致标签绘制成本更加昂贵。若是只采用少量标签数据训练网络,会导致网络性能骤降。而文献[16]提出一种简单有效的半监督训练CNN进行图像分类的方法,其在简单的小尺寸自然图像数据集cifar-10[17]上,通过使用少量标签数据和大量无标签数据联合训练CNN,有效地改进了少量标签数据训练CNN效果差的问题。受此启发,本文提出一种基于半监督全卷积网络的遥感影像地物语义分割方法,结合在少量医学图像上得到高精度分割效果、且性能先进的全卷积网络U_Net[18],应用到场景复杂的高分辨率遥感影像上进行地物提取,同时也采用先进的全卷积网络HF_FCN, deeplab_v3+[19]网络用于验证。试验结果表明,本文方法有效地改善了在少量标签数据下训练全卷积网络效果差的问题以及间接地减少了标签绘制成本,并适用于复杂场景下的遥感影像地物识别。

1 原理与方法

在深度学习图像处理领域,语义分割是给每个像素点赋予其所属的对象类别标识(例如建筑、道路等),实现像素级分类。而将深度学习引入遥感领域,对影像地物自动提取是许多科研人员的一种应用尝试。在遥感地物语义分割方向,主流的方法都是采用大量包含标签图的影像数据监督训练FCN,鉴于影像场景的复杂性,致使标签图绘制成本更加昂贵,而直接减少影像标签数量也会出现网络性能下降的问题。如何有效提高在少量标签数据条件下网络的预测精度,将是本文的研究重点。本节将首先介绍全卷积网络,然后对本文提出的半监督全卷积网络的影像地物语义分割方法进行详细说明,最后阐述半监督语义分割模型的影像地物提取流程。

1.1 全卷积网络

FCN的首次提出实现了端到端的图像语义分割,但由于FCN采用了CNN结构,导致其特征尺度不断下降,直接采用深层高维抽象语义特征上采样实现输入输出尺寸的对等,导致预测结果丢失许多细节,为此,其尝试在原先基础上融合浅层特征以改善分割效果,并证明有效。CNN网络由浅层到深层,每层网络都自动学习输入数据的不同级别特征,其浅层学习的低维特征可以理解为输入图像的直观特征(如颜色、纹理、位置等特征),而网络深层学习的高维特征理解成抽象的语义特征[20]。U_Net则借鉴了FCN尝试融合浅层特征和深层特征以改善分割图效果的思想,继续发扬光大,并采纳了编码-解码的思路,形成一个对称的端对端输出原始图像尺寸预测图的网络结构,在数据较少的医学影像数据集上取得了很高的分割精度。图 1为U_Net网络结构示意图,带颜色矩形代表卷积层。图 1左侧部分(编码结构)为CNN基础结构,其中有4个降采样层,将编码结构分为5层,每层不同尺度;右侧部分(编码结构)逐尺度上采样,并将上采样结果降维与编码结构对应尺度的特征图通过concat操作融合在一起。这样高效的使用了CNN网络深层、浅层特征信息,使得分割定位精确。

图 1 U_Net网络结构Fig. 1 U_Net network structure diagram

图选项 


1.2 半监督全卷积网络的遥感影像地物语义分割方法

本文提出的半监督全卷积网络影像语义分割算法如下。

半监督全卷积网络语义分割算法

Xi:训练数据(有标签数据和无标签数据);

L:训练数据中标签数据索引集合;

yi:标签数据(iL);

w(t):无监督损失的权重;

net(x):全卷积网络;

g(x):高斯噪声函数;

mean(x):均值函数;

max_epochs:训练周期总数;

for t in [1, max_epochs] do:

  for every batch B do:

    oiB=net (xiB); //第1次输出结果

    =net (g(xiB)); //第2次输出结果

    Ls=-mean(∑i∈(BL)yilog(oi)); //监督损失

    Ld=mean(∑iB(oi-)2); //无监督损失

    Loss=Ls+w(t)Ld; //整体损失

    update(net); //通过优化器更新网络参数

  end for

end for

输出网络参数;

其中全卷积网络主要采用U_Net网络进行各种试验。文献[21]指出,采用在大规模图像分类数据集imagenet[22]上预训练的网络权重为网络参数初始化,可提高网络的性能以及加快网络收敛速度。因此,本文采用文献[21]提出的新型U_Net,其采用在imagenet上预训练模型vgg11[11]网络作为基础CNN网络结构搭建U_Net。遥感影像地物语义分割为多类别任务,而U_Net构建之初是用于二分类语义分割任务,因此需改变U_Net末层输出通道数量为地物类别数量,以及将其采用的二值化sigmoid激活函数修改成softmax函数,用来获取像素属于每种地物类别的概率,最终通过选择最大概率值对应的地物类别标号赋予对应像素

 (1)

式中,z为输入特征图,由输入影像经过全卷积网络得到;N为地物类别总数;Softmax视为指数归一化函数,将N维实数向量压缩成值域为[0, 1]的新N维向量。Softmax(z)表示输入影像中每个像素点属于每种地物类别的概率值,每个像素对应所有地物类别的概率和为1。

确定全卷积网络后,为便于说明本文提出的半监督全卷积网络的遥感影像地物语义分割方法,这里定义一些数学符号:xi为每批次输入网络的影像图集,其中包含无标签影像和有标签影像[xi];yixi中有标签影像[xi]对应的标签图;g(x)为高斯噪声增强函数,其作用是为训练数据xi添加高斯噪声;Ls为监督损失;net(x)为全卷积网络输出;Ld为无监督损失;mean(x)为对矩阵求均值函数;w(t)为无监督损失Ld的权重函数,其与训练周期t有关,随着训练周期t的变化,w(t)缓慢增长;Loss为总体损失。

训练过程中,首先对训练输入xi进行数据增强,然后经过全卷积网络评估2次,并在第2次输入网络时添加高斯噪声,使得2次预测结果oi具有差异

 (2)

 (3)

根据这种差异可以计算无监督损失,进行无监督训练以及添加高斯噪声可以让网络学习到更加稳健的数据特征,提高网络的稳健性。根据2次预测结果以及标签图yi,计算损失Loss。损失Loss涉及2部分:标准的交叉熵损失Ls(也是监督损失)和平方差损失Ld(无监督损失)。其中Ls仅由网络输入中带标签的数据[xi]和标签yi计算得到

 (4)

Ld则使用网络输入的全部数据xi

 (5)

重复输入网络2次得到2次预测结果,计算结果之间的差异,它的意义是最小化这种差异,提高网络的容错性。为了整合监督损失Ls和无监督损失Ld,这里没有采用直接相加的方法,而是采纳了文献[16]提出的时间权重函数w(t),对无监督损失进行尺度化,即在训练过程中,随着时间的变化,给予无监督损失变化的权重,再与监督损失相加,得到总损失Loss

 (6)

以上为本文方法训练流程,其核心思路是让网络先学习标签数据的特征,然后在漫长训练过程中逐渐学习无标签数据的特征,并慢慢加强对无标签数据的特征学习,使网络学习到的特征分布空间包含无标签数据分布,这样就在少量标签数据的条件下,增加了训练样本,使得网络学习到的特征空间更广阔,性能也就进一步提升;同时,多网络集成较集成中单个网络的预测结果更好,而重复输入训练数据,经过数据噪声增强后,得到的结果也是差异的,可以视为集成学习在单个网络中的实现。

值得注意的是,本文并未采用2次均为xi添加高斯噪声的操作,原因是2次均添加噪声,可能会导致原始数据的分布发生改变,使得网络不能很好地学习训练数据的特征。对于图像分类任务,添加较大的噪声对预测结果影响较小,即网络稳健性强,而语义分割任务中像素分类除了与自身特征还与像素周围像素的特征有较大关系,但远未到达整个图像的范围。因此,添加较大的噪声可能会对语义分割任务有严重的影响,所以,本文所使用的高斯噪声大小设定在较小的范围内(std=0.01)。此外,训练初始w(t)为0,这是由于在训练初期,网络的识别精度较低,导致2次预测结果之间的差异很大,采用较大权重会使网络不能很好的学习具有标签数据的特征,降低网络性能[16]

1.3 半监督语义分割模型的影像地物提取流程

半监督语义分割模型的影像地物提取流程分为2个步骤:

(1) 获取模型。首先,对标签数据(影像图和标签图)处理,采用一定大小的窗口同步滑动裁剪影像图和标签图;然后对无标签影像数据处理,采用同样大小的窗口滑动裁剪影像图;最终得到混合的训练数据集,批次输入全卷积网络训练更新网络参数,最终得到模型。

(2) 地物提取。在获取模型的基础上,为了提高模型预测效率,采用更大尺寸的窗口在测试影像上滑动,对窗口内影像进行地物提取,最终得到所有影像的地物语义分割结果,由此计算模型语义分割精度。

2 试验与结果分析2.1 数据集及其预处理

2.1.1 数据集简介

本文使用数据集包括2个:①ISPRS提供的德国Vaihingen地区航空影像;②中国湖南地区国产高分一号影像(为表述简洁,下面采用符号A命名该数据)。

(1) Vaihingen数据集包含16张具有人工标注地物类别标签图的影像以及17张没有标签的影像,该数据集影像均已经过校正等处理,为RGB三通道的正射影像,其分辨率为9 cm。如图 2所示,Vaihingen试验区域共有33张影像,其中测试区域为标号1、3的两张影像。图 3为Vaihingen部分测试影像及其标签展示图,其中共有5类地物。

图 2 Vaihingen数据集Fig. 2 Vaihingen dataset

图选项 

图 3 部分测试数据及其标签Fig. 3 Partial test data and labels

图选项 

(2) A地区影像数据详情:该数据集为RGB三通道影像,影像分辨率为2 m。图 4为A地区测试影像及其标签展示图,其中共有6类地物。

图 4 A地区测试数据及其标签Fig. 4 Test data and labels in area A

图选项 

2.1.2 数据预处理

数据预处理包含3个步骤:①影像裁剪;②数据增强;③数据归一化。其中,影像裁剪在训练前进行,而数据增强和归一化在训练过程中执行。

步骤1:影像裁剪。由于每张影像尺寸不一样,为便于训练网络,需对影像滑动裁剪,处理成统一尺寸。

针对Vaihingen数据集:对训练数据影像采用256×256大小的窗口,以128大小的步长滑动裁剪,共得到3486张含有标签的影像图以及4551张无标签的影像图。

针对A数据集:选取A地区大约1/12的影像,对其采用256×256大小的窗口以及128的步长滑动裁剪,得到942张有标签影像图;对A地区无标签影像滑动裁剪,得到1837张无标签影像图。

步骤2:数据增强。为了提高模型的泛化能力和稳健性,本文所有试验均采用了数据增强操作:旋转90°、180°、270°;左右翻转;上下翻转。需要注意的是:影像图和标签图需同步进行数据增强,而无标签影像不受影响。

步骤3:数据归一化。数据归一化是将数据值域限定在一定范围内(常用[0, 1]或[-1, 1]),其作用是加快网络收敛速度。本文采用数据归一化方式为最大最小标准化,将数据归一化到[0, 1],公式如下

 (7)

2.2 试验设计

2.2.1 采用U_Net网络探索某些参数对本文方法影响的试验设计

为探索噪声大小、高斯噪声加入次数对本文方法的影响,设计2组试验:

(1) 采用Vaihingen数据集中1/8的标签数据和所有无标签数据作为训练集,在只添加一次高斯噪声的条件下,将高斯噪声大小分别设置为std=0.01(小)和std=0.15(大),再结合本文方法训练U_Net进行对比试验。

(2) 采用Vaihingen数据集中1/8的标签数据和所有无标签数据作为训练集,在高斯噪声设置为std=0.01的条件下,将噪声加入次数设置成1次和2次,再结合本文方法训练U_Net进行对比试验。

2.2.2 采用U_Net网络进行不同比例数据的试验设计

试验包含2部分:对比方法试验和本文方法试验。对比方法试验采用Vaihingen数据集中有标签影像数量的1/8,1/4,1/2以及全部数据分别训练U_Net网络;本文方法试验采用Vaihingen数据集中有标签影像数量的1/8,1/4,1/2以及全部数据分别结合所有无标签影像,在只添加一次高斯噪声且噪声大小为std=0.01的条件下,结合本文方法训练U_Net。

2.2.3 采用不同网络验证本文方法可行性

采用U_Net作为本文方法的语义分割网络进行试验,但是本文方法是否同样适用其他网络,具有泛化性?因此,采用Vaihingen数据集中1/8的标签数据和所有无标签数据作为训练集,在高斯噪声大小设置为std=0.01、噪声添加次数为1的条件下,结合本文方法训练HF_FCN、deeplab_v3+网络验证方法的可行性。

2.2.4 采用不同分辨率、不同来源的数据集验证本文方法可行性

为探索在不同分辨率、不同来源的数据集上,本文方法是否同样适用,本文采用A地区影像数据进行实验。试验设计如下:

采用A地区942张标签影像分别训练U_Net、HF_FCN、deeplab_v3+作为对比方法试验;本文方法试验采用A地区标签影像(942张)和A地区无标签影像(1837张)结合本文方法分别训练U_Net、HF_FCN、deeplab_v3+网络。将获取的模型在A地区测试集上验证本文方法的可行性。

2.2.5 试验相关软件硬件配置

软件环境为:ubuntu16.04(64位)操作系统,python3.5编程软件和深度学习框架pytorch(GPU);硬件环境为:英特尔i7-CPU,英伟达GTX1080显卡,以及16 GB内存。

2.2.6 试验参数设置

所有试验网络初始学习率lr设置为2.5e-4;网络输入图像批次大小batch_size设置为16;噪声添加次数设置为1;噪声值std设置为0.01;w(t)初始值为0。

2.3 结果分析

2.3.1 精度指标

本文选取的精度评价指标包含总体精度(overall accuracy,OA)、平均每类的召回率(average per-class recall,ACR)及平均交叉比(intersection over union,IoU)。其中,召回率指每类被识别正确的比例。

2.3.2 采用U_Net探索某些参数对本文方法影响的试验结果分析

就之前猜测噪声大小与噪声加入次数对本文方法可能有严重影响,设计试验验证,探索这2个参数对本文方法的影响。噪声大小对本文方法影响如表 1所示,噪声加入次数对本文方法影响如表 2所示,从表中可以得出如下结论:

表 1 噪声大小对本文方法测试精度的影响Tab. 1 The influence of noise size on the measurement accuracy of this method 

(%)
网络有标签
数据量
无标签
数据量
方法噪声大
小(std)
OAACRIoU





















U_Net1/8对比方法81.3072.5360.91





















all本文方法0.0182.4374.5663.16





















all本文方法0.1578.6566.3655.33





















表选项 

表 2 噪声加入次数对本文方法测试精度的影响Tab. 2 Effect of noise addition number on test accuracy of the method in this paper 

(%)
网络有标签
数据量
无标签
数据量
方法噪声
次数
OAACRIoU





















U_Net1/8对比方法81.3072.5360.91





















all本文方法182.4374.5663.16





















all本文方法281.0573.5961.70





















表选项 

(1) 对于语义分割任务,添加较大的噪声,会造成网络性能下降(即测试精度下降),导致本文方法较基准表现更差。

(2) 对于本文方法,加入噪声次数对网络性能有影响,其中1次效果最好,也进一步证明了2次噪声的加入会影响网络学习数据特征分布,使网络不能很好的学习到数据特征,导致本文方法表现差劲。

2.3.3 采用U_Net进行不同比例数据的试验结果分析

采用U_Net作为基准网络,在Vaihingen数据集的不同比例数据上结合本文方法进行试验,试验结果精度如表 3所示。对比方法试验在1、1/2、1/4、1/8标签数据下的整体精度分别为84.29%、83.10%、82.45%、81.30%,本文方法试验在1、1/2、1/4、1/8标签数据结合无标签数据下的整体精度分别为87.01%、85.86%、85.58%、82.43%。此外,精度对比折线图如图 5所示,便于更直观地查看对比。

表 3 Vaihingen地区影像语义分割精度结果比较Tab. 3 Accuracy comparison of image semantic segmentation in Vaihingen region 

(%)
网络有标签
数据量
无标签
数据量
方法OAACRIoU






















U_Net1对比方法84.2980.7767.66






















all本文方法87.0185.1772.93






















1/2对比方法83.1078.0365.82






















all本文方法85.8683.3771.00






















1/4对比方法82.4575.8863.08






















all本文方法85.5879.9768.95






















1/8对比方法81.3072.5360.91






















all本文方法82.4374.5663.16






















表选项 

图 5 采用不同比例数据训练U_Net网络的精度对比图Fig. 5 Accuracy contrast diagram of U_Net network training with different proportional data

图选项 

从表中以及精度对比图可以直接得出如下结论:

(1) 随着标签数据量的减少,传统的监督训练全卷积网络方法,测试精度也随之降低,进一步说明了采用少量标签数据导致网络性能下降的问题。

(2) 在不同比例的标签数据下,本文方法较对比方法在3种指标上取得了更优异的成绩,而精度对比折线图直观的表现出这种现象。

2.3.4 采用不同网络验证本文方法可行性分析

为探索本文方法的可行性,进一步采用HF_FCN,deeplab_v3+全卷积网络结合本文方法进行试验。不同网络对本文方法的验证结果如表 4所示,图 6为U_Net网络结合本文方法在Vaihingen数据集中1/8标签数据条件下的局部语义分割结果展示,图 7为不同网络结合本文方法在Vaihingen数据集中1/8标签数据条件下的语义分割结果展示(“本文方法”与其相邻左侧网络一一对应)。从表中可以得出如下结论:

表 4 不同网络对本文方法的验证Tab. 4 Verification of this method by different networks 

(%)
网络有标签
数据量
无标签
数据量
方法OAACRIoU






















U_Net1/8对比方法81.3072.5360.91






















all本文方法82.4374.5663.16






















HF_FCN1/8对比方法80.1867.5256.20






















all本文方法81.3569.3158.12






















deeplab_v3+1/8对比方法80.0669.6758.14






















all本文方法80.9972.1260.92






















表选项 

图 6 U_Net网络结合本文方法语义分割结果Fig. 6 Semantic segmentation result of U_Net network combined with our method

图选项 

图 7 不同网络在Vaihingen数据上的语义分割结果Fig. 7 Semantic segmentation results of different networks on Vaihingen data

图选项 

(1) 本文方法采用3种不同的全卷积网络,均可以提高网络性能(精度提升)。

(2) 本文方法采用U_Net效果最优,其他网络提升效果相比较差。其中部分原因是由于相关参数是根据U_Net设置,可能并未达到其他网络的最优效果。

(3) 本文提出的基于半监督全卷积网络的遥感影像语义分割方法是可行的,以及从图 7中可以明显看出本文方法对分割效果的改善提升。

2.3.5 采用不同分辨率、不同来源的数据集验证本文方法可行性

为探索本文方法在不同分辨率、不同来源的影像上语义分割的可行性,采用A地区影像数据进行试验。表 5为不同网络在A地区的测试精度,图 8为本文方法结合U_Net在A地区测试影像上的预测结果。根据表 5得出如下结论:

表 5 A地区预测结果精度Tab. 5 Accuracy of prediction results in area A  

(%)
网络标签
样本
无标签
样本
方法OAACRIOU






















U_NetA对比方法76.7757.2243.66






















AA本文方法79.9856.3044.68






















HF_FCNA对比方法78.1557.1144.89






















AA本文方法79.8857.4946.29






















deeplab_v3+A对比方法75.8451.9540.85






















AA本文方法76.7351.6741.36






















表选项 

图 8 A地区语义分割结果Fig. 8 Semantic segmentation results of area A

图选项 

在国内A地区影像数据集上,本文方法较对比方法精度更高,说明了本文方法在不同分辨率、不同来源的数据集上是可行的。

3 结论与展望

本文针对影像像素级标签绘制成本昂贵以及少量影像标签数据导致的网络性能下降的问题,提出了一种基于半监督全卷积网络的高分辨率遥感影像地物语义分割的方法。利用少量标签数据和大量无标签影像数据,结合本文方法半监督训练全卷积网络,实现端对端的影像语义分割。试验结果表明,本文方法可以有效改善少量标签数据造成的网络性能下降问题并间接降低了标签制作成本。然而,在使用少量标签数据的前提下,本文提出的半监督方法精度提升仍然不是很高。未来,笔者将考虑引入生成对抗网络[23](generative adversarial nets,GAN),并结合半监督学习,应用到遥感影像语义分割方向,继续改善当前存在的2个问题。另外,本文方法只在高分辨率光学影像(RGB三通道)上试验,并未考虑其他类型的影像数据,未来也将考虑多源数据融合进行相关试验。


【引文格式】耿艳磊, 陶超, 沈靖, 等. 高分辨率遥感影像语义分割的半监督全卷积网络法. 测绘学报,2020,49(4):499-508. DOI: 10.11947/j.AGCS.2020.20190044

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多