分享

ISPRS | RSTeller: 生成遥感视觉-语言描述对的自动化流程及大规模数据集, 数据已开源

 taotao_2016 2025-05-24

 RS   DL 

论文介绍

题目RSTeller: Scaling up visual language modeling in remote sensing with rich linguistic semantics from openly available data and large language models

期刊ISPRS Journal of Photogrammetry and Remote Sensing

论文https:///10.1016/j.isprsjprs.2025.05.002

数据https://github.com/SlytherinGe/RSTeller

年份:2025

单位:西安电子科技大学

图片

创新点


    作者提出了一个自动化流程,用于生成遥感图像与语言描述对,并构建了一个大规模、多模态遥感数据集 RSTeller(>130万张图像,>260万条文本)。主要创新包括:

    • 利用开放数据自动生成多模态标注

      • 使用 Google Earth Engine (GEE) 获取遥感图像;

      • 利用 OpenStreetMap (OSM) 获取地理语义;

      • 借助大型语言模型(LLMs,如 Mixtral)生成高质量文本描述。

    • 提出 RSTeller 数据集

      • 每张图像配有两条语义丰富的自然语言描述;

      • MTLD(语义多样性指标)得分高于所有已有遥感数据集。

    • 验证其对 VLM(视觉语言模型)训练的有效性

      • 使用 CLIP 模型做持续预训练;

      • 在多个遥感下游任务(如图像检索与零样本分类)中效果优于现有数据集。

    图片

    方法


    本文提出了一种自动化的图文数据构建流程,用于生成遥感图像与自然语言描述的配对样本,构建大规模多模态数据集 RSTeller。整个方法主要包括以下几个步骤:

    1 图像与地理信息获取

    从 Google Earth Engine 获取美国的高分辨率 NAIP 遥感图像,并裁剪为标准图像块。随后,利用图像的空间坐标从 OpenStreetMap 提取对应区域的地理要素标签,包括建筑、森林、道路、水体等。

    图片

    2 语义信息提取

    对 OSM 标签进行解析,提取图像中显著地物的类别、位置、形状、方向等空间属性,并将其组织为结构化提示,用于指导语言生成。

    3 描述生成任务设计(Task 1–3)

    为了全面覆盖不同类型地物,同时提高语言多样性,设计了三个任务:

    • Task 1:面状要素描述
      生成针对图像中主要面状地物(如森林、农田、建筑区等)的描述,结合其位置、面积、形状等空间特征,输出结构清晰的自然语言表达。

    • Task 2:线状要素描述
      生成针对图像中线性地物(如道路、河流、铁路等)的描述,关注其起止点、方向、弯曲度和长度等属性。

    • Task 3:语言增强描述
      对 Task 1 或 Task 2 生成的原始描述进行语言重写,保留语义一致性,通过不同措辞与语气增强表达多样性,为每张图像生成两条自然语言描述。

    4 自动清洗与数据组织

    对生成的描述进行自动清洗,剔除重复、无效或格式异常的内容,并将图像与文本组织为 WebDataset 格式,便于模型训练使用。

    图片
    图片
    图片

    数据产品


    1 图像来源与内容

    • 图像来自美国农业影像计划(NAIP),具有 0.6 米空间分辨率,RGB三波段;

    • 遥感图像被裁剪为 448×448 像素的 patch,每张 patch 覆盖约 270×270 米的区域;

    • 覆盖范围广泛,涵盖城市、农村、林地、水体、基础设施等多种地理场景;

    • 时间范围集中在 2021 年 8 月至 2022 年 11 月

    2 文本描述设计

    • 每张图像配有 两条自然语言描述,由大语言模型自动生成;

    • 第一条描述基于图像中的主要 OSM 地理要素(如建筑、道路、土地利用等);

    • 第二条描述通过语言增强(改写)策略生成,语义保持一致,但风格不同;

    • 描述语言自然、结构清晰,适用于训练遥感场景下的视觉语言模型。

    3 OSM语义支持

    • 所有描述均基于图像位置对应的 OpenStreetMap 标签信息

    • 标签内容包括地物类别(如 buildinglandusehighway)、位置、形状、方向等属性;

    • 使用自动化方式解析标签含义并融合空间属性,生成适合大语言模型处理的提示语(prompt);

    • 通过这种方式确保图像描述具备明确的语义依据和空间关联。

    4 多模态对齐特点

    • 图像和文本是强配对(strong alignment),即描述内容明确对应图像中可见要素;

    • 设计目标是支持训练遥感领域的图文匹配、多模态检索和零样本分类模型;

    • 每对图文可视为一个监督信号,提供丰富语义监督。

    5 数据组织与使用

    • 数据采用 WebDataset 格式 打包(tar 文件),便于分布式加载和并行训练;

    • 每个样本包含图像文件和对应的两条文本描述;

    • 支持主流视觉语言模型(如 CLIP、BLIP、CoCa 等)的微调或预训练;

    • 适配大规模训练框架如 PyTorch、JAX、Hugging Face Transformers 等。

    6 应用价值

    • 可用于遥感图文检索图像字幕生成零样本分类等多模态任务;

    • 支持对遥感图像进行自然语言解释、场景理解和跨模态分析;

    为遥感领域引入更丰富的语言监督,推动视觉语言模型在高分辨率地理数据上的应用。

    图片
    图片
    图片

    对比分析


    作者将 RSTeller 与多个主流遥感图文数据集(如 RS5M、RSICD、UCM Captions 等)进行了对比。结果表明,RSTeller 在语义丰富性、语言多样性和下游任务性能方面均优于现有数据集,尤其在大规模训练和泛化能力上展现出明显优势。

    通过在多个遥感图文检索和零样本分类任务上对比实验,验证了所构建数据集在提升模型表现方面的有效性。实验结果显示,使用 RSTeller 预训练的模型在多数任务中优于使用现有数据集的模型。消融实验进一步证明了语言增强、多任务设计等模块对性能提升具有显著贡献。

    图片
    图片
    图片

      本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
      转藏 分享 献花(0

      0条评论

      发表

      请遵守用户 评论公约

      类似文章 更多