论文介绍题目:RSTeller: Scaling up visual language modeling in remote sensing with rich linguistic semantics from openly available data and large language models
期刊:ISPRS Journal of Photogrammetry and Remote Sensing
论文:https:///10.1016/j.isprsjprs.2025.05.002 数据:https://github.com/SlytherinGe/RSTeller 年份:2025 单位:西安电子科技大学
创新点作者提出了一个自动化流程,用于生成遥感图像与语言描述对,并构建了一个大规模、多模态遥感数据集 RSTeller(>130万张图像,>260万条文本)。主要创新包括: 利用开放数据自动生成多模态标注: 使用 Google Earth Engine (GEE) 获取遥感图像; 利用 OpenStreetMap (OSM) 获取地理语义; 借助大型语言模型(LLMs,如 Mixtral)生成高质量文本描述。
提出 RSTeller 数据集: 验证其对 VLM(视觉语言模型)训练的有效性:
方法本文提出了一种自动化的图文数据构建流程,用于生成遥感图像与自然语言描述的配对样本,构建大规模多模态数据集 RSTeller。整个方法主要包括以下几个步骤: 1 图像与地理信息获取从 Google Earth Engine 获取美国的高分辨率 NAIP 遥感图像,并裁剪为标准图像块。随后,利用图像的空间坐标从 OpenStreetMap 提取对应区域的地理要素标签,包括建筑、森林、道路、水体等。 
2 语义信息提取对 OSM 标签进行解析,提取图像中显著地物的类别、位置、形状、方向等空间属性,并将其组织为结构化提示,用于指导语言生成。 3 描述生成任务设计(Task 1–3)为了全面覆盖不同类型地物,同时提高语言多样性,设计了三个任务: Task 1:面状要素描述 生成针对图像中主要面状地物(如森林、农田、建筑区等)的描述,结合其位置、面积、形状等空间特征,输出结构清晰的自然语言表达。 Task 2:线状要素描述 生成针对图像中线性地物(如道路、河流、铁路等)的描述,关注其起止点、方向、弯曲度和长度等属性。 Task 3:语言增强描述 对 Task 1 或 Task 2 生成的原始描述进行语言重写,保留语义一致性,通过不同措辞与语气增强表达多样性,为每张图像生成两条自然语言描述。
4 自动清洗与数据组织对生成的描述进行自动清洗,剔除重复、无效或格式异常的内容,并将图像与文本组织为 WebDataset 格式,便于模型训练使用。
数据产品1 图像来源与内容图像来自美国农业影像计划(NAIP),具有 0.6 米空间分辨率,RGB三波段; 遥感图像被裁剪为 448×448 像素的 patch,每张 patch 覆盖约 270×270 米的区域; 覆盖范围广泛,涵盖城市、农村、林地、水体、基础设施等多种地理场景; 时间范围集中在 2021 年 8 月至 2022 年 11 月。
2 文本描述设计每张图像配有 两条自然语言描述,由大语言模型自动生成; 第一条描述基于图像中的主要 OSM 地理要素(如建筑、道路、土地利用等); 第二条描述通过语言增强(改写)策略生成,语义保持一致,但风格不同; 描述语言自然、结构清晰,适用于训练遥感场景下的视觉语言模型。
3 OSM语义支持所有描述均基于图像位置对应的 OpenStreetMap 标签信息; 标签内容包括地物类别(如 building , landuse , highway )、位置、形状、方向等属性; 使用自动化方式解析标签含义并融合空间属性,生成适合大语言模型处理的提示语(prompt); 通过这种方式确保图像描述具备明确的语义依据和空间关联。
4 多模态对齐特点5 数据组织与使用数据采用 WebDataset 格式 打包(tar 文件),便于分布式加载和并行训练; 每个样本包含图像文件和对应的两条文本描述; 支持主流视觉语言模型(如 CLIP、BLIP、CoCa 等)的微调或预训练; 适配大规模训练框架如 PyTorch、JAX、Hugging Face Transformers 等。
6 应用价值为遥感领域引入更丰富的语言监督,推动视觉语言模型在高分辨率地理数据上的应用。
对比分析作者将 RSTeller 与多个主流遥感图文数据集(如 RS5M、RSICD、UCM Captions 等)进行了对比。结果表明,RSTeller 在语义丰富性、语言多样性和下游任务性能方面均优于现有数据集,尤其在大规模训练和泛化能力上展现出明显优势。 通过在多个遥感图文检索和零样本分类任务上对比实验,验证了所构建数据集在提升模型表现方面的有效性。实验结果显示,使用 RSTeller 预训练的模型在多数任务中优于使用现有数据集的模型。消融实验进一步证明了语言增强、多任务设计等模块对性能提升具有显著贡献。
|