大模型进展专栏第十七期|遥感通用大模型EarthGPT系列深度解读发表时间:2025-12-18 14:37 大模型专栏 第十七期 在过去相当长的一段时间里,计算机视觉领域的模型大多遵循一种典型范式,即“一模态一设计,一任务一架构”。例如,图像分类任务需设计专门的分类网络;目标检测任务则采用特定的检测模型;语义分割任务又需要一套完全不同的架构。这些模型虽然在各自任务中表现亮眼,但普遍存在模态割裂、任务孤立的问题。它们无法在不同任务或模态间共享知识,导致通用性不足、可扩展性较差。与此同时,近年来自然场景下的视觉语言大模型表现抢眼,推动了整个AI行业的跃迁。然而,当这些模型直接迁移到遥感场景时,却遇到“水土不服”的问题。这主要是因为遥感数据具有其独特性:高空俯视或倾斜视角成像;目标与背景混杂;城市、植被、水体、道路等多类型地物共存;更复杂的空间关系与上下文依赖。这些特点与自然图像存在显著差异,因此自然场景大模型很难直接适配遥感影像的专业需求。 基于上述挑战,北京理工大学毛雪瑞教授团队率先推出面向遥感领域的通用大模型—— EarthGPT 系列,将多传感器图像理解和多种遥感视觉任务无缝统一。在自然语言和视觉提示多种指令下,EarthGPT系列可实现光学、合成孔径雷达(SAR)图像和红外图像的理解,完成遥感场景分类、图像描述、视觉问答、目标描述、视觉定位、目标检测和关系分析等多种任务,EarthGPT 系列的推出,标志着遥感AI从“单任务时代”迈向通用智能时代,为城市规划、应急管理、军事侦查等应用场景带来新的技术动力。本期大模型进展专栏“明星产品介绍”栏目也将围绕这一重要突破,对 EarthGPT 系列遥感通用大模型进行重点介绍。 一、领域首个超500万遥感多源视觉-语言指令数据集构建 为赋予 EarthGPT系列更强的遥感图像理解与对话能力,研究团队系统性地构建了大规模图文指令跟随数据集。该数据集覆盖多种视觉任务(如场景分类、目标检测、图像描述、视觉问答、目标关系分析等)和 多种遥感模态(如光学、SAR 与红外),为模型提供了从粗粒度语义理解到细粒度空间定位的统一监督信号。 在数据来源方面,研究团队充分整合现有多种公开数据集,通过重组与再标注,将其统一转换为指令跟随格式,增强模型对复杂地理环境中区域级、点级目标的理解与泛化能力。在标注环节,研究团队设计了精细的多策略标注与重构流程。首先,将多域数据统一整理为 [图像-文本],或[图像-视觉提示-文本]形式,其中视觉提示可表现为边界框、兴趣点等多种形式。随后,借助 GPT-4V,针对“简要描述”“细粒度描述”“目标关系分析”等不同任务分别定制提示模板,将类别标签与真实边界框信息显式嵌入提示中,从而有效降低幻觉与歧义。通过上述多模态、多任务、多域数据的统一整合与高质量标注流程,EarthGPT-X 得以在标准化的指令监督下进行联合训练,最终在遥感多模态理解、跨场景泛化以及复杂实景应用中展现出更强的稳健性与实用价值。 ![]() 二、多模态多粒度多源遥感图像解译结果展示 EarthGPT 能够作为一名智能遥感助手,通过自然语言交互高效完成多种遥感基础视觉任务。用户只需给出简单的文字指令,就可以让模型完成从场景理解、目标识别,到问答分析等一系列复杂任务。 ![]() 在此基础上,研究团队进一步研发出EarthGPT系列的新成员——视觉提示遥感大模型 EarthMarker。该模型在遥感影像的多粒度智能解读方面表现尤为突出,具备在不同尺度之间灵活切换的能力:从整体场景级的全局理解,到区域 / 目标级的精细识别,甚至细化到点级的局部差异分析。在实际使用中,用户可以通过可视化提示(Visual Prompts)来“点名”感兴趣的区域——例如,在图像上标出若干框(bounding boxes)或点(points),并配合自然语言指令,一同输入给大语言模型。EarthMarker 便能针对这些指定区域,完成多种细粒度任务,包括:场景分类、指代目标分类(referring object classification)、关键目标之间的关系分析与语义推理等。其中,视觉提示不仅用于圈定关键区域,还起到引导模型关注局部内容的作用,使其能对整幅遥感影像中对特定区域做出更加准确、聚焦的解读。 ![]() 此外,EarthMarker 展示了其在复杂关系推理任务中的突出优势。以机场场景为例,当模型接收到指令:“请分析图中所有标注区域之间的关系。” 时,与 GPT-4V 等多模态模型相比,EarthMarker 不仅能够准确识别每个标注区域的具体类别,还能清晰揭示它们之间的功能性关联。这一结果表明,EarthMarker 具备对复杂遥感场景进行结构化、层次化理解的能力,可为空地安全监测、机场运营分析等任务提供高价值的智能支持。 ![]() 相关成果:
大模型进展专栏由中国指挥与控制学会主办,大模型与决策智能专委会承办。大模型进展专栏联系方式:lmdi123@163.com 欢迎投稿 文字:毛雪瑞 编辑:张钊,梁星星,邢天,闫云龙,江禄民 审核:张国华 |