大家读完觉得有帮助记得关注和点赞摘要地球观测对于感知动态地表变化至关重要然而在开放环境中部署自主EO面临着多源数据巨大异质性和任务多样性的严重阻碍。尽管遥感智能体已成为简化EO工作流的新兴方向但现有的工具调用智能体仅限于封闭环境。它们依赖于预定义的工具并局限于狭窄的范围限制了其对多样化数据和任务的泛化能力。为克服这些限制我们提出了OpenEarth-Agent这是首个专为开放环境EO定制的工具创建智能体框架。OpenEarth-Agent不调用预定义工具而是采用自适应工作流规划和工具创建生成针对未见数据和任务定制的专门工具。这种适应性通过开放式的多阶段工具集成和跨领域知识库得到加强从而能够在多个应用领域的整个EO流程中实现稳健执行。为了全面评估开放环境下的EO智能体我们提出了OpenEarth-Bench一个新颖的基准测试包含跨越七个应用领域的596个真实世界全流程案例明确设计用于评估智能体的自适应规划和工具创建能力。该基准测试仅提供必要的预训练模型工具不提供任何其他预定义的任务特定工具。大量实验表明OpenEarth-Agent成功掌握了开放环境中多个领域的全流程EO。值得注意的是在跨基准测试Earth-Bench上我们的工具创建智能体仅配备6个必要的预训练模型就达到了与依赖104个专业工具的工具调用智能体相当的性能并且在提供完整工具集时显著优于它们。在多个案例中创建的工具在数据异常鲁棒性方面表现出优于人工设计工具的优越性突显了工具创建智能体在高级EO中的潜力。代码和基准将发布于OpenEarth-Agent。1 引言地球观测是感知动态地表变化和理解人地系统的核心范式旨在将海量原始观测信号转化为开放环境中的可操作洞察[1]。开放环境的本质特征在于EO数据和任务的多样性[2]。具体来说数据包括多模态观测和多样化的衍生产品。同时EO任务涉及对异质土地覆盖要素的多样化分析。在这样的开放环境中EO需要一个从数据准备到地理空间分析的长时程流程并在城市研究、农业等多个领域有广泛应用[3]。因此这对开放环境中的自主EO构成了巨大挑战。EO日益增长的复杂性催生了遥感领域内工具调用智能体的发展[4, 5, 6]。通过规划和调用预定义的外部工具来执行工作流遥感智能体将复杂的EO任务分解为沿着固定工具链的以节点为中心的执行从而促进了自主和高效的EO[7, 8, 9, 10, 11]。然而现有的遥感智能体主要在受限的、封闭的环境中运行专注于预定义工具的规划和调用如图1所示。当部署在广阔的开放环境中时它们表现出两个基本局限性1)工具调用的封闭性限制了数据和任务的泛化能力开放环境中的EO涉及高度多样化的数据和任务使得为所有潜在场景构建预定义工具变得不可行。然而当前的智能体仅限于调用给定的工具集并依赖这些固定工具作为工作流规划的节点。当开放环境中的某个数据或任务需要先前未见过的功能时智能体无法执行。2)受限的操作范围限制了端到端的跨领域泛化能力开放环境EO包含一个长流程并跨越多个交叉领域。然而现有智能体通常仅限于几个特定阶段和领域。它们通常直接读取准备好的数据集仅执行特征提取或基础分析任务而不是自主获取和预处理数据。此外它们的跨领域能力仅限于少数特定领域的案例缺乏跨多个领域EO的泛化能力。图1现有局限与提出解决方案的概述。现有的EO智能体由于调用预定义工具而无法泛化到未见数据和任务并局限于特定的EO阶段和应用领域。相比之下所提出的OpenEarth-Agent通过创建自适应工具来泛化到多样化的数据和任务通过开放式的工具和知识集成实现完整的EO工作流和跨领域覆盖。为应对这些挑战我们提出了OpenEarth-Agent这是首个专为开放环境EO定制的工具创建智能体框架如图1所示。OpenEarth-Agent通过两个核心机制解决了上述局限性(1)自适应工作流规划与工具创建为了克服预定义工具调用固有的泛化瓶颈OpenEarth-Agent用动态的工具创建范式取代了静态的工具调用。与传统方法依赖简单的代码生成进行工具创建不同OpenEarth-Agent执行实时的数据探索和任务逻辑规划以提供全面且结构化的数据和任务上下文。此外在工具创建和任务执行后它利用特定领域的 Geo-science知识进行结果验证并迭代优化合成的工具。具体来说面对多样化的数据和任务OpenEarth-Agent首先合成代码探测工具以实时感知多源数据的元数据和时空-模态特征。这一关键的基础步骤确保随后创建的工具严格校准以正确处理异构数据。基于这些数据洞察和任务上下文智能体随后执行自适应工作流规划将任务执行结构化为有向无环图。OpenEarth-Agent不是调用固定工具而是动态创建明确针对每个DAG节点特定数据和任务需求的自适应工具。最后通过迭代反馈机制OpenEarth-Agent持续优化这些生成的工具从根本上使其能够无缝泛化到开放环境中的未见数据和新型任务。(2)开放式的工具与知识集成为了增强智能体在整个EO流程和各个应用领域的能力OpenEarth-Agent整合了广泛的工具和知识集成。OpenEarth-Agent摒弃了对预定义工作流和静态工具调用的僵化依赖而是利用这些资源作为关键参考以实现动态规划和实时工具合成适应异构数据和复杂任务。在工具方面它集成了用于多源数据获取与预处理、多范式特征提取以及多维度地理空间分析的专业功能和模板共计66,736个功能工具和514个执行模板。在知识集成方面它包含跨越城市、农业和土壤等领域的11,694个静态知识库同时支持实时在线知识检索。为了全面评估遥感智能体在开放环境中的性能我们构建了OpenEarth-Bench这是首个面向EO的开放环境评估基准如图3所示。先前的基准测试通常将预定义工具概念化为节点将其链接以形成封闭环境中的案例并评估智能体的工具规划和调用能力。相比之下OpenEarth-Bench评估的是在开放环境中不依赖预定义工具的情况下自适应规划工作流和创建工具的内在能力。OpenEarth-Bench包含跨越7个应用领域如城市、农业、植被的596个真实世界应用案例。每个案例都封装了从数据准备、特征提取到地理空间分析的完整EO流程。为了确保全面覆盖多样化的EO数据和任务该基准测试包括多源观测和产品的获取与预处理利用统计学习、机器学习和深度学习方法的特征提取以及跨多个维度的深入地理空间分析如时间趋势分析、空间格局分析和时空耦合分析。为了评估OpenEarth-Agent在开放环境中的有效性我们在OpenEarth-Bench上评估了其由各种大语言模型驱动的性能。此外为了严格评估其工作流规划和工具创建能力我们在Earth-Bench上进行了跨基准测试实验。为了隔离知识和工具集成的影响我们在此基准测试中将OpenEarth-Agent配置为没有任何外部知识或无关工具。在此受控设置下我们将配备仅6个必要预训练模型工具或基准测试中全部104个工具的OpenEarth-Agent与集成并调用完整工具集的其他智能体进行了比较。总的来说本研究的主要贡献总结如下我们提出了OpenEarth-Agent首个专为开放环境设计的遥感智能体架构。通过在数据和任务上下文条件下执行自适应工作流规划和工具创建OpenEarth-Agent适应多样化的EO数据和任务。通过多阶段工具和跨领域知识集成它有效地在多个应用领域中执行全流程EO。我们构建了OpenEarth-Bench首个面向开放环境的遥感智能体基准测试。它包含596个来自各个领域真实世界应用的全流程案例为评估开放环境中的智能体性能提供了一个强大的平台。在OpenEarth-Bench上的广泛实验以及在Earth-Bench上的跨基准测试评估验证了OpenEarth-Agent的有效性。值得注意的是在Earth-Bench上OpenEarth-Agent展示了创建功能等效专业工具的能力并且在某些情况下工具具有更优越的数据适应性。仅使用6个集成工具它就达到了与使用完整工具调用的智能体相当的性能并且在提供完整工具集时显著优于现有智能体。2 相关工作2.1 用于地球观测的遥感智能体LLM在EO中的早期应用主要依赖于开发特定领域的遥感编码器用于端到端的多模态对齐[12, 13]。然而面对异构的遥感数据和任务时这种范式扩展成本极高且严重依赖大量的微调[14]。最近的研究已逐渐转向构建工具增强型智能体。通过调用和编排预定义的外部工具这些智能体执行指定的工作流从而将复杂的EO任务转化为固定工具链内基于节点的执行[7, 8, 9, 10, 11]。然而大多数现有的遥感智能体局限于理想化的、封闭的测试环境。它们依赖于静态的、预定义的工具集进行有限的规划并且通常局限于有限领域内的孤立流程阶段。因此它们难以应对真实世界EO的跨领域和全流程需求。因此迫切需要开发能够在不同领域和整个工作流中自主运行的开放环境EO智能体。2.2 遥感智能体基准测试早期集成LLM的遥感多模态基准测试主要评估模型的基础感知和推理能力[15, 16, 17]。最近的工作已开始构建专门针对遥感智能体的基准测试将重点转向在集成专业工具后评估工具规划和调用能力[7, 8, 9, 10]。然而这些现有基准测试通常围绕封闭环境设计要求智能体严格在预定义的工具集内编排工作流。因此此类基准测试仍然局限于有限数量的预配置场景缺乏对开放环境中完整EO流程和跨领域应用的全面评估。目前迫切需要建立能够严格评估EO智能体在开放环境中真实世界能力的基准测试。3 方法图2OpenEarth-Agent概览。OpenEarth-Agent实时感知多源EO数据然后基于任务和数据上下文进行自适应工作流规划和结构化。接着它进行自适应的工具创建和执行结合对执行过程和结果的实时检查和反馈以生成合理的结果。3.1 多智能体架构为了解决开放环境中EO数据和任务的高度多样性和复杂性我们提出了OpenEarth-Agent一个多智能体协作框架如图2所示。与依赖预定义工具集且局限于狭窄范围的现有工具调用智能体不同我们的架构旨在通过自适应工作流规划和工具创建实现跨多个领域的完整EO流程的自主闭环。OpenEarth-Agent通过五个核心智能体协作运行数据摘要智能体、规划智能体、工作流智能体、编码智能体和检查智能体。整体操作逻辑可分为以下三个核心阶段迭代数据探索与上下文化在开放环境中灵活适应多源遥感数据是自主EO的前提。给定自然语言任务指令 数据摘要智能体首先检索并获取相关原始数据。该智能体不是依赖静态解析器而是动态生成并执行专门的数据探测工具以提取全面的数据概况 。该概况捕获了基本元数据以及复杂的时空-模态特征。至关重要的是这个探索过程是严格迭代的如果探测工具由于底层数据异常而遇到执行错误智能体会自主分析回溯信息优化脚本并重新执行工具直到数据被成功解析。最后智能体将提取的特征提炼成丰富的、结构化的数据上下文为后续的工作流规划和工具创建建立准确可靠的信息基础。自适应工作流规划与结构化在数据上下文化之后规划智能体接收自然语言任务指令 和前述的数据概况 利用集成的跨领域专家知识库 和多阶段工具 生成合理的计划。该智能体负责将宏观任务解耦为具有清晰层次结构和执行顺序的子任务序列。为了有效缓解LLM中常见的规划幻觉问题我们引入了多计划聚合机制。规划智能体首先生成一組 n 个候选执行蓝图记为 {p₁, p₂, …, pₙ}。然后它合并语义相似的执行路径并根据数据可用性和逻辑严谨性等维度对其进行优先级排序最终输出聚合后的最优任务计划 p。此过程可形式化为p (), (, , , ) (1)其中 表示基于任务和数据上下文的候选计划生成函数 表示计划聚合与排序函数。为了弥合宏观任务规划与微观代码生成之间的语义鸿沟工作流智能体将最优计划 p* 转换为结构化的计算工作流。具体来说该智能体将整体计划分解为多个具有明确功能的独立执行脚本节点。它严格规范节点间的数据流依赖关系并为每个脚本节点明确定义输入/输出接口信息和关键执行参数。此过程将自然语言规划蓝图实例化为逻辑严谨的DAG为后续的代码生成提供精确的标准参考。自适应工具创建与迭代优化在结构化工作流的引导下系统进入工具创建和执行阶段。遵循工作流的拓扑依赖顺序编码智能体依次为每个节点生成执行脚本。与从有限的工具集中检索和调用工具的现有方法不同编码智能体充分利用LLM的代码生成能力结合集成的专业工具集和知识库在开放环境中创建自适应和专门化的工具。仅当前一个节点的脚本已成功执行后智能体才会继续进行下一个节点的工具创建。为确保系统在开放环境中的鲁棒性检查智能体构建了一个反馈驱动的验证闭环。在编码智能体执行每个脚本时检查智能体执行运行时诊断以确定代码是否成功运行并利用地球科学规则验证结果的有效性。一旦检测到异常诊断反馈将被传回编码智能体触发参数修正和代码重构机制以启动新一轮的工具创建和执行。设第 k 轮的代码输出为 O⁽ᵏ⁾这个自主纠错闭环可以建模为O⁽ᵏ⁺¹⁾ ℰ(ℳ(⁽ᵏ⁾, ℱ⁽ᵏ⁾), ), s.t. (O⁽ᵏ⁺¹⁾) 1 (2)其中 ⁽ᵏ⁾ 是第 k 轮生成的代码ℱ⁽ᵏ⁾ 是检查智能体提供的异常反馈信息ℳ 表示代码修改器ℰ 表示代码执行器 是用于判断执行结果是否满足收敛标准的验证函数。这种迭代反馈机制显著增强了OpenEarth-Agent在处理复杂任务时的鲁棒性和科学严谨性。3.2 全流程工具集成为确保OpenEarth-Agent能够在开放环境中合理创建贯穿整个EO流程的工具我们设计了一个高度灵活的工具集成范式。我们将工具集成构建为一个双层架构包括标准化软件包和专家级代码脚本库作为工具创建的参考。在标准化软件包层面我们集成了来自遥感、地理计算和通用数据科学等11个Python库的66,736个功能工具。这使得智能体能够在标准Python环境中直接导入并自由组合它们以处理各种基础任务。在专家级代码脚本库层面我们构建了一个由领域专家验证的模块化仓库涵盖了遥感应用的完整或部分工作流包含514个参考脚本。为了实现智能体的自主调用我们引入了一种基于语义相似度的检索机制。首先LLM为每个脚本生成功能描述然后通过嵌入模型将其转换为高维向量以构建检索数据库。当智能体面临新任务时系统将其需求转化为自然语言描述并进行向量化匹配。这将检索出最相关的脚本对作为高质量的参考示例和代码模板从而显著提高智能体在遥感任务中工具创建的准确性和鲁棒性。基于上述双层架构我们在EO的三个核心阶段进行了专业工具的深度集成多源数据获取与预处理面对开放环境中的复杂数据源OpenEarth-Agent集成了涵盖云端获取和本地预处理的全面工具链。对于云端数据获取它集成了来自Google Earth Engine平台的交互代码和应用范式。这使得智能体能够动态获取多模态原始观测数据并支持直接调用全球高级遥感产品。对于本地数据预处理它全面集成了gdal、rasterio、geopandas、pyproj等核心空间处理库的功能工具和操作模板为多源数据的重采样、投影变换等预处理操作提供了标准化的代码参考。多范式特征提取为了支持从海量像素到要素特征的高效转换OpenEarth-Agent集成了从统计学习、机器学习到深度学习的多层次特征提取工具。在统计和机器学习层面它集成了scikit-learn、scikit-image等强大的通用算法库使智能体能够快速构建特征提取模型。在深度学习层面它集成了用于建筑物语义分割、多时相变化检测等任务的预训练模型工具。多维度地理空间分析为了将特征提取结果转化为对要素状态的深度认知理解OpenEarth-Agent集成了围绕三个维度时间趋势、空间格局和时空耦合的丰富地统计分析工具。对于时间序列分析它集成了statsmodels、SciPy等库提供高级统计工具模板如自回归分析和时间序列分解以挖掘要素特征的长期演化规律。对于空间格局和时空耦合分析它深度集成了PySAL生态系统提供空间自相关分析、热点分析等分析的参考脚本。3.3 多领域知识集成为了应对开放环境中复杂多样的EO需求OpenEarth-Agent集成了来自多个遥感应用领域的知识旨在为工作流规划和工具创建提供专家级的先验知识指导。具体来说集成的知识包括GEE数据目录、教程文档、社区文档以及广泛涵盖各种遥感交叉领域的特定领域知识总计11,694个文档。在集成机制方面我们采用了结合离线策略和在线策略的双分支知识检索架构离线知识库对于多源异构的GEE文档和各种遥感应用案例我们将海量长文本分割成独立的语义块并对每个块进行向量化以构建专用的文档向量数据库。该数据库提供了一个自然语言查询接口。在工作流规划和工具创建过程中它们可以用自然语言发起查询系统将精确召回高度相关的文本块。在线检索工具鉴于现实世界中遥感数据和方法的快速迭代我们为知识库配备了一个在线网络搜索工具。当智能体遇到知识盲点时它们可以自主调用此工具进行实时网络检索。这使得OpenEarth-Agent能够随时持续获取最新的学术文献、开源代码仓库和更新的API状态确保了系统知识的实时性和其边界的持续扩展。4 OpenEarth-Bench4.1 OpenEarth-Bench 概览图3OpenEarth-Bench概览该基准测试包含跨越七个领域的596个真实世界应用案例。每个案例都涵盖了从数据准备、特征提取到地理空间分析的完整工作流。为了全面评估智能体在开放环境中的自主EO能力我们构建了OpenEarth-Bench这是首个面向遥感智能体的开放领域评估基准。与现有在封闭环境中测试遥感智能体工具规划和调用能力的基准不同OpenEarth-Bench旨在评估智能体在开放环境中跨完整EO流程和多样化应用领域的自适应工作流规划和工具创建能力如图3所示。为了系统性地检验智能体的综合性能OpenEarth-Bench包含源自真实世界研究的596个应用案例跨越七个遥感应用领域城市、农业、植被、水体、土壤、经济和雪。每个案例都覆盖了完整的EO流程。统计数据如图3左下角所示。在数据准备阶段基准测试涵盖多源数据包括RGB、多光谱、SAR、NTL和遥感产品的自动获取和预处理。在特征提取阶段要求智能体灵活运用从统计学习、机器学习到深度学习的多样化方法来完成特征提取。在地理空间分析阶段基准测试涉及多维度科学计算如时间趋势分析、空间相关分析和时空耦合分析。为了系统性地评估智能体在开放环境EO中的性能OpenEarth-Bench设计了三个独特特征1)广泛的领域覆盖OpenEarth-Bench包含源自真实世界研究的596个应用案例跨越七个遥感领域城市、农业、植被、水体、土壤、经济和雪。详细的分布统计见图3左下角。2)全面的流程覆盖OpenEarth-Bench中的每个案例都涵盖了完整的EO流程各阶段全覆盖。在数据准备阶段基准测试包括多源数据如RGB、多光谱、SAR、NTL和其他遥感产品的自主获取和预处理。在特征提取阶段要求智能体灵活运用从统计和机器学习到深度学习的多样化方法。最后地理空间分析阶段涉及多维度科学计算包括时间趋势分析、空间相关性和时空耦合分析。3)极简工具提供OpenEarth-Bench仅提供大规模遥感模型作为特定功能的必要工具。不提供任何辅助工具要求智能体根据开放环境中的数据和任务上下文自主合成必要的工具。表1OpenEarth-Bench与现有遥感智能体基准的比较。基准数据准备特征提取地理空间分析开放环境数据模态ThinkGeo [7]✗✓✗✗RGBEarth-Bench [8]✗✓✓✗RGB, 多光谱, 产品GeoPlan-Bench [9]✓✓✓✗-Cangling-Know. [10]✗✓✓✗RGB, 多光谱, SAROpenEarth-Bench (Ours)✓✓✓✓RGB, 多光谱, SAR, NTL, 产品表1详细展示了OpenEarth-Bench与现有遥感智能体基准的比较。如表所示现有工作受限于封闭的工具调用环境局限于狭窄的EO阶段和数据模态范围。相比之下OpenEarth-Bench首次在开放环境中实现了多源数据支持、全流程覆盖和真实案例评估。这为促进遥感智能体的发展提供了一个全面且极具挑战性的测试平台。4.2 基准构建与评估为确保OpenEarth-Bench在开放环境中的真实性和高质量我们采用了“专家指导、代码生成、人工验证”的协同构建范式。首先资深领域专家从七个遥感应用领域的实际研究中主导定义了代表性EO任务案例的工作流。随后利用先进的LLM作为辅助引擎我们基于专家定义的任务上下文初步生成了涵盖“数据准备-特征提取-地理空间分析”完整流程的执行代码和工作流逻辑。最后领域专家对模型生成的代码、任务执行逻辑和最终结果进行了彻底的人工审查和修正。此过程显著提高了基准构建的效率同时确保了所有案例在开放环境中的科学严谨性和可执行性。为了便于在真实的开放环境中进行评估OpenEarth-Bench仅提供针对特定案例的预训练模型省略了其他预定义的可调用工具。这种设计迫使智能体根据数据和任务上下文自适应地规划工作流和生成工具。鉴于EO工作流固有的长时程特性我们设计了评估协议来评估智能体在单个阶段和整个流程中的表现1)分阶段评估我们将完整的EO任务解耦为三个独立阶段数据准备、特征提取和地理空间分析评估智能体在每个阶段内的独立性能。2)端到端评估我们评估智能体在自主执行完整EO流程时跨所有阶段的性能。在此设置中前一阶段的错误会自然级联并影响后续操作。为了多维度量化OpenEarth-Agent在开放环境中的综合效能我们构建了一个涵盖有效性、反思能力和运行成本的评估指标体系1)准确性作为任务完成度的主要指标评估智能体的输出是否成功生成、正确定位到指定存储并与真实值严格对齐。在数据准备阶段我们验证元数据的一致性并确保数值差异在预定义的误差范围内。在特征提取阶段我们验证元数据对齐以及数值保真度。对于地理空间分析我们确认提取的洞察正确结构化为键值对数值偏差限制在可接受的容差内。2)调试轮次记录智能体在执行出错时基于环境反馈进行自我调整和代码修正所需的迭代次数。该指标直接反映智能体的自我反思和错误恢复能力。3)运行时间衡量智能体规划-执行-反馈循环的总持续时间评估智能体在现实场景中的运行效率。由于端到端评估中级联错误可能导致后续阶段的调试轮次和运行时间不成比例地增加我们仅在分阶段评估中报告这两个指标。准确性则同时应用于分阶段和端到端评估。5 实验5.1 在 OpenEarth-Bench 上使用不同 LLM 进行评估为了评估智能体在开放环境中的性能我们在OpenEarth-Bench上对OpenEarth-Agent进行了基准测试使用了六个先进的LLM。这包括两个闭源LLM和四个开源LLM。通过深入比较分阶段和端到端的评估结果如表2和图4所示我们得出以下观察结果在开放环境中的有效性尽管开放环境中存在多样化的数据和任务并且不依赖预定义的工具API表2显示OpenEarth-Agent在分阶段评估的所有阶段均实现了高准确率其中GPT-5表现最佳。此外智能体利用结果检查反馈稳步提升其能力。图4展示了评估的LLM的自我修正能力突显了GPT-5卓越的反思和调试能力在所有阶段需要的调试轮次均少于五次。图4基于不同LLM的OpenEarth-Agent在分阶段评估中的结果。越靠近左上角性能越好。表2不同LLM驱动的OpenEarth-Agent在OpenEarth-Bench上的准确率比较。LLM分阶段端到端数据准备特征提取地理空间分析数据准备特征提取地理空间分析GPT-585.4085.2776.6682.3874.8358.72Gemini-2.5-Flash76.1777.5264.7674.1661.5845.47Kimik277.8579.1966.1175.8464.0947.81DeepSeek-V3.175.1778.0263.0872.8260.7443.12Qwen3-Max71.3173.8260.5769.7956.3839.26Seed-1.679.3682.3871.8177.1868.1251.84跨领域科学分析的复杂性在分阶段评估中与数据准备和特征提取阶段的高准确率相比所有模型在地理空间分析阶段均表现出明显的性能下降。表现最佳的模型GPT-5达到了76.66%的准确率而开源LLM通常在60%–70%左右。这种差异反映了深层地理空间分析与浅层数据处理之间的根本需求差异。虽然数据准备和特征提取主要依赖通用编程逻辑和成熟的算法调用但地理空间分析需要跨领域的专业知识和深刻的分析理解能力。全流程中级联误差的影响在端到端评估中所有LLM都展示了执行全流程的基本能力验证了OpenEarth-Agent在跨阶段综合EO方面的潜力。然而此评估也揭示了长时程任务固有的级联误差问题。由于前一阶段的错误会逐步放大到下游特征提取和地理空间分析阶段的准确率相比分阶段评估显著下降。例如GPT-5的地理空间分析准确率从76.66%急剧下降到58.72%突显了智能体在端到端EO中面临的巨大挑战。真实环境中的执行时间图4中呈现的运行时间统计真实反映了智能体在开放环境中的效率。所有LLM在数据准备和特征提取阶段都消耗了大量时间。这主要是因为数据准备涉及多源遥感影像的在线检索和下载而特征提取涉及在线无监督学习和预训练模型的推理。相反地理空间分析阶段所需的时间显著减少因为它主要涉及对结构化特征数据的分析。5.2 在 Earth-Bench 上的跨基准测试评估为了进一步验证OpenEarth-Agent在开放环境中的能力我们在跨领域基准Earth-Bench上进行了实验并与工具调用智能体Earth-Agent在各种LLM上进行了比较。Earth-Bench包含104个专业工具包括预训练模型和程序功能工具。为确保公平比较我们在OpenEarth-Agent内禁用了所有外部知识和工具集成。我们在两种不同的设置下评估OpenEarth-Agent1) 仅集成Earth-Bench中的六个必要预训练模型以评估其在开放环境中缺乏预定义工具的情况下自适应创建功能等效工具、规划和执行任务的能力2) 集成Earth-Bench中的所有可用工具以评估其在资源丰富环境中的工具规划和调用能力。由于OpenEarth-Agent不涉及工具调用我们仅使用该基准的准确性作为验证指标。表3在Earth-Bench上不同LLM后端的准确率比较。LLMEarth-AgentOpenEarth-Agent6个工具全部工具GPT-563.1659.9267.61Gemini-2.5-Flash55.0653.4457.89Kimik256.6852.6359.11DeepSeek-V3.152.2351.0256.68Qwen3-Max47.3746.9752.63Seed-1.659.5152.6361.94表3中的定量结果表明即使在配备了最小预训练模型集的情况下OpenEarth-Agent在所有评估的LLM上也达到了与Earth-Agent相当的性能。这表明在缺乏可访问工具的开放环境中OpenEarth-Agent可以通过自适应生成功能等效的工具来有效处理多样化的数据和任务其效果与依赖预定义工具的智能体相当。此外当配备完整的工具集时OpenEarth-Agent在所有LLM上都显著优于Earth-Agent突显了其在工具丰富的环境中相对于现有工具调用智能体的优越性。除了功能一致性外OpenEarth-Agent自主创建的工具在数据适应性方面表现出显著优于预定义工具的特性。具体来说Earth-Bench中的预定义工具严格针对基准测试的特定数据分布量身定制。当应用于开放环境中相同任务设置下的多样化数据时它们经常遇到三个关键限制1)硬编码的传感器参数众多工具为特定传感器固化了参数使其与替代数据源不兼容。2)无效值掩码的省略一些工具未能处理遥感影像中常见的异常区域严重损害了下游分析的准确性。3)不恰当的数值处理一些工具应用任意的数值操作破坏了数据固有的物理意义。相比之下OpenEarth-Agent通过利用主动数据感知来动态获取实时元数据以及时空-模态特征从而克服了这些瓶颈。这种全面的数据理解使智能体能够自适应地合成高度通用、鲁棒且针对特定数据上下文定制的工具确保不受受限数据场景限制的强大泛化能力。5.3 消融研究为了验证多智能体协作架构以及开放知识和工具集成模块的有效性我们在OpenEarth-Bench上使用GPT-5驱动的OpenEarth-Agent进行了全面的消融研究。表4多智能体架构的消融研究。数据摘要规划与工作流结果检查分阶段端到端数据准备特征提取地理空间分析数据准备特征提取地理空间分析✗✓✓84.5677.8567.6281.7174.1657.88✓✗✓83.7282.2171.8181.5469.1350.67✓✓✗78.0279.8665.7775.8459.7334.73✓✓✓85.4085.2776.6682.3874.8358.72多智能体架构的有效性。虽然单个基于代码的智能体能够通过代码生成创建工具和执行任务但我们对其他专业智能体进行了消融研究以探究多智能体架构相对于单个编码智能体的优势。我们分别对数据摘要、规划与工作流以及结果检查智能体进行了消融。表4报告的结果揭示了每个智能体在处理开放环境中长时程任务时不可或缺的作用数据摘要智能体在分阶段模式下移除该模块导致特征提取和地理空间分析阶段的准确率大幅下降。这种下降的发生是因为智能体在这些中后期阶段遇到未知的输入数据缺少摘要模块使系统丧失了感知数据特征的能力。值得注意的是在端到端评估中它的缺失影响相对较小。这表明在全流程任务中数据准备阶段获取的元数据可以在智能体系统内高效流动。规划与工作流智能体该模块的缺失触发了严重的性能下降特别是在端到端的长时程评估中终端地理空间分析阶段的准确率骤降至50.67%。这强烈表明在开放环境中缺乏自适应规划的智能体在面对高度复杂的EO任务时极易受到严重的“级联误差”的影响。结果检查智能体移除该模块迫使OpenEarth-Agent进入单次执行范式。实验表明没有环境反馈和试错机会系统在所有阶段的准确率都急剧下降。这强调了实时自我修正机制是确保在开放遥感环境中实现高任务成功率的必要前提。表5开放知识和工具集成的消融研究。知识集成工具集成分阶段端到端数据准备特征提取地理空间分析数据准备特征提取地理空间分析✗✗79.6981.2172.4878.0266.7847.65✗✓80.8784.4073.8278.8669.4651.34✓✗84.5682.0474.1681.2070.8052.68✓✓85.4085.2776.6682.3874.8358.72知识与工具集成的有效性。为了分离和量化外部知识和工具库带来的性能提升我们进行了相应的消融实验。表5的结果证明了它们的关键和互补作用知识集成这种集成在数据准备和地理空间分析阶段产生了最显著的改进。在数据获取阶段跨领域知识引导智能体准确匹配所需的多源异构数据。在分析阶段领域知识为智能体提供了不可或缺的地球科学先验知识确保了分析逻辑的科学有效性。多阶段工具集成工具集成主要增强了特征提取和地理空间分析阶段。当在开放环境中面临特征提取和复杂分析需求时广泛的工具库提供了丰富的算法参考保障了OpenEarth-Agent生成工具的正确性和鲁棒性。协同效应当两个模块都启用时模型在所有指标上实现了最优性能表明知识和工具的集成产生了互补效应共同提升了智能体的整体能力。6 讨论6.1 局限性与展望虽然OpenEarth-Agent在开放环境中表现出强大的泛化能力但其动态工具创建范式根本上依赖于底层LLM的编码和推理能力。尽管代码探测和迭代反馈机制减轻了许多错误但智能体在为高度复杂的地理空间建模合成工具时偶尔可能会生成语法正确但功能次优的工具。此外实时数据感知、动态DAG规划和迭代工具优化的持续循环需要多次LLM推理调用。与传统的、静态的预定义工具调用管道相比这引入了更高的计算开销和处理延迟这目前可能限制其在高度时间紧迫的应急响应场景中的部署。展望未来我们的未来工作将集中在两个主要期望上。首先我们旨在通过实施强大的工具缓存机制来优化推理效率允许成功合成和验证的工具被存档并作为模板重用以减少冗余的LLM API调用。其次我们计划将物理定律和地理空间拓扑约束直接整合到工具合成提示中这将严格界定智能体的行动空间并进一步减少复杂地球观测任务中的逻辑幻觉。6.2 社会影响与环境考量OpenEarth-Agent的部署和运行特别是其对持续LLM推理以进行动态工具创建和迭代反馈的依赖需要大量的计算资源。这种密集的计算管道本质上导致了显著的能源消耗构成了一个关键的环境问题对碳足迹和相关生态影响有实质性的贡献。虽然该框架使复杂的地球观测分析民主化并有助于监测环境变化但我们必须批判性地认识到这些外部性。采用可持续的能源解决方案可以显著减少自主地理空间智能体的生态影响使技术进步与环境管理保持一致。研究社区有责任积极评估和解决部署计算密集型智能体方法所固有的环境成本。关键的缓解方法不仅必须包括可持续的能源采购还必须包括对算法优化的持续追求以及利用节能的轻量化模型来减少总体计算开销。7 结论在本文中我们介绍了OpenEarth-Agent这是首个专为开放环境EO定制的工具创建智能体框架。通过将范式转向基于数据和任务上下文的自适应工作流规划和工具创建并将其与开放式的多阶段工具和跨领域知识集成相结合OpenEarth-Agent成功地在多个领域执行了端到端的EO流程。此外为了提供一个严格的评估平台我们构建了OpenEarth-Bench这是首个面向遥感智能体的开放环境基准测试包含跨越7个应用领域的596个全流程应用案例。在OpenEarth-Bench上的广泛评估以及在Earth-Bench上的跨基准测试实验有力地验证了我们提出的框架的有效性。值得注意的是与依赖完整工具调用的基线相比它仅使用最小必要工具集就达到了具有竞争力的性能并且在提供完整工具集时优于现有智能体。最终OpenEarth-Agent为未来开放环境中的自主EO建立了一个强大且可泛化的基础。