1. 新技术TESSERA的推出剑桥大学、阿尔托大学、布里斯托大学的联合研究团队基于巴洛双子算法构建了一种新的时序特征学习范式能让模型自主学习地表稳定的时空变化规律形成具有时序采样不变性的遥感特征表示。在此基础上研究团队进一步提出了面向哨兵一号/哨兵二号多模态时序数据的像素级遥感基础模型TESSERA。2. 遥感数据面临的问题对地观测卫星已成为农业生产、森林管护、生态监测、国土治理等领域的关键工具研究人员可利用卫星获取的长时序遥感数据追踪地表动态变化。但真实的卫星观测数据存在诸多问题如云层遮挡、轨道重访周期不规则、传感器分辨率不匹配、设备噪声等干扰导致原始数据残缺、异构、无序难以直接用于高精度智能分析。尤其在农业物候、短时生态扰动等精细场景中云层会直接掩盖关键的变化过程。3. 现有处理方法的不足目前行业普遍采用影像合成技术来「去云」和降噪生成标准化无云影像这提升了数据质量和可用性但也带来了明显的信息损耗物候动态、短时突变等精细时序特征往往在合成过程中被弱化甚至抹除导致部分关键信息流失。近年来遥感基础模型通过大规模预训练取得了很大进展但多数模型仍依赖经过深度过滤、规整后的理想数据训练时只用无云合成影像或时序均值这舍弃了大量虽受云层影响、却仍包含真实变化规律的观测数据导致模型在实际业务中面对稀疏、残缺、云量复杂的时序数据时特征提取不稳泛化能力大打折扣。4. TESSERA的构建与研究亮点为打破瓶颈联合研究团队基于巴洛双子Barlow Twins算法构建新的时序特征学习范式不再过滤含云数据而是约束同一位置不同观测子集之间的特征一致性让模型自主学习地表稳定的时空变化规律形成具有时序采样不变性的遥感特征表示并在此基础上提出像素级遥感基础模型TESSERA。相关研究成果已发表于预印本平台arXiv。研究亮点如下构建全球尺度、像素级、高标签利用率的特征嵌入设计全新自监督架构训练出融合哨兵一号/二号多模态数据的像素级遥感基础模型推出符合FAIR准则的数据即嵌入方案发布全球年度10米分辨率像素级8位整型特征嵌入数据集提供可直接部署的合规遥感资源实验发现在多样化的分类、分割和回归任务中TESSERA能以极高的标签效率达到SOTA精度通常仅需一个轻量任务头和极少的计算量。5. 数据体系构建该研究构建了覆盖全球的大规模时序遥感数据体系用于模型预训练和系统评估模型的泛化能力。整个数据体系由预训练数据集和下游评测数据集组成均基于哨兵一号雷达数据和哨兵二号光学数据构建充分发挥雷达与光学观测的互补优势。6. TESSERA优化数据嵌入方案预训练阶段研究团队构建了一个全球尺度的大规模时序数据集时间跨度覆盖2017年至2024年空间范围涵盖全球三千余个网格瓦片总计约8亿个d - pixel样本。该数据集尽可能保留了真实观测的原始特性包括数据缺失、不规则采样和云层遮挡等情况同时每个时间步均配套二值掩码用于标记观测有效状态使模型能够显式感知数据缺失与观测质量差异。下游评测阶段研究团队选取了6项公开基准数据集覆盖分类、分割和回归三类主流任务评测区域涵盖德国、法国、奥地利、芬兰、马来西亚等多个国家和地区覆盖农业、森林等典型应用场景。每类任务均同时包含大尺度区域数据集和精细化局部数据集分别评估模型的跨区域迁移能力和细粒度特征建模能力。此外针对当前高分辨率、多时相哨兵一号/二号多模态标注数据稀缺的问题研究团队还自主构建了两个新的评测基准一是奥地利地块级作物制图数据集用于评估精细农业场景下的分类与分割能力二是基于激光雷达校正构建的东南亚森林林冠高度数据集用于验证森林结构参数反演任务中的表现。7. TESSERA的设计目标与数据组织方式TESSERA的设计目标是在尽可能保留原始观测信息的前提下让模型直接从复杂、不完整的时序数据中学习稳定表征减少对数据规整、补全和修复流程的依赖。为此该研究提出了一种新的时序数据组织方式——d - pixel。传统分析通常以单景影像或固定时间序列为输入而d - pixel以单个空间位置为核心将同一像素在不同时间获取的多源观测按时间顺序组织成观测序列。每个d - pixel不仅包含哨兵二号光学信息和哨兵一号雷达信息还通过掩码向量标识哪些时间步存在云遮挡或数据缺失。这种表示方式完整保留了地表变化的时序特征避免了传统规整过程中的信息损失。8. TESSERA整体处理流程模型架构上TESSERA采用双分支编码器分别处理光学和雷达数据。两类数据的成像机制和物理属性存在明显差异独立编码能够充分挖掘各自特征再通过融合实现多模态互补。对每种模态模型首先对有效观测进行嵌入表示并加入可学习的年内日位置编码引入时间信息然后通过Transformer编码器建模长时序依赖关系最后利用门控循环单元聚合整条时间序列生成固定维度的单模态表征。光学与雷达特征融合后形成128维多模态地表表征。研究还引入量化感知训练将最终特征压缩为8位整型在几乎不损失精度的情况下将存储规模缩减约75%。预训练策略是TESSERA的核心创新。基于巴洛双子自监督学习框架对同一个d - pixel系统从其完整时间序列中随机抽取两组观测子集构建两种不同的「视角」。尽管两组观测包含的时间点不同甚至部分时间步存在缺失但描述的是同一地表对象。训练过程中模型被要求将这两组观测映射到尽可能一致的特征空间。通过这种方式模型学习到的是隐藏在不同观测背后的稳定地表规律从而获得对时间采样方式具有鲁棒性的特征表示。此外研究还引入混合正则化与全局打乱策略进一步提升模型对观测扰动和空间自相关性的鲁棒性。9. TESSERA在低标注与稀疏数据下的优势为全面评估TESSERA的性能该研究围绕遥感领域的典型应用场景设计了系统化实验从分类、分割和回归三类任务出发验证模型在不同数据规模、标注条件和区域场景下的表现。实验选取了多种主流遥感基础模型和经典视觉模型作为基线统一设置1%、30%和100%三种标注比例重点考察标签稀缺场景下的学习能力。为保证比较公平不同任务均采用轻量化适配器进行下游推理。分类任务中TESSERA展现出显著的时序特征学习优势。无论是在国家尺度树种分类任务还是精细化作物分类任务中模型均取得领先表现。尤其在仅使用1%标注数据的极低样本场景下TESSERA仍保持稳定性能分类精度较最优基线提升约8个百分点。分割任务中TESSERA表现出优秀的空间细节刻画能力。面对大尺度农田地块分割任务模型在全量标注条件下达到行业领先水平在低标注场景下性能进一步超越所有对照模型。在奥地利作物语义分割数据集上模型生成的地块边界更清晰不同作物之间的混淆显著减少整体语义一致性更强。回归任务重点考察模型对连续地表参数的表征能力。在地上生物量估算任务中TESSERA在不同标注比例下均取得最佳结果预测误差更低空间分布更连续。在森林林冠高度反演任务中模型进一步展现出对三维森林结构信息的捕捉能力估算结果与激光雷达实测数据吻合度最高能够有效恢复森林垂直结构特征。综合所有实验结果TESSERA在分类、分割和回归三类任务中均保持稳定优势尤其在低标注、数据稀疏和观测缺失等复杂条件下优势更为明显。相比许多依赖高质量训练数据的模型TESSERA在真实遥感场景中的性能下降更加平缓展现出更强的鲁棒性和泛化能力。10. 思考与方向遥感基础模型真的非「理想数据」不可吗TESSERA的尝试给出了不同的答案让模型直接面对真实世界中残缺、不规则、云层干扰频繁的观测序列在自监督框架下学习具有时序采样不变性的特征表示。这并不意味着数据清洗不再重要而是提示研究人员或许可以将更多精力从「把数据变干净」转向「让模型学会处理不干净的数据」。毕竟卫星拍下的每一张含云影像都是地球真实观测的一部分。相比不断追求更「完美」的数据让模型学会理解真实世界的复杂性或许才是遥感基础模型走向通用化的重要方向。