本文核心贡献如下发现对齐过拟合问题指出标准联合训练导致检测器仅记忆训练样本的特定框调整缺乏生成通用提示策略的能力。提出BLO-Inst框架将检测器参数视为元参数通过双层优化在划分的数据子集上交替优化分割器和检测器使检测器学习鲁棒的提示规则防止过拟合。高效适配设计冻结SAM图像编码器仅微调轻量级LoRA与检测器在保持高精度的同时大幅降低参数量和训练成本。广泛实验验证在通用和生物医学多个数据集上超越现有自动化提示方法与专业分割模型证明框架的鲁棒性与泛化能力。博主简介​AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者深耕计算机视觉与深度学习领域专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践旨在打通从学术研究到产业应用的最后一公里。 核心专长与技术创新YOLO算法结构性创新于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践为行业提供了具备高参考价值的技术路径与完整解决方案。技术生态建设与知识传播独立运营“计算机视觉大作战”公众号粉丝2.2万成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码显著降低了计算机视觉的技术入门门槛。 行业影响力与商业实践荣获腾讯云年度影响力作者与创作之星奖项内容质量与专业性获行业权威平台认证。全网累计拥有8万垂直领域技术受众专栏文章总阅读量突破百万在目标检测领域形成了广泛的学术与工业影响力。具备丰富的企业级项目交付经验曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案驱动业务智能化升级。 未来方向与使命秉持“让每一行代码都有温度”的技术理念未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新共同推动技术边界以坚实的技术能力赋能实体经济与行业变革。原创自研系列26年计算机视觉顶会创新点《YOLO26魔术师》原创自研系列25年计算机视觉顶会创新点《YOLOv13魔术师》《YOLOv12魔术师》《YOLO11魔术师》《YOLOv8原创自研》《YOLOv5原创自研》《YOLOv7原创自研》《YOLOv9魔术师》​《YOLOv10魔术师》 ​应用系列篇《YOLO小目标检测》《深度学习工业缺陷检测》《YOLOv8-Pose关键点检测》23、24年最火系列加入24年改进点内涵100优化改进篇涨点小能手助力科研好评率极高《YOLOv8魔术师》《YOLOv7魔术师》《YOLOv5/YOLOv7魔术师》《RT-DETR魔术师》0.原理介绍论文BLO-Inst: Bi-Level Optimization Based Alignment of YOLO and SAM for Robust Instance Segmentation摘要Segment Anything Model 以其零样本能力彻底改变了图像分割领域然而其对人工提示的依赖阻碍了全自动部署。虽然将目标检测器集成作为提示生成器提供了一条自动化路径但现有流程存在两个根本局限目标不匹配用于几何定位的检测器所优化的目标与 SAM 所需的最佳提示上下文不一致以及标准联合训练中的对齐过拟合检测器只是记住了训练样本的特定提示调整而不是学习一个可泛化的策略。为弥补这一差距我们引入了BLO-Inst一个通过双层优化来对齐检测与分割目标的统一框架。我们将对齐表述为一个在非重叠数据划分上的嵌套优化问题。在底层我们基于当前检测提议在子集 D1 上微调 SAM以最大化分割保真度。在顶层我们更新检测器以生成边界框该边界框显式地最小化微调后的 SAM 在另一个独立子集 D2 上的验证损失。这有效地将检测器转化为一个分割感知的提示生成器其优化的边界框不仅服务于定位精度更服务于下游的掩码质量。大量实验表明BLO-Inst 在通用和生物医学领域的任务上均取得了优越性能超越了标准基线。1. 引言实例分割即在图像中检测并勾勒出单个物体的任务是自动驾驶到生物医学分析等广泛应用的核心要求。传统上该领域依赖于为特定任务训练的专业模型如 Mask R-CNN 和 SOLO。然而这些方法通常泛化能力有限并且需要使用大型标注数据集进行训练。相比之下基础模型的出现因其丰富的先验知识而从根本上改变了这一格局。Segment Anything Model 作为一个强大的基础模型在 1100 万张图像上训练而成无需重新训练即可处理各种任务。与传统方法不同SAM 作为一种可提示的方法运行能够根据点或框等提示生成高质量掩码。虽然这种设计非常适合交互式分割但它为无法进行人工输入的自动化流程带来了瓶颈。因此将 SAM 部署到自主实例分割中需要用一个能够自行生成准确提示的检测器来替代人工引导。为实现自动化一种常见策略是将 SAM 与目标检测器在顺序流程中结合其中检测器提供边界框作为提示。然而简单地使用预训练检测器存在根本性的目标不匹配问题因为完美贴合目标物体的框往往不是生成良好掩码的最佳提示。例如如图 2 所示一个行人可能需要更紧的框来去除背景噪声而一个细胞可能需要更大的框来捕捉完整的结构。为了解决这个问题最近的研究如 USIS-SAM 和 RSPrompter 尝试基于分割损失和检测损失之和来联合训练检测器和 SAM。虽然这使检测器能够为掩码解码器输出所需的提示但它导致了另一个局限对齐过拟合。在这种标准设置下检测器和分割器在完全相同的数据样本上进行训练。这导致检测器只是记住了为最小化这些训练样本的损失所需的具体框调整而不是学习为掩码解码器生成良好提示的通用规则。因此在测试期间应用于新图像时这种记忆化的对齐可能会失效导致次优的分割。这种局限性也可以在消融研究中探索优化策略影响的“标准单级优化”与“双层优化”之间的性能差距中实验观察到。为了解决这些局限性我们从标准的机器学习超参数调优策略中汲取灵感。在机器学习中超参数通常在单独的验证集上进行调优以确保它们最大化模型的泛化能力而不是过拟合到训练集。我们将同样的策略应用于我们框架的设计中。我们将检测器提供的边界框不仅仅视为掩码解码器的静态提示而是视为由检测器生成的、指导掩码解码器预测的“动态超参数”。如果检测器与分割器在相同数据上优化它会将提示过拟合到该特定训练集类似于在训练数据上调优超参数会导致泛化能力差。然而通过将检测器视为一组超参数并基于分割器在单独验证划分上的响应来优化它我们实现了抗过拟合的对齐。这便将学习目标从简单地找到物体转变为找到分割器的最佳提示从而同时解决了目标不匹配和对齐过拟合问题。实现这一概念我们引入了BLO-Inst一个通过双层优化来实现该策略的统一框架。具体来说如图 1(a) 所示BLO-Inst 管理两组参数分割模型包括 LoRA 层和原始 MLP 头同时冻结重型图像编码器和目标检测器。我们将训练过程表述为在训练数据的两个非重叠子集上的嵌套优化问题如图 1(c) 所示。在底层我们暂时固定目标检测器并在子集 (D1) 上微调 SAM以在当前检测器下最大化分割性能。在顶层我们在另一个子集 (D2) 上验证微调后的 SAM并更新检测器。顶层的目标是生成能够最小化验证损失的提示。这确保了检测器被优化为生成有助于 SAM 正确分割新图像的提示。通过将学习过程分离到不同的数据子集上BLO-Inst 有效减轻了对齐过拟合的风险确保检测器学习到鲁棒、可泛化的提示策略。我们的贡献总结如下我们指出了当前自动化分割流程中的对齐过拟合问题即标准联合训练导致检测器记住训练数据而不是为特定任务学习可泛化的提示策略。我们提出了BLO-Inst一个双层优化框架将检测器的权重形式化为元参数。通过在单独的验证划分上优化检测器我们有效地防止了对齐过拟合确保模型学习到能够泛化到未见数据的鲁棒提示规则而不是记住训练分布。在通用和生物医学领域的广泛实验验证了 BLO-Inst 取得了优越性能优于标准的联合训练基线和架构修改方法。2. 相关工作2.1. 实例分割实例分割是一个核心的计算机视觉挑战它统一了目标检测和语义分割要求模型不仅要定位感兴趣的对象还要描绘其精确的像素级边界。传统上深度学习方法一直由以 Mask R-CNN 为代表的两阶段框架主导。这些方法首先通过区域提议网络生成候选区域然后利用 RoIAlign 等机制执行细粒度分类和掩码生成。虽然精度高但两阶段模型的顺序性通常会带来较高的计算延迟。为了解决这个问题开发了像 SOLO 和 SOLOv2 这样的单阶段架构它们直接从全图特征图预测掩码无需显式生成提议在推理速度和精度之间提供了更好的权衡。最近该领域见证了向基于 Transformer 的架构如 Mask2Former的范式转变这些架构将分割表述为使用可学习查询的集合预测问题为基于提示的范式铺平了道路。随着视觉基础模型的出现最近的研究已转向利用分割一切模型进行实例级任务。虽然像 GroundingDINO 和 YOLO-World 这样的开放词汇检测器可以在顺序流程中与 SAM 级联但这导致了不连贯的优化问题即检测器为边界框回归而优化而分割器需要最优提示来预测分割图。为了解决这个问题最近的方法提出了自动化提示模块。USIS-SAM 引入了一个为水下图像处理从头开始训练的轻量级提示生成器而 RSPrompter 则为遥感领域附加了基于查询的头到 SAM 编码器。然而这些方法通常依赖于在相同数据集上的标准联合训练策略。如前所述这种方法存在对齐过拟合问题即提示生成器学会了记住训练样本的具体框调整而不是学习鲁棒、可泛化的提示策略。相比之下我们的工作将检测器视为超参数并通过双层优化对其进行优化以确保鲁棒对齐。2.2. 基础模型适配大规模基础模型的出现使得需要有效的策略将其泛化表示适配到下游任务而无需从头训练的成本。当前的适配范式主要分为两类提示调优和参数高效微调。提示调优方法引入可学习标记到输入空间以指导冻结模型针对特定下游任务的行为。相反PEFT 策略将轻量级可训练模块注入模型架构仅更新一小部分参数。在分割一切模型的背景下这些策略已被广泛探索用于特定领域的应用。像 MedSAM、SAMed 和 BLO-SAM 等方法有效地利用 LoRA 或适配器层将 SAM 适配到医学成像模态显著提高了 CT 和 MRI 数据上的分割精度。然而这些现有的适配方法主要关注类别级预测或语义分割为固定类别优化静态权重。它们常常忽略了实例分割的动态特性即模型必须针对单个对象适应变化的几何提示。我们的工作通过引入一个双层框架来弥补这一差距该框架通过 PEFT 适配基础模型并同时优化提示生成器以提供与任务对齐的提示引导。2.3. 双层优化双层优化将学习表述为一个嵌套问题其中底层优化任务受到上层目标的约束。该框架已被广泛应用于神经架构搜索、超参数优化和数据重加权。在这些应用中模型参数通常在训练集上于底层优化而元参数则在单独的验证集上于上层学习以最大化泛化能力。在为 BLO 问题开发高效的基于梯度的求解器方面取得了显著进展。Liu 等人引入了有限差分近似来估计上层梯度而无需显式计算 Hessian 矩阵Finn 等人则提出通过迭代微分直接计算元变量的梯度更新。最近Choe 等人开发了一个软件框架能够跨这些不同的近似方案进行高效的梯度计算。在这项工作中我们利用这些高效的求解器来实现我们提出的框架使 BLO 范式适应于将目标检测与分割基础模型对齐。3. 方法3.1. BLO-Inst 概述我们提出的框架 BLO-Inst 将目标检测器与分割模型统一到一个实例分割系统中如图 1 所示。令 Φ 表示 YOLO 检测器的可训练参数Θ 表示 SAM 的可训练参数。标准方法通常通过在相同数据集上求和损失来优化这些模型。然而这常常导致对齐过拟合即检测器记住了训练样本的具体框调整而不是学习可泛化的提示策略。为解决此问题我们将训练表述为一个双层优化问题。我们将训练数据 D 划分为两个不相交的子集D₁ 和 D₂。学习过程包含两个嵌套层级在底层我们固定检测器 Φ并在 D₁ 上微调分割器 Θ 以适应所提供的提示在顶层我们更新检测器 Φ以生成能够最小化分割器在 D₂ 上验证损失的提示。通过在未见数据上验证提示质量我们迫使检测器学习鲁棒的调整规则。两个层级的问题共享相同形式的损失函数。两层迭代优化直至收敛如算法 1 所示。预备知识。如上所述BLO-Inst 建立在两个基础架构之上YOLO 和 SAM。YOLO 是一种高效的单阶段目标检测器直接从输入图像回归边界框坐标和类别概率。我们使用 YOLO 作为提示生成器参数化为 Φ。SAM 是一个可提示的分割基础模型包含一个重型图像编码器、一个轻量级提示编码器和一个掩码解码器。它旨在根据给定的提示预测零样本掩码。在我们的框架中我们采用 SAM 作为掩码生成器参数化为 Θ以 YOLO 提供的框为条件生成高保真掩码。3.2. 双层优化框架底层问题分割适配。在底层检测器 Φ 是固定的。它生成边界框作为分割模型的提示。我们在 D₁ 上优化分割器参数 Θ以最小化统一目标 L_total它是四个分量的加权和与标准 YOLO 训练一致但增加了 SAM 的反馈其中 λ 项是平衡各分量权重的超参数。底层旨在解决以下优化问题这里Θ*(Φ) 表示最优分割参数 Θ* 依赖于检测器 Φ因为损失函数的值取决于 Φ 生成的提示的质量和特性。顶层问题提示对齐。在顶层我们评估微调后的分割器 Θ(Φ) 在 D₂ 上的性能。我们的目标是更新检测器参数 Φ以在验证集 D₂ 上最小化相同的统一目标 L_total这模拟了测试时的评估。顶层优化问题表述为该目标迫使检测器找到同时满足两个条件的解它必须保持高检测精度更重要的是必须生成能够最小化分割器在未见数据上验证损失的可泛化提示以防止对齐过拟合。与底层固定 Φ 不同这里 Φ 是活动变量。双层优化框架。整合上述两个优化问题我们将它们统一为一个内聚的双层优化框架在此框架中两个优化问题深度互依。底层的输出 Θ*(Φ) 作为顶层的关键输入代表分割器对当前提示的最优适配。反之顶层的优化变量 Φ检测器作为底层目标中的条件定义了分割器训练时所处的提示空间。这种嵌套结构将提示生成逻辑与特定训练实例解耦有效防止了对齐过拟合确保了学习到的提示策略对新图像具有鲁棒性。3.3. 优化算法我们采用基于梯度的优化算法来求解式 (4) 定义的双层问题。由于对于每次顶层更新获得底层精确最优解 Θ(Φ) 在计算上不可行我们采用受 Liu 等人启发的高效近似策略。如算法 1 所示我们并非在每一步都将分割器完全训练至收敛而是使用单步梯度下降更新来近似 Θ(Φ)。在迭代 t 时给定当前检测器 Φ^(t)我们在批次 B₁ 上更新分割器参数 Θ^(t)。然后我们使用这个更新后的代理 Θ′ 来近似最优分割器 Θ*(Φ^(t))用于后续的顶层更新。详细推导见附录 B。4. 实验在本节中我们在多样化的实例分割任务上评估 BLO-Inst涵盖通用目标检测、细粒度部分分割和生物医学目标检测。我们旨在证明我们的双层优化框架在将提示生成器与分割器对齐时能有效防止过拟合从而优于其他专业方法和自动化提示基线。4.1. 数据集我们在 6 个公开数据集上评估 BLO-Inst将它们分类为通用和生物医学目标基准以评估领域泛化能力。对于通用目标检测我们使用 PennFudanPed 进行行人分割TransIns 用于在不同条件下检测车辆和车道线WheatIns 用于密集农业目标检测以及 CarPartIns 用于车辆部件的细粒度多类分割。为了评估在生物医学领域的性能我们采用 CellCountIns用于低对比度显微镜图像中细胞计数的二值数据集和 RWCellIns区分红细胞和白细胞的多元基准。这些数据集在规模、密度和复杂度上差异显著从二值到多类任务确保了跨不同领域的稳健评估。关于数据集的更多细节见附录 C。在我们的方法中训练集被进一步随机划分为大小相等的两个子集 D₁ 和 D₂。基线方法使用整个训练集而不进行任何细分。4.2. 实验设置基线与指标。为了全面评估我们提出框架的有效性我们将 BLO-Inst 与多样化的最先进基线进行比较分为两组(1) 专业实例分割器包括代表性的两阶段 Mask R-CNN 和单阶段无框 SOLO(2) 自动化提示方法包括使用预训练专业检测器为 SAM 提供框提示的 SAM-seg 变体所有参数将在目标数据集上进一步微调、RSPrompter 的基于锚框和基于查询的变体以及使用辅助网络进行提示生成的 USIS。遵循标准评估协议我们报告在 IoU 阈值 0.5 到 0.95 上平均的平均精度。为了更细粒度地评估检测召回率和分割掩码保真度我们还报告 AP50 和 AP75。实现细节。我们使用 PyTorch 实现框架所有实验在一张 NVIDIA A100 GPU 上进行。对于模型架构我们采用 YOLOv7 作为提示生成器并使用初始化了 SA-1B 权重的 SAM ViT-B 作为分割器。为了确保参数效率冻结 SAM 骨干网络仅通过注入的秩为 r4 的 LoRA 层微调轻量级掩码解码器。为确保检测器在双层优化前适应特定领域YOLO 组件在目标数据集的训练集上预训练 100 次迭代。在双层优化阶段模型端到端微调 20 个 epochs。我们使用随机梯度下降进行两个优化层级底层和顶层的学习率分别设置为 α1×10⁻³ 和 β1×10⁻³通过 LambdaLR 调度器调整。关于统一目标函数权衡参数设置如下框回归损失 λ₁0.3目标性损失 λ₂0.7分类损失 λ₃0.3分割损失 λ₄0.7。我们赋予 λ_obj 和 λ_seg 更高的权重以优先考虑目标发现和最终掩码保真度而对 λ_box 和 λ_cls 设置相对较低的权重以利用 SAM 对近似空间提示的固有鲁棒性减少对完美像素边界框回归的需求。为促进双层优化我们将训练集随机划分为大小相等的两个不相交子集分别记为子集 D₁用于优化 Θ和 D₂用于优化 Φ。4.3. 结果与分析单类别通用目标基准。我们首先在 PennFudanPed 和 WheatIns 数据集上评估 BLO-Inst 的单类别分割任务。定量结果以及模型复杂度和训练成本见表 1。可以看出BLO-Inst 在两个基准上均取得了最高的 mAP证明了提示生成器与分割器之间的优越对齐。值得注意的是在具有密集遮挡的 WheatIns 数据集上我们的方法相比第二好的基线将 mAP 提高了超过 4.7%。这种优越性主要归功于我们的双层优化策略它能防止对齐过拟合并提高泛化能力。除了精度表 1 还突出了我们方法的参数效率。虽然像 USIS 和 RSPrompter 这样的自动化提示方法引入了辅助网络或需要微调庞大的 SAM 骨干但 BLO-Inst 仅用 3866 万个可训练参数就达到了最先进的性能。这是通过冻结 SAM 骨干并仅更新轻量级 LoRA 层和 YOLO 检测器实现的。因此我们的训练成本显著低于或与其他基于 SAM 的微调方法相当验证了我们的双层策略在提高模型性能的同时保持了高计算效率。多类别通用目标基准。我们接着在 TransIns 和 CarPartsIns 上评估多类别分割任务的性能。结果总结在表 2 中。BLO-Inst 在这些复杂场景中持续优于基线。在 CarPartsIns 上该任务需要对几何上不同的部件进行细粒度区分我们的方法达到了 67.2% 的 AP75显著超过了最佳的自动化提示基线 RSQuery。这表明我们的双层优化有效地教会了检测器生成具有类别判别性的提示这些提示不仅能定位对象还能紧密贴合以触发 SAM 解码器中的特定语义掩码。生物医学基准。最后为了评估领域泛化能力我们在 CellCountIns 和 RWCellIns 数据集上报告了结果见表 3。尽管自然图像与显微镜之间存在显著的领域差距BLO-Inst 仍表现出稳健的适应性。在多类 RWCellIns 数据集上我们的方法取得了 94.6% 的 AP50 和 89.8% 的 AP75优于其他可能遭受对齐过拟合的自动化提示基线和专业模型 Mask R-CNN。这证实了我们的方法成功弥合了领域差距使检测器的提示策略与生物医学对象的几何属性对齐实现了高保真分割。定性分析。为了可视化 BLO-Inst 的有效性我们在图 3 和图 4 中展示了与最先进基线的定性比较。在 PennFudanPed 数据集上传统的全监督方法如 Mask R-CNN 常常在精确贴合边界方面遇到困难而最近的自动化提示方法有时会表现出提示错位导致掩码碎片化。相比之下BLO-Inst 即使在遮挡下也能生成清晰、内聚的掩码准确描绘实例。此外在具有挑战性的高密度环境 CellCountIns 中基线提示学习方法经常遭受“实例合并”问题即相邻细胞被分组到单个掩码中。我们的方法成功地将这些紧密堆积的实例以高保真度分离证明了我们的双层对齐策略有效地教会了检测器生成针对 SAM 骨干特定分割属性的判别性提示。关于交通、农业和工业数据集的更多定性结果见附录 E。4.4. 消融研究为了验证 BLO-Inst 中各个组件和设计选择的贡献我们在 PennFudanPed 和 CellCountIns 数据集上进行了广泛的消融研究。除非另有说明所有消融均使用默认设置通过 LoRA 微调掩码解码器使用一阶优化以及 1:1 的数据划分比例。可训练组件的有效性。我们首先研究应该优化 SAM 的哪些模块以适应下游任务。我们比较了四种设置更新图像编码器、提示编码器、掩码解码器或全部三个组件。如图 5 所示微调重型图像编码器导致性能次优且训练成本高。这是因为原始图像编码器已在大规模 SA-1B 数据集上预训练已具备高度鲁棒和可泛化的特征提取能力。因此在下游小数据集上积极微调此骨干网络相对于计算开销而言收益递减。相比之下仅更新掩码解码器显著提升了性能证明适配分割头对于将 SAM 与提示生成器对齐至关重要。虽然微调所有组件带来了微小的进一步增益但代价是巨大的参数开销。因此我们选择掩码解码器作为效率和精度之间的最优权衡。优化策略的影响。我们通过将我们的双层优化策略与标准的单层基线进行比较分析了其有效性。结果如图 6 所示。双层优化策略在两个任务上均持续优于单层基线。这证实了划分数据并使用分割器的验证损失来更新检测器可以防止过拟合并提高泛化能力。虽然二阶近似在行人分割任务上实现了最高性能但它需要显著更多的计算资源。因此我们采用一阶优化作为默认设置以降低训练成本同时保持有竞争力的精度。数据划分比例的敏感性。最后我们探讨了 D₁ 和 D₂ 之间数据划分比例 γ |D₁|/|D₂| 的影响。我们测试了 γ 从 0.25 到 4 的范围。如图 7 所示平衡划分γ1产生了最佳性能。数据过于偏向用于分割器更新的子集会使得检测器的优化过程缺乏数据导致提示生成不佳。反之数据过于偏向用于检测器更新的子集会阻止分割器学习足够的领域适配。平衡的比例为优化过程的两个层级提供了充足的数据以有效收敛。5. 结论在本文中我们提出了 BLO-Inst一个参数高效的实例分割框架通过双层优化将 SAM 与预训练检测器对齐。通过将提示生成器表述为一个可学习的“超参数”优化其以最大化 SAM 的验证性能我们建立了一个协作反馈回路弥合了几何定位与分割图预测之间的目标差距。在六个不同基准上的大量实验证明BLO-Inst 显著优于全监督专业模型和最先进的自动化提示方法。这些发现验证了双层优化作为将基础模型适配到复杂下游任务的稳健范式为自动化提示学习的未来研究提供了有前景的方向。