(论文速读)HAFNet:用于红外小目标检测的分层注意力融合网络
论文题目HAFNet: Hierarchical Attention Fusion Network for Infrared Small Target Detection用于红外小目标检测的分层注意力融合网络期刊IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING摘要红外小目标检测(IRSTD)涉及识别空间范围小、信杂比低、经常嵌入动态和复杂背景中的目标这使得任务特别具有挑战性。得益于强大的特征提取和多尺度特征融合特性U-Net在IRSTD任务中表现良好。然而现有的U-Net方法往往只关注优化骨干特征提取或跳过连接这限制了它们在复杂场景下的性能难以有效识别小目标。为了解决这一限制我们提出了一种基于U-Net架构的分层注意力融合网络即HAFNet。具体而言设计了双分支语义感知模块(DSPM)作为特征提取主干以增强上下文语义交互。该模块集成了使用标准卷积和扩展卷积的双分支特征提取同时利用空间和通道注意模块(CAMs)有效地将小目标从背景噪声中分离出来。此外我们通过合并层次特征融合编码器(HFFE)和层次特征融合解码器(HFFD)扩展了跳过连接。这些模块利用分层注意引导和编码特征注入跳过连接(esc)来实现编码器和解码器之间多尺度、多层次语义特征的有效融合。在三个公共数据集(NUAA-SIRST, IRSTD- 1k和NUDT-SIRST)上进行的大量实验表明所提出的HAFNet优于现有的IRSTD方法并实现了最先进的(SOTA)检测性能。https://github.com/ Wangtao-Bao/HAFNetHAFNet面向红外小目标检测的层级注意力融合网络详解一、背景与动机红外小目标检测Infrared Small Target DetectionIRSTD是指在红外图像中准确识别并定位体积微小、对比度极低的目标广泛应用于早期预警系统、海上搜救等军民两用领域。与可见光目标检测相比IRSTD 面临三大核心挑战目标极小目标仅占图像极少数像素空间信息极为有限低信杂比目标与背景的对比度极低极易被噪声掩盖背景复杂海面、云层、地形等复杂背景产生大量干扰传统方法误报率高。基于 U-Net 的方法凭借编解码器结构与跳跃连接在 IRSTD 任务中取得了显著进展。然而现有方法存在两个关键瓶颈限制了进一步性能提升。问题一骨干网络与红外图像不匹配现有大量方法如 ACM 使用 ResNet-20、DNA-Net 使用 ResNet-18/34、MTU-Net 使用 ResNet-10/18/34沿用为可见光图像分类设计的骨干网络作为特征提取模块。由于可见光与红外图像在光谱分布、数据特性上存在本质差异这类骨干网络往往无法有效泛化到红外场景导致特征表达能力不足在复杂红外环境中鲁棒性下降。问题二传统跳跃连接存在语义鸿沟标准 U-Net 的跳跃连接CSC仅在相同分辨率的编解码器层之间直接传递特征。这一策略忽视了低层特征富含空间细节但对噪声敏感与高层特征语义抽象但缺乏细粒度结构信息之间固有的语义差距导致异质特征融合效果不佳尤其难以在杂乱高纹理背景中精确重建小目标。配图此处配Fig. 1——展示 DNA-Net、SCTransNet、UIUNet 与 HAFNet 四种方法的跳跃连接结构对比示意图直观呈现 HAFNet 引入的新型层级跳跃连接HSC、ESC与传统方案的区别。二、HAFNet 整体架构为解决上述问题本文提出HAFNetHierarchical Attention Fusion Network从特征提取骨干和跳跃连接机制两个维度对 U-Net 进行系统性改进。整体架构采用五层编解码器结构包含三个核心模块模块作用DSPM双分支语义感知模块替代传统分类骨干专为红外图像设计的特征提取模块HFFE层级特征融合编码器融合相邻编码器层特征生成层级编码特征HFFD层级特征融合解码器融合多源特征增强解码器重建能力网络还设计了三类跳跃连接协同工作CSC传统同尺度跳跃连接保留原始 U-Net 的局部细节传递HSC层级注意力引导跳跃连接将 HFFE 特征传入解码器ESC编码特征注入跳跃连接配图此处配Fig. 2——HAFNet 完整架构示意图展示五个编码阶段、HFFE/HFFD 模块位置、三类跳跃连接的流向以及深度监督DS策略的部署位置。各编码阶段输出特征图通道数为 C [16, 32, 64, 128, 256]分辨率依次减半。最终各解码层特征经 1×1 卷积 Sigmoid 生成分割图并使用Soft-IoU Loss进行深度监督优化。三、核心模块详解3.1 双分支语义感知模块DSPM传统单一尺度卷积感受野固定难以同时捕获局部细节与全局上下文无法有效区分红外小目标与复杂背景。DSPM 从多尺度特征提取和注意力精炼两个层面加以解决。双分支特征提取第一分支两层标准 3×3 卷积保留局部空间一致性提取低层基础特征第二分支膨胀率分别为 4 和 2 的膨胀卷积大幅扩展感受野捕获跨尺度上下文信息。两路特征拼接后经 1×1 卷积融合形成多尺度特征。双重注意力精炼依次通过空间注意力模块SAM和通道注意力模块CAM来自 CBAM对融合特征进行精炼SAM 聚焦目标所在的空间区域CAM 强调目标相关的特征通道共同抑制背景噪声、突出小目标响应。配图此处配Fig. 3——DSPM 详细结构图展示双分支卷积路径上路标准卷积、下路膨胀卷积、特征拼接操作以及右侧空间注意力模块SAM和通道注意力模块CAM的串联结构。消融验证Table V移除标准卷积w/o Conv导致 NUAA-SIRST 上 IoU 下降5.99%移除膨胀卷积w/o D.Conv下降2.38%说明标准卷积对局部特征提取更为关键。移除 SAM 导致 IRSTD-1K 上 nIoU 下降 1.57%移除 CAM 导致 NUDT-SIRST 上 nIoU 下降 0.83%。完整 DSPM 在三个数据集上均取得最佳 IoU/nIoU。配图此处配Table V——DSPM 内部组件消融实验结果表。3.2 层级特征融合编码器HFFEDSPM 扩大感受野的同时也可能引入更多误报伪目标且单层特征缺乏跨层语义协同能力。HFFE 通过跨层注意力交互解决这一问题。输入相邻两层编码特征——低层高分辨率、细节丰富和高层低分辨率、语义丰富。处理流程分辨率对齐 SAM 提炼将双线性上采样至的分辨率两路特征分别通过 SAM 提炼目标相关区域得到和空间权重矩阵SWM生成通过 1×1 卷积 Sigmoid 分别生成两路空间权重矩阵用对方的权重矩阵对自身特征进行重校准这一互相加权的设计使两层特征能够互相关注彼此的重要区域坐标注意力CoordAtt融合将和拼接后送入 CoordAtt 模块编码水平和垂直方向的位置依赖生成融合坐标注意力权重保留对小目标定位至关重要的位置信息最终输出配图此处配Fig. 4——HFFE 详细结构图展示低层/高层特征的双路 SAM 处理、SWM 交叉乘积、CoordAtt 模块以及最终特征拼接输出的完整流程。消融验证Table VI移除 CoordAtt 导致 NUAA-SIRST 上 IoU 下降3.08%、nIoU 下降 2.07%说明位置编码对挑战性场景至关重要。移除交叉乘积操作 $\otimes^1$式13或 $\otimes^2$式14均造成全数据集一致性下降验证了跨层特征重校准机制的有效性。配图此处配Table VI——HFFE 内部组件消融实验结果表。3.3 层级特征融合解码器HFFD传统 U-Net 解码器仅依赖同尺度跳跃连接难以同时捕获全局语义上下文与细粒度局部细节。HFFD 通过整合三路异质输入实现更全面的目标重建编码器特征 $F_{en}$提供精细的局部细节支持目标边界的精确重建层级编码特征 $F_{HFFE}$聚合多尺度编码器表示增强全局语义理解上采样解码器特征 $F_{de}$来自上一解码层为当前层提供空间上下文引导。处理流程首先将与拼接通过 4 个 1×1 卷积进行特征分解FD得到四路特征图随后以不同膨胀率进行多尺度渐进增强最终拼接多尺度特征并与求和经 3×3 卷积与整合生成最终层级解码特征配图建议此处配Fig. 5——HFFD 详细结构图展示三路输入融合、特征分解FD、三路膨胀卷积渐进增强、与整合的完整计算流程。消融验证Table VII移除层级语义信息 $F_{HFFE}$ 带来最大性能损失NUAA-SIRST 上 IoU 下降3.28%、nIoU 下降 2.55%充分说明层级编码特征对目标重建至关重要。移除编码器特征 $F_{en}$即取消跳跃连接同样造成全数据集指标下降验证了细粒度局部特征在结构保持中的不可替代性。配图此处配Table VII——HFFD 内部组件消融实验结果表。四、实验设置数据集数据集图像数量分辨率特点NUAA-SIRST427320×320经典红外小目标基准IRSTD-1K1001512×512大规模多场景NUDT-SIRST1327256×256多目标、高密度场景NoisySIRST基于 NUAA-SIRST256×256高斯白噪声σ10/20/30训练/测试划分比例均为 4:1所有图像均转换为灰度图并按训练集均值和标准差归一化。训练细节优化器AdamW初始学习率 0.001权重衰减 $10^{-2}$学习率调度余弦退火最低降至 $1\times10^{-5}$权重初始化Kaiming 初始化数据增强随机旋转、水平翻转基于掩码的随机裁剪正样本概率 0.5不足尺寸图像零填充。配图此处配Table I——不同数据集的自定义超参数设置表含 Epoch、学习率、Batch Size 等。五、实验结果5.1 与 SOTA 方法的定量比较本文将 HAFNet 与6 种传统方法Top-Hat、Max-Median、WSLCM、TLLCM、IPI、NOLC和7 种深度学习方法ACM、RDIAN、DNANet、UIUNet、RPCANet、MSHNet、SCTransNet进行全面比较评估指标包括 IoU↑、nIoU↑、↑、和 F1↑。配图建议此处配Table II——三个基准数据集上与 SOTA 方法的全面定量比较结果表重点关注 HAFNet 各列的最优值加粗标注。关键结论NUAA-SIRSTIoU79.19%超第二名 SCTransNet/DNANet 的 75.46%/76.34% 约 2.62%高达97.72%低至14.06×10⁻⁶F1 达88.39%NUDT-SIRSTIoU96.28%超第二名约 3.52%达到惊人的99.26%仅1.79×10⁻⁶F198.10%IRSTD-1KnIoU69.23%超第二名约 2.87%F180.91%传统方法与深度学习方法差距明显最佳传统方法 NOLC 在 NUAA-SIRST 上 IoU 仅 17.70%不足深度学习方法的三分之一。ROC 曲线分析配图此处配Fig. 6——三个数据集上不同方法的 ROC 曲线对比图HAFNet 的曲线始终位于其他方法之上在 NUAA-SIRST 和 NUDT-SIRST 上 AUC 最大。HAFNet 的 ROC 曲线在三个数据集上均位于所有竞争方法之上表明在检测概率与误报率之间取得了最优权衡尤其在低误报率区间优势更为突出。5.2 噪声鲁棒性评估在 NoisySIRST 数据集向 NUAA-SIRST 注入不同强度高斯白噪声上与其他深度学习方法对比配图此处配Table III——NoisySIRST 数据集上不同噪声强度下各方法的 IoU/nIoU 对比表。σ_n10SNR5.35IoU79.23%、nIoU78.16%分别超出第二名UIUNet1.46%和2.45%σ_n20SNR3.69IoU72.90%、nIoU72.78%仍保持领先σ_n30SNR2.76IoU69.97%、nIoU69.50%在极端噪声下仍具竞争力。整体结果验证了 HAFNet 在噪声环境下的稳定性DSPM 的多尺度感知与 HFFE/HFFD 的层级特征融合共同提供了对噪声的内在抵抗力。5.3 定性结果配图此处配Fig. 7——在 NUAA-SIRST、IRSTD-1K、NUDT-SIRST 三个数据集上各方法检测结果可视化红框正确检测蓝框漏检黄框误报覆盖海面、天空、复杂地面等多种典型场景。可视化对比揭示以下规律传统方法在 Fig. 7(c)(f) 等杂乱背景下产生大量误报深度学习方法误报率明显更低在 Fig. 7(e) 中DNANet、RPCANet、MSHNet、SCTransNet 均出现漏检UIUNet 和 HAFNet 均能检测到全部目标但HAFNet 检测到的目标形状更接近真值Ground Truth体现了 HFFD 在目标形态保持和分割精度上的优势。配图此处配Fig. 8——IRSTD-1K 数据集上各方法的 3D 可视化与 Grad-CAM 可视化对比直观展示 HAFNet 更精准的目标响应区域和更低的背景激活。配图此处配Fig. 9——IRSTD-1K 数据集上的特征可视化对比Grad-CAM红框真正例黄框假正例绿框漏检HAFNet 假正例和漏检数量最少。六、消融实验6.1 各模块贡献分析以标准 U-Net 为基线逐步加入 DS、DSPM、HFFE、HFFD配图此处配Table IV——各模块消融实验结果平均 IoU%/nIoU%/F1%以及对应的逐步提升趋势。加入 DSIoU/nIoU/F1 从 75.02/75.94/85.47 提升至 75.17/76.04/85.56提升有限但稳定加入 DSPM最大单模块提升IoU/nIoU/F1 跃升至 79.95/81.11/88.39分别提升约 4.93%/5.17%/2.92%加入 HFFE进一步提升至 80.71/81.51/88.84有效降低误报率加入 HFFD最终达到81.14/82.11/89.13相比基线提升6.12%/6.17%/3.66%。配图此处配Fig. 10——不同模块组合的 Grad-CAM 可视化直观展示各模块对目标激活区域的逐步改善过程。6.2 DSPM 特征提取能力对比将 DSPM 分别替换为 DNANet 的密集嵌套交互模块DNIM和 ResNet 残差块RB构造变体 H.DNIM 和 H.RB配图此处配Table VIII——不同特征提取模块的变体对比实验结果IoU%/nIoU%/F1%。HAFNet含 DSPM在两个数据集上均取得最优表现H.RB 和 H.DNIM 存在大量误报和漏检印证了专为红外图像设计的 DSPM 相比通用分类骨干的显著优势。配图此处配Fig. 11——不同特征提取模块变体的可视化检测结果对比红框正确绿框漏检黄框误报。6.3 网络深度影响分析配图此处配Table IX——不同网络深度3~6 层的参数量、FLOPs 及检测性能对比表。3 层IoU/nIoU 78.10%/80.26%NUAA-SIRST性能已相当可观4 层78.38%/80.35%受益于更深的特征表示5 层HAFNet取得最佳性能6 层性能开始下降过度特征压缩细粒度目标细节丢失。综合模型复杂度与检测精度五层架构为最优设计。七、模型复杂度分析配图此处配Table X——各方法参数量M、FLOPsG、推理延迟ms对比表。MSHNet 和 DNANet 参数量小、计算量低但检测性能相对有限UIUNet 检测精度高但参数量高达 50.54M、FLOPs 54.43G实用部署受限HAFNet 以适中的 13.55M 参数和 24.68G FLOPs 实现了 SOTA 检测性能在精度与效率之间取得了良好平衡GPU 推理延迟仅 24.77ms具备实际应用价值。八、总结与展望主要贡献回顾DSPM双分支标准卷积 膨胀卷积 双重注意力SAM CAM专为红外图像设计的特征提取骨干有效替代可见光预训练骨干网络HFFE通过跨层 SAM、SWM 互校准和 CoordAtt 位置编码实现相邻编码层的层级特征融合增强多尺度语义一致性HFFD融合三路异质特征编码器细节、层级语义、解码器上下文通过多尺度渐进增强实现高保真目标重建全面实验验证在 NUAA-SIRST、IRSTD-1K、NUDT-SIRST 和 NoisySIRST 四个数据集上均超越现有 SOTA 方法。当前局限双分支特征提取和逐层融合模块引入了较多参数和计算量13.55M 参数在资源受限的嵌入式平台上实时部署面临挑战。未来方向作者计划面向轻量化模型设计和推理优化提升 HAFNet 在实际应用场景中的可部署性。