【目标检测系列·第 01 篇】全景图从滑动窗口到 Transformer——目标检测的前世今生系列前言目标检测是计算机视觉最核心的任务之一——“在哪里”定位“是什么”分类。从 2001 年 Viola-Jones 实时人脸检测到 2026 年 YOLO11 百帧推理、Grounding DINO 零样本开放世界检测目标检测用 25 年时间走过了手工特征→CNN 革命→实时检测→Anchor-Free→Transformer 五大时代。本系列将从全景图出发用六篇文章逐层拆解目标检测的每个核心维度。这是第一篇全景图——从滑动窗口到 Transformer 的前世今生。 文章目录️ 一、五大时代目标检测的历史演进 二、六大核心概念理解目标检测的钥匙 三、2026 前沿格局与系列路线图️ 一、五大时代目标检测的历史演进1.1 手工特征时代2001-2012从 Viola-Jones 到 DPM目标检测的起点可以追溯到 2001 年——Viola 和 Jones 发明了第一个实时人脸检测器。这个系统用 Haar-like 特征 AdaBoost 分类器 级联结构在当时的硬件上实现了 15 FPS 的人脸检测被广泛部署在数码相机中。Viola-Jones 的三大创新Haar-like 特征边缘/线/中心特征的矩形模板、AdaBoost 特征选择从大量候选特征中选出最有效的少量特征、级联分类器逐级过滤早期拒绝负样本后期精细判断。这三个思想至今仍在影响检测器设计——由粗到细的级联思想在 Cascade R-CNN 中得到了延续。HOG SVM2005。Dalal 和 Triggs 提出了方向梯度直方图HOG特征 支持向量机SVM的行人检测方案。HOG 特征通过统计局部梯度方向分布来描述形状对光照变化鲁棒。HOG SVM 成为行人检测的标准方案至今仍在 OpenCV 中广泛使用。DPM2008-2010。可变形部件模型Deformable Part Model是手工特征时代的巅峰之作。核心思想目标不是刚性的整体而是由多个可变形部件组成——人由头、躯干、四肢组成各部件之间有弹簧连接。DPM 用隐变量 SVM 同时学习部件位置和模型参数在 PASCAL VOC 上取得了当时最好的结果。DPM 的部件建模思想在后来的特征金字塔网络FPN中得到了呼应——不同层级的特征对应不同尺度的部件。手工特征时代的教训特征工程的天花板——HOG/SIFT 等手工特征的表达能力有限无法应对复杂场景的巨大变化。1.2 CNN 革命时代2012-2015从 AlexNet 到 R-CNN2012 年AlexNet 在 ImageNet 分类竞赛中碾压传统方法深度学习时代正式开启。目标检测也迎来了 CNN 革命。R-CNN2014。Girshick 等人提出了 R-CNNRegions with CNN features这是深度学习目标检测的开山之作。核心思路极其直接先用 Selective Search 生成约 2000 个候选区域再用 CNN 提取每个区域的特征最后用 SVM 分类。R-CNN 在 VOC 上将 mAP 从 35% 提升到 58%但速度极慢——每张图需要 47 秒2000 次 CNN 前向传播。SPPNet2014和Fast R-CNN2015解决了 R-CNN 的速度问题。核心创新是共享卷积——整张图只做一次 CNN 前向传播然后从特征图上裁剪候选区域ROI Pooling。Fast R-CNN 将速度从 47 秒/图提升到 0.3 秒/图但 Selective Search 仍是瓶颈——每张图需要 2 秒生成候选区域。Faster R-CNN2015。Ren 等人提出了区域提议网络RPN用神经网络替代 Selective Search 生成候选区域——这是目标检测史上最重要的里程碑之一。RPN 在特征图上滑动用 Anchor 机制生成多尺度多比例的候选框几乎零成本地生成高质量候选区域。Faster R-CNN 实现了端到端训练速度达到 17 FPS精度超过所有前代。CNN 革命时代的教训深度特征远超手工特征——CNN 学到的特征表达能力是 HOG/SIFT 无法比拟的。1.3 实时检测时代2015-2018YOLO 开创单阶段Faster R-CNN 虽然叫Faster但 17 FPS 远不能满足实时需求。YOLO 的出现改变了一切。YOLOv12016。Redmon 等人提出了 You Only Look Once——将检测视为单次回归问题输入图像直接输出 7×7×30 的张量包含所有网格的边界框和类别概率。YOLOv1 达到 45 FPSFast YOLO 155 FPS但精度不如 Faster R-CNN——特别是小目标检测较差。SSD2016。Liu 等人提出了 Single Shot MultiBox Detector在多个尺度的特征图上做检测用 Anchor 机制处理多尺度目标。SSD 在速度和精度之间取得了更好的平衡。YOLOv2/v32017-2018。YOLOv2 引入了 Anchor、Batch Normalization、多尺度训练YOLOv3 引入了 FPN 结构和多标签分类。YOLOv3 在 COCO 上达到 33.0 mAP0.5:0.95速度 20 FPS——成为当时实时检测的标杆。实时检测时代的教训速度和精度可以兼得——单阶段检测器证明了实时和高精度不是对立的。1.4 Anchor-Free 时代2019-2020简化范式Anchor 机制虽然有效但带来了诸多问题需要手动设计 Anchor 尺寸和比例、Anchor 与 GT 的匹配规则复杂、正负样本不平衡严重。Anchor-Free 运动试图去掉 Anchor简化检测范式。CornerNet2018。预测目标的左上角和右下角两个关键点然后组合成边界框。开创了基于关键点的检测范式。CenterNet2019。预测目标中心点然后回归宽高。极简设计——一个点 两个回归值 一个检测框。FCOS2019。全卷积单阶段检测器——每个像素点预测到边界框四条边的距离。FCOS 证明了 Anchor-Free 可以达到 Anchor-Based 同等甚至更好的精度且设计更简洁。Anchor-Free 时代的教训简单就是力量——去掉 Anchor 不仅简化了设计还避免了超参数调优的痛苦。1.5 Transformer 时代2020-至今端到端与开放世界DETR2020。Carion 等人提出了 Detection Transformer——用 Transformer 编码器-解码器替代所有手工设计组件无需 Anchor、无需 NMS、无需启发式规则。DETR 用匈牙利匹配做二分匹配实现真正的端到端检测。但 DETR 训练收敛极慢500 epoch小目标检测较差。Deformable DETR2021。用可变形注意力替代全局注意力只关注参考点附近的少量采样点——训练收敛速度提升 10 倍小目标检测大幅改善。DINO2022和DAB-DETR2022。引入了去噪训练和 Anchor 查询进一步加速收敛和提升精度。DINO 在 COCO 上达到 63.2 mAP——首次在精度上超越所有传统方法。RT-DETR2023和RF-DETR2026。百度开源的实时 DETR用高效混合注意力实现 70 FPS。RF-DETR 用 NAS 搜索最优架构成为首个实时性能超越 YOLO 的 Transformer 检测器ICLR 2026。Grounding DINO2024和SAM2023。开放世界检测——检测任意类别无需训练。Grounding DINO 用文本-图像融合实现零样本检测SAM 用提示驱动实现分割一切。检测与分割的边界被彻底打破。Transformer 时代的教训端到端不是终点开放世界才是未来——从检测固定类别到检测任意类别。 二、六大核心概念理解目标检测的钥匙2.1 边界框Bounding Box边界框是目标检测最基本的表示——用矩形框定位目标位置。常用两种格式xyxy左上角右下角坐标和xywh中心点宽高。边界框回归就是预测框与真实框之间的偏移量用 Smooth L1 Loss 或 IoU Loss 优化。2.2 Anchor锚框Anchor 是预定义的参考框——在特征图每个位置放置多个不同尺度和比例的框作为预测的起点。模型只需预测 Anchor 到真实框的偏移量而非从零开始预测位置。Anchor 的设计尺寸、比例、数量是检测器性能的关键超参数——也是 Anchor-Free 运动想要去掉它的原因。2.3 IoU交并比IoU 衡量两个框的重叠程度IoU 交集面积 / 并集面积。IoU 在目标检测中无处不在训练时作为正负样本匹配标准、回归损失函数IoU Loss/GIoU/DIoU/CIoU、NMS 去重标准、评估指标mAP 计算。2.4 NMS非极大值抑制同一个目标可能被多个框检测到NMS 保留得分最高的框删除与它重叠过高的其他框。NMS 是后处理步骤——DETR 用匈牙利匹配替代 NMS实现了真正的端到端检测。2.5 mAP平均精度均值mAP 是目标检测的标准评估指标。在多个 IoU 阈值0.50:0.05:0.95上计算每个类别的 AP再取均值。mAP0.5 是宽松指标IoU0.5 即算正确mAP0.5:0.95 是严格指标平均多个 IoU 阈值。COCO 排行榜以 mAP0.5:0.95 为主要排名依据。2.6 FPN特征金字塔网络FPN 是目标检测最重要的架构创新之一——用自顶向下的路径和横向连接构建多尺度特征金字塔。大目标在高层特征上检测语义强、分辨率低小目标在低层特征上检测语义弱、分辨率高。FPN 之后PANet、BiFPN 等变体进一步改进了多尺度特征融合。 三、2026 前沿格局与系列路线图3.1 三极格局速度·精度·开放2026 年目标检测呈三极格局速度极YOLO 系列100 FPS工业部署首选、精度极DINO 系列mAP 最高学术 SOTA、开放极Grounding DINO/SAM零样本任意类别。三极正在融合RT-DETR 精度 速度Grounding DINO 精度 开放YOLO-World 速度 开放。3.2 系列路线图本系列将从全景图出发用六篇文章逐层拆解目标检测的每个核心维度第 01 篇·全景图本文目标检测从哪来到哪去——五大时代、六大概念、三大范式。第 02 篇·两阶段检测器R-CNN → Fast R-CNN → Faster R-CNN → Cascade R-CNN。从 Selective Search 到 RPN从 ROI Pooling 到 ROI Align从单级到级联——精度之王的演进之路。第 03 篇·YOLO 系列YOLOv1 → YOLOv5 → YOLOv8 → YOLO11。十年迭代从开创单阶段到成为工业标配——速度之王的十年传奇。第 04 篇·Anchor-Free 与 DETRFCOS → CenterNet → DETR → Deformable DETR → RT-DETR。从去掉 Anchor 到去掉 NMS从学术探索到实时部署——范式革新的完整路径。第 05 篇·开放世界与基础模型Grounding DINO · SAM · OWL-ViT · YOLO-World。从固定类别到任意类别从检测到分割——视觉基础模型的前沿。第 06 篇·部署与未来量化·剪枝·蒸馏·TensorRT·ONNX·NCNN·3D 检测·多模态——从实验室到生产的工程实战。 全文速查表五大时代时代时间核心方法代表关键突破手工特征2001-2012滑动窗口分类器VJ/HOG/DPM实时人脸检测CNN 革命2012-2015区域提议CNNR-CNN/Faster R-CNN深度特征提取实时检测2015-2018Anchor单阶段YOLO/SSD实时检测Anchor-Free2019-2020点/角点预测FCOS/CenterNet简化范式Transformer2020-至今注意力匹配DETR/RT-DETR端到端开放世界六大核心概念概念一句话解释边界框矩形框定位目标——xyxy 或 xywhAnchor预定义参考框——预测偏移量而非绝对位置IoU交并比——无处不在的重叠度量NMS非极大值抑制——去重后处理mAP平均精度均值——标准评估指标FPN特征金字塔——多尺度检测的基石一句话总结目标检测的历史是三条线索的交织特征演进手工特征→CNN→Transformer、范式演进滑动窗口→区域提议→单阶段→端到端、速度演进47s/图→100FPS。五大时代手工特征VJ/HOG/DPM实时但精度低→ CNN 革命R-CNN/Faster R-CNN精度飞跃但速度慢→ 实时检测YOLO/SSD速度精度兼得→ Anchor-FreeFCOS/CenterNet简化范式→ TransformerDETR/RT-DETR/Grounding DINO端到端开放世界。六大核心概念边界框定位表示、Anchor参考框、IoU重叠度量、NMS去重后处理、mAP评估指标、FPN多尺度基石。三大范式两阶段精度优先、单阶段速度优先、端到端范式革新。2026 三极格局速度极YOLO 100FPS、精度极DINO mAP 最高、开放极Grounding DINO/SAM 零样本。三极正在融合RT-DETR精度速度Grounding DINO精度开放YOLO-World速度开放。特征是基础范式是灵魂速度是生命线——理解了这三条线索就理解了目标检测的过去、现在和未来。参考链接Viola-Jones (CVPR 2001)R-CNN (Girshick et al., 2014)Faster R-CNN (Ren et al., 2015)YOLO (Redmon et al., 2016)DETR (Carion et al., 2020)Grounding DINO (Liu et al., 2024)系列预告第 02 篇将深入两阶段检测器——从 R-CNN 的开创到 Faster R-CNN 的 RPN 革命拆解精度之王的演进之路。