076、Depthwise Separable Conv 替换 YOLOv11 全部 3×3 卷积:参数量减少 80% 的方案
076、Depthwise Separable Conv 替换 YOLOv11 全部 3乘3 卷积:参数量减少 80% 的方案一、从一次显存爆炸说起去年年底我在调一个YOLOv11s的工业检测模型,输入分辨率被迫提到1280×1280——客户要求检测小螺丝,原图640×640根本看不清。模型直接炸显存,24G的3090都扛不住。当时我盯着nvidia-smi里跳动的红色警告,第一反应是砍backbone层数,但精度掉得厉害。后来翻到MobileNet那篇论文,突然意识到:YOLOv11里那些3×3卷积,尤其是C2f模块里的,全是参数量黑洞。实测替换后,YOLOv11n的参数量从2.6M降到0.5M,推理速度在TensorRT下快了40%。代价是mAP掉了1.2个点——但通过后续的蒸馏和量化,最终反而比原版更快更准。今天就把这套方案完整拆开,代码直接复制就能跑。二、Depthwise Separable Conv 到底省在哪先看一个标准3×3卷积:输入通道C_in,输出通道C_out,卷积核尺寸3×3。参数量 = C_in × C_out × 3 × 3。假设C_in=64,C_out=128,那就是64×128×9=73,728个参数。Depthwise Separable Conv拆成两步:Depthwise卷积:每个输入通道单独做3×3