从LeNet到ResNeXt：用PyTorch复现10大经典CNN架构（附完整代码与训练技巧）

张

张建站

2026/4/18 12:26:14

10分钟阅读

从LeNet到ResNeXt用PyTorch复现10大经典CNN架构附完整代码与训练技巧1998年Yann LeCun在支票识别系统中首次应用卷积神经网络时恐怕不会想到二十年后CNN会成为计算机视觉的基石。如今当我们翻阅这些经典论文最震撼的往往不是模型的准确率数字而是先驱者们如何在有限算力下突破认知边界——比如2012年AlexNet用ReLU激活函数解决梯度消失或是2015年ResNet用残差连接让千层网络成为可能。作为实践者理解这些架构最好的方式就是亲手实现它们。本文将用PyTorch带你复现10个里程碑式CNN模型每个实现都包含三个关键部分架构核心用代码还原论文中的创新设计训练技巧针对不同模型的调参经验性能对比在CIFAR-10上的实测结果1. 环境配置与基础工具在开始构建模型前需要配置适合深度学习开发的环境。推荐使用Python 3.8和PyTorch 1.10的组合这两个版本在API稳定性和功能支持上达到较好平衡。1.1 依赖安装conda create -n cnn python3.8 conda install pytorch torchvision torchaudio cudatoolkit11.3 -c pytorch pip install matplotlib tqdm tensorboard1.2 数据加载器实现所有模型将统一使用CIFAR-10数据集进行训练对比。这里实现一个增强版的数据加载器from torchvision import transforms train_transform transforms.Compose([ transforms.RandomCrop(32, padding4), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.4914, 0.4822, 0.4465), (0.247, 0.243, 0.261)) ]) test_transform transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.4914, 0.4822, 0.4465), (0.247, 0.243, 0.261)) ])提示CIFAR-10图像尺寸为32x32对于原始设计处理224x224输入的模型如AlexNet需要调整第一个卷积层的stride和padding2. 从LeNet-5开始CNN的雏形1998年的LeNet-5架构虽然简单但已经包含了现代CNN的所有核心要素。我们用PyTorch实现时特别要注意两点原始论文使用tanh激活而非ReLU池化层是可训练的现代网络已弃用此设计2.1 模型实现import torch.nn as nn class LeNet5(nn.Module): def __init__(self): super().__init__() self.conv1 nn.Conv2d(3, 6, 5, padding2 if input_size32 else 0) self.act1 nn.Tanh() self.pool1 nn.AvgPool2d(2) # 原始版本有可训练参数 self.conv2 nn.Conv2d(6, 16, 5) self.act2 nn.Tanh() self.pool2 nn.AvgPool2d(2) self.fc1 nn.Linear(16*5*5, 120) self.act3 nn.Tanh() self.fc2 nn.Linear(120, 84) self.act4 nn.Tanh() self.fc3 nn.Linear(84, 10) def forward(self, x): x self.pool1(self.act1(self.conv1(x))) x self.pool2(self.act2(self.conv2(x))) x x.view(x.size(0), -1) x self.act3(self.fc1(x)) x self.act4(self.fc2(x)) return self.fc3(x)2.2 训练技巧使用SGD优化器学习率设为0.01关闭weight decay原始论文未使用正则化训练50个epoch约达到68%测试准确率注意LeNet-5最初设计用于灰度图像输入通道数为1。处理彩色图像时需要调整第一个卷积层的输入通道3. AlexNet深度学习的引爆点2012年AlexNet在ImageNet竞赛中一战成名其成功主要来自三大创新使用ReLU解决梯度消失引入Dropout防止过拟合首次在CNN中使用GPU加速3.1 关键实现细节class AlexNet(nn.Module): def __init__(self): super().__init__() self.features nn.Sequential( nn.Conv2d(3, 64, kernel_size11, stride4, padding2), nn.ReLU(inplaceTrue), nn.MaxPool2d(kernel_size3, stride2), nn.Conv2d(64, 192, kernel_size5, padding2), nn.ReLU(inplaceTrue), nn.MaxPool2d(kernel_size3, stride2), nn.Conv2d(192, 384, kernel_size3, padding1), nn.ReLU(inplaceTrue), nn.Conv2d(384, 256, kernel_size3, padding1), nn.ReLU(inplaceTrue), nn.Conv2d(256, 256, kernel_size3, padding1), nn.ReLU(inplaceTrue), nn.MaxPool2d(kernel_size3, stride2), ) self.classifier nn.Sequential( nn.Dropout(), nn.Linear(256 * 6 * 6, 4096), nn.ReLU(inplaceTrue), nn.Dropout(), nn.Linear(4096, 4096), nn.ReLU(inplaceTrue), nn.Linear(4096, 10), ) def forward(self, x): x self.features(x) x x.view(x.size(0), 256 * 6 * 6) return self.classifier(x)3.2 训练优化由于原始AlexNet设计用于ImageNet1000类在CIFAR-10上需要调整将第一个卷积层的stride从4改为1使用0.9动量的SGD初始学习率0.01添加学习率衰减每20个epoch乘以0.1训练100个epoch可达82%准确率4. VGG-16深度与规整的美学牛津大学Visual Geometry Group提出的VGG网络证明了深度的重要性。其核心设计哲学是仅使用3×3卷积堆叠每经过池化层通道数翻倍全连接层占据大部分参数4.1 模块化实现def make_layers(cfg): layers [] in_channels 3 for v in cfg: if v M: layers [nn.MaxPool2d(kernel_size2, stride2)] else: conv2d nn.Conv2d(in_channels, v, kernel_size3, padding1) layers [conv2d, nn.ReLU(inplaceTrue)] in_channels v return nn.Sequential(*layers) class VGG16(nn.Module): def __init__(self): super().__init__() cfg [64, 64, M, 128, 128, M, 256, 256, 256, M, 512, 512, 512, M, 512, 512, 512, M] self.features make_layers(cfg) self.classifier nn.Sequential( nn.Linear(512 * 1 * 1, 4096), # 原始为512*7*7CIFAR-10调整 nn.ReLU(True), nn.Dropout(), nn.Linear(4096, 4096), nn.ReLU(True), nn.Dropout(), nn.Linear(4096, 10), ) def forward(self, x): x self.features(x) x x.view(x.size(0), -1) return self.classifier(x)4.2 训练注意事项使用Xavier初始化卷积层权重批量大小不宜过大推荐32-64学习率初始设为0.05每30个epoch衰减训练150个epoch可达89%准确率5. ResNet-50残差学习的革命当网络深度超过20层后传统CNN会出现梯度消失问题。ResNet通过残差连接skip connection解决了这一难题其核心公式可以表示为y F(x, {W_i}) x5.1 残差块实现class Bottleneck(nn.Module): expansion 4 def __init__(self, in_planes, planes, stride1): super().__init__() self.conv1 nn.Conv2d(in_planes, planes, kernel_size1, biasFalse) self.bn1 nn.BatchNorm2d(planes) self.conv2 nn.Conv2d(planes, planes, kernel_size3, stridestride, padding1, biasFalse) self.bn2 nn.BatchNorm2d(planes) self.conv3 nn.Conv2d(planes, self.expansion*planes, kernel_size1, biasFalse) self.bn3 nn.BatchNorm2d(self.expansion*planes) self.shortcut nn.Sequential() if stride ! 1 or in_planes ! self.expansion*planes: self.shortcut nn.Sequential( nn.Conv2d(in_planes, self.expansion*planes, kernel_size1, stridestride, biasFalse), nn.BatchNorm2d(self.expansion*planes) ) def forward(self, x): out F.relu(self.bn1(self.conv1(x))) out F.relu(self.bn2(self.conv2(out))) out self.bn3(self.conv3(out)) out self.shortcut(x) return F.relu(out)5.2 训练配置使用He初始化卷积层权重优化器选择SGD动量0.9初始学习率0.1学习率余弦衰减策略配合Label Smoothing正则化训练200个epoch可达94%准确率6. ResNeXt-50基数优于深度ResNeXt提出基数cardinality概念通过在残差块内引入并行路径来提升模型容量。其计算量公式为FLOPs O(输入通道 × 输出通道 × 基数 × 卷积核面积)6.1 分组卷积实现class ResNeXtBlock(nn.Module): def __init__(self, in_channels, out_channels, stride1, cardinality32): super().__init__() mid_channels out_channels // 2 self.conv1 nn.Conv2d(in_channels, mid_channels, 1, biasFalse) self.bn1 nn.BatchNorm2d(mid_channels) self.conv2 nn.Conv2d(mid_channels, mid_channels, 3, stridestride, padding1, groupscardinality, biasFalse) self.bn2 nn.BatchNorm2d(mid_channels) self.conv3 nn.Conv2d(mid_channels, out_channels, 1, biasFalse) self.bn3 nn.BatchNorm2d(out_channels) self.shortcut nn.Sequential() if stride ! 1 or in_channels ! out_channels: self.shortcut nn.Sequential( nn.Conv2d(in_channels, out_channels, 1, stridestride, biasFalse), nn.BatchNorm2d(out_channels) ) def forward(self, x): residual self.shortcut(x) x F.relu(self.bn1(self.conv1(x))) x F.relu(self.bn2(self.conv2(x))) x self.bn3(self.conv3(x)) return F.relu(x residual)6.2 性能对比在相同参数量下ResNeXt-50比ResNet-50在CIFAR-10上表现更优模型参数量测试准确率训练时间ResNet-5025.5M94.2%4.2hResNeXt-5025.0M95.1%5.1h7. 模型部署与优化完成训练后我们需要考虑如何在实际环境中高效部署这些模型。PyTorch提供了多种工具来优化推理性能7.1 模型量化model ResNet50() model.load_state_dict(torch.load(resnet50.pth)) quantized_model torch.quantization.quantize_dynamic( model, {nn.Linear, nn.Conv2d}, dtypetorch.qint8 ) torch.save(quantized_model.state_dict(), resnet50_quant.pth)7.2 ONNX导出dummy_input torch.randn(1, 3, 32, 32) torch.onnx.export(model, dummy_input, resnet50.onnx, input_names[input], output_names[output], dynamic_axes{input: {0: batch}, output: {0: batch}})8. 从代码看CNN演进史通过亲手实现这些经典架构我们可以清晰看到CNN发展的技术脉络结构简化从AlexNet的特殊设计到VGG的规整堆叠深度突破ResNet的残差连接解决了深度网络训练难题维度扩展ResNeXt通过基数概念开辟新方向效率优化MobileNet等轻量级架构的兴起每个时代的突破都源于对当时技术瓶颈的创造性解决。如今虽然Transformer在视觉领域崭露头角但CNN的许多设计思想仍在影响着新一代架构的发展。

Rust的匹配中的技巧使用

Rust的匹配技巧：让代码更优雅高效 Rust作为一门现代系统编程语言，其强大的模式匹配（Pattern Matching）功能是开发者处理复杂逻辑的利器。匹配不仅能让代码更简洁，还能在编译期捕获潜在错误，提升程序的健壮…...

2026/4/18 12:21:17 阅读更多 →

SensitivityMatcher：3D游戏鼠标灵敏度转换的终极免费方案

SensitivityMatcher：3D游戏鼠标灵敏度转换的终极免费方案【免费下载链接】SensitivityMatcher Script that can be used to convert your mouse sensitivity between different 3D games. 项目地址: https://gitcode.com/gh_mirrors/se/SensitivityMatcher …...

2026/4/18 12:19:45 阅读更多 →

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

4月15日，百度开源文生图模型ERNIE-Image模型，参数量仅8B，24GB显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。它基于单流 Diffusion Transformer（DiT）架构，并配有一个轻量级 Prompt Enhance…...

2026/4/18 12:17:37 阅读更多 →

Snyk 依赖性安全漏洞扫描工具实战指南：从安装到多语言项目扫描

1. Snyk工具与依赖安全漏洞扫描基础第一次听说Snyk是在去年参与一个金融项目时，我们的技术负责人突然要求所有依赖包必须通过安全扫描才能上线。当时团队里没人知道该怎么操作，直到发现了这个神器。Snyk本质上是个"依赖包安检仪"，…...

2026/4/17 10:30:59 阅读更多 →

mbed OS 6+ 嵌入式TFTP服务器设计与实现

1. TFTPServer项目概述TFTPServer 是一个面向 ARM mbed OS 平台的轻量级 TFTP（Trivial File Transfer Protocol）服务器实现，专为嵌入式以太网设备设计。其核心目标是在资源受限的 MCU（如 STM32F4/F7/H7、NXP LPC1768/LPC54608、Re…...

2026/4/17 10:31:01 阅读更多 →

Windows效率神器PowerToys：30+免费工具让你的电脑生产力翻倍

Windows效率神器PowerToys：30免费工具让你的电脑生产力翻倍【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/Powe…...

2026/4/17 10:31:03 阅读更多 →

RX63N驱动SSD1963显示控制器的HAL级配置指南

1. 项目概述Display_shield_config是为 Renesas GR-PEACH 开发板配套的显示扩展板（Display Shield）所设计的一套底层配置资源集合。GR-PEACH 是基于 Renesas RX63N 微控制器的高性能嵌入式开发平台，主频高达 100 MHz，内置 1 MB Fl…...

2026/4/17 10:31:04 阅读更多 →