图像分类：从传统方法到深度学习

张

张建站

2026/5/13 8:36:28

10分钟阅读

图像分类从传统方法到深度学习1. 技术分析1.1 图像分类技术演进图像分类经历了从传统方法到深度学习的演进图像分类技术路线传统方法: SIFT/SURF SVM 深度学习: AlexNet → ResNet → ViT1.2 分类方法对比方法特征提取模型效果适用场景SIFT SVM手工特征传统模型中小规模AlexNetCNN深度学习高中等规模ResNet残差CNN深度学习很高大规模ViTTransformer预训练极高大规模1.3 图像分类指标图像分类评估指标 Top-1 准确率: 最可能类别正确比例 Top-5 准确率: 前5个预测中包含正确类别 Confusion Matrix: 混淆矩阵2. 核心功能实现2.1 传统图像分类import cv2 import numpy as np from sklearn.svm import SVC from sklearn.preprocessing import StandardScaler class SIFTClassifier: def __init__(self): self.sift cv2.SIFT_create() self.svm SVC() self.scaler StandardScaler() def extract_features(self, image): gray cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) keypoints, descriptors self.sift.detectAndCompute(gray, None) if descriptors is not None: return descriptors.mean(axis0) else: return np.zeros(128) def train(self, images, labels): features [self.extract_features(img) for img in images] features np.array(features) features self.scaler.fit_transform(features) self.svm.fit(features, labels) def predict(self, image): features self.extract_features(image) features self.scaler.transform([features]) return self.svm.predict(features)[0] class HOGClassifier: def __init__(self): self.hog cv2.HOGDescriptor() self.svm SVC() def extract_features(self, image): gray cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) features self.hog.compute(gray) return features.flatten() def train(self, images, labels): features [self.extract_features(img) for img in images] features np.array(features) self.svm.fit(features, labels) def predict(self, image): features self.extract_features(image) return self.svm.predict([features])[0]2.2 CNN 图像分类import torch import torch.nn as nn import torch.nn.functional as F class SimpleCNN(nn.Module): def __init__(self, num_classes10): super().__init__() self.conv_layers nn.Sequential( nn.Conv2d(3, 32, kernel_size3, padding1), nn.ReLU(), nn.MaxPool2d(2, 2), nn.Conv2d(32, 64, kernel_size3, padding1), nn.ReLU(), nn.MaxPool2d(2, 2), nn.Conv2d(64, 128, kernel_size3, padding1), nn.ReLU(), nn.MaxPool2d(2, 2) ) self.fc_layers nn.Sequential( nn.Linear(128 * 4 * 4, 512), nn.ReLU(), nn.Linear(512, num_classes) ) def forward(self, x): x self.conv_layers(x) x x.view(-1, 128 * 4 * 4) x self.fc_layers(x) return x class AlexNet(nn.Module): def __init__(self, num_classes1000): super().__init__() self.features nn.Sequential( nn.Conv2d(3, 64, kernel_size11, stride4, padding2), nn.ReLU(inplaceTrue), nn.MaxPool2d(kernel_size3, stride2), nn.Conv2d(64, 192, kernel_size5, padding2), nn.ReLU(inplaceTrue), nn.MaxPool2d(kernel_size3, stride2), nn.Conv2d(192, 384, kernel_size3, padding1), nn.ReLU(inplaceTrue), nn.Conv2d(384, 256, kernel_size3, padding1), nn.ReLU(inplaceTrue), nn.Conv2d(256, 256, kernel_size3, padding1), nn.ReLU(inplaceTrue), nn.MaxPool2d(kernel_size3, stride2) ) self.classifier nn.Sequential( nn.Dropout(), nn.Linear(256 * 6 * 6, 4096), nn.ReLU(inplaceTrue), nn.Dropout(), nn.Linear(4096, 4096), nn.ReLU(inplaceTrue), nn.Linear(4096, num_classes) ) def forward(self, x): x self.features(x) x x.view(-1, 256 * 6 * 6) x self.classifier(x) return x2.3 Vision Transformer 实现class PatchEmbedding(nn.Module): def __init__(self, img_size224, patch_size16, in_channels3, embed_dim768): super().__init__() self.img_size img_size self.patch_size patch_size self.num_patches (img_size // patch_size) ** 2 self.proj nn.Conv2d(in_channels, embed_dim, kernel_sizepatch_size, stridepatch_size) def forward(self, x): x self.proj(x) x x.flatten(2).transpose(1, 2) return x class TransformerBlock(nn.Module): def __init__(self, embed_dim, num_heads, mlp_ratio4.0): super().__init__() self.norm1 nn.LayerNorm(embed_dim) self.attn nn.MultiheadAttention(embed_dim, num_heads) self.norm2 nn.LayerNorm(embed_dim) mlp_dim int(embed_dim * mlp_ratio) self.mlp nn.Sequential( nn.Linear(embed_dim, mlp_dim), nn.GELU(), nn.Linear(mlp_dim, embed_dim) ) def forward(self, x): x x self.attn(self.norm1(x), self.norm1(x), self.norm1(x))[0] x x self.mlp(self.norm2(x)) return x class ViT(nn.Module): def __init__(self, img_size224, patch_size16, in_channels3, embed_dim768, num_heads12, num_layers12, num_classes1000): super().__init__() self.patch_embed PatchEmbedding(img_size, patch_size, in_channels, embed_dim) self.cls_token nn.Parameter(torch.randn(1, 1, embed_dim)) num_patches self.patch_embed.num_patches self.pos_embed nn.Parameter(torch.randn(1, num_patches 1, embed_dim)) self.blocks nn.Sequential(*[ TransformerBlock(embed_dim, num_heads) for _ in range(num_layers) ]) self.norm nn.LayerNorm(embed_dim) self.head nn.Linear(embed_dim, num_classes) def forward(self, x): x self.patch_embed(x) cls_tokens self.cls_token.expand(x.size(0), -1, -1) x torch.cat([cls_tokens, x], dim1) x x self.pos_embed x self.blocks(x) x self.norm(x) return self.head(x[:, 0])3. 性能对比3.1 图像分类方法对比方法Top-1Top-5模型大小推理速度SIFT SVM60%80%小快AlexNet83%97%240MB中ResNet-5076%93%98MB快ViT-Base85%98%340MB中ViT-Large87%99%1.2GB慢3.2 不同数据集表现数据集SIFTSVMAlexNetResNet-50ViTCIFAR-1075%92%95%97%ImageNet60%83%76%85%MNIST98%99%99.7%99.8%3.3 数据增强效果增强方式准确率提升计算开销随机裁剪2%低随机翻转1%低色彩抖动1%低MixUp2%中CutMix2%中4. 最佳实践4.1 图像分类模型选择def select_classifier(task_type, data_size): if data_size 1000: return SIFTClassifier() elif data_size 10000: return SimpleCNN(num_classes10) else: return ViT(num_classes10) class ClassifierFactory: staticmethod def create(config): if config[type] traditional: return SIFTClassifier() elif config[type] cnn: return SimpleCNN(**config[params]) elif config[type] vit: return ViT(**config[params])4.2 图像分类训练流程class ImageClassificationTrainer: def __init__(self, model, optimizer, scheduler, loss_fn, devicecuda): self.model model.to(device) self.optimizer optimizer self.scheduler scheduler self.loss_fn loss_fn self.device device def train_step(self, images, labels): self.optimizer.zero_grad() images images.to(self.device) labels labels.to(self.device) outputs self.model(images) loss self.loss_fn(outputs, labels) loss.backward() self.optimizer.step() self.scheduler.step() return loss.item() def evaluate(self, dataloader): self.model.eval() correct 0 total 0 with torch.no_grad(): for images, labels in dataloader: images images.to(self.device) labels labels.to(self.device) outputs self.model(images) predictions torch.argmax(outputs, dim1) correct (predictions labels).sum().item() total labels.size(0) return correct / total5. 总结图像分类是计算机视觉的基础任务传统方法适合小规模数据快速简单CNN深度学习主流方法效果好ViTTransformer 在图像领域的应用效果最佳数据增强提升模型泛化能力对比数据如下ViT 在大规模数据上表现最好CNN 在中等规模数据上性价比最高数据增强可提升 5-10% 准确率推荐使用预训练模型进行微调

语义分割：从 FCN 到 Segment Anything

语义分割：从 FCN 到 Segment Anything 1. 技术分析 1.1 语义分割技术演进语义分割经历了从全卷积网络到大模型的演进： 语义分割技术路线FCN (2015) → U-Net (2015) → DeepLab (2016) → Mask R-CNN (2017) → SAM (2023)1.2 分割方法对比方法类型mIo…...

2026/5/13 8:36:27 阅读更多 →

$AI智能体如何革新LaTeX写作：PaperDebugger深度集成Overleaf实践$

AI智能体如何革新LaTeX写作：PaperDebugger深度集成Overleaf实践

1. 项目概述：当AI助手遇上LaTeX写作如果你是一名科研工作者、研究生，或者任何需要和LaTeX文档打交道的人，那么下面这个场景你一定不陌生：深夜，你对着Overleaf编辑器里密密麻麻的代码和公式，反复修改着论文的…...

2026/5/13 8:32:34 阅读更多 →

WeChatExporter：在Mac上完整备份微信聊天记录的终极指南

WeChatExporter：在Mac上完整备份微信聊天记录的终极指南【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否担心珍贵的微信聊天记录会因为手机丢失、系统升…...

2026/5/13 8:32:17 阅读更多 →

OpenClaw智能模型路由：基于任务复杂度与成本约束的动态调度实践

1. 项目概述：一个聪明的AI模型调度器如果你正在使用OpenClaw，并且手头同时接入了多个不同能力、不同成本的AI模型（比如Kimi、GPT、Claude等），那么你很可能遇到过这样的困扰：一个简单的文本总结任务&#xf…...

2026/5/12 23:12:06 阅读更多 →

机器学习的数据合成（二）

原文：annas-archive.org/md5/9d5ab593b867c3a47f27572d629020aa 译者：飞龙协议：CC BY-NC-SA 4.0 第十四章：合成到真实领域自适应本章向您介绍了一个常见的问题，通常限制了合成数据的使用性，称为领域差距…...

2026/5/12 14:55:27 阅读更多 →

cann/catlass MX FP8批量矩阵乘

MXFP8BatchMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能介绍演示 Ascend 950 上的 MX FP8 矩阵乘：A、B …...

2026/5/12 17:56:15 阅读更多 →