保姆级教程：用PyTorch-I3D模型提取ShanghaiTech数据集视频特征（附完整代码）

张

张建站

2026/4/7 15:24:14

10分钟阅读

保姆级教程：用PyTorch-I3D模型提取ShanghaiTech数据集视频特征（附完整代码）

从零实现ShanghaiTech视频特征提取PyTorch-I3D实战指南1. 环境配置与工具准备在开始特征提取之前我们需要搭建一个稳定可靠的工作环境。不同于简单的Python脚本运行视频处理涉及多个专业库的协同工作这里我推荐使用conda创建独立环境以避免依赖冲突。首先安装基础依赖建议使用Python 3.8版本conda create -n i3d_feature python3.8 conda activate i3d_feature pip install torch1.12.1cu113 torchvision0.13.1cu113 -f https://download.pytorch.org/whl/torch_stable.html接下来安装视频处理专用库pip install decord gluoncv imageio注意如果遇到CUDA相关错误请检查显卡驱动版本是否支持CUDA 11.3。可以使用nvidia-smi命令查看驱动版本。常见环境问题解决方案decord安装失败尝试从源码编译安装git clone --recursive https://github.com/dmlc/decord cd decord mkdir build cd build cmake .. -DUSE_CUDAON make -j8 pip install ..gluoncv版本冲突指定安装0.10.5版本pip install gluoncv0.10.5环境验证代码import torch, decord print(torch.__version__, torch.cuda.is_available()) print(decord.__version__)2. 模型准备与数据预处理2.1 获取预训练I3D模型PyTorch-I3D提供了基于ImageNet预训练的RGB和光流模型我们需要下载对应的权重文件import os from pytorch_i3d import InceptionI3d model_urls { rgb_imagenet: https://github.com/piergiaj/pytorch-i3d/raw/master/models/rgb_imagenet.pt, flow_imagenet: https://github.com/piergiaj/pytorch-i3d/raw/master/models/flow_imagenet.pt } def download_model(model_typergb): os.makedirs(models, exist_okTrue) filename f{model_type}_imagenet.pt if not os.path.exists(fmodels/{filename}): torch.hub.download_url_to_file(model_urls[filename], fmodels/{filename}) return InceptionI3d(num_classes400, spatial_squeezeTrue, nameMixed_5c)2.2 ShanghaiTech数据集处理技巧ShanghaiTech数据集包含两种格式的视频数据原始视频文件.avi格式预提取的视频帧图片序列对于不同输入格式我们需要采用不同的预处理策略输入类型处理方式优点缺点原始视频使用decord直接解码节省存储空间实时解码消耗计算资源视频帧从图片序列加载读取速度快占用大量磁盘空间推荐的数据目录结构ShanghaiTech/ ├── training/ │ ├── videos/ # 原始视频 │ └── frames/ # 视频帧序列 └── testing/ ├── videos/ └── frames/3. 特征提取核心实现3.1 视频片段划分策略I3D模型的标准输入是16帧的片段我们需要将任意长度的视频智能分割为符合要求的片段def split_video(frames, num_snippet32, snippet_size16): num_frames frames.shape[0] # 短视频处理策略 if num_frames num_snippet * snippet_size: start_indices list(range(0, num_frames, snippet_size)) end_indices start_indices[1:] [num_frames] # 处理最后一个不足16帧的片段 if (end_indices[-1] - start_indices[-1]) snippet_size: start_indices[-1] max(0, end_indices[-1] - snippet_size) # 长视频处理策略 else: segment_length int(np.ceil(num_frames / num_snippet)) start_indices list(range(0, num_frames, segment_length)) end_indices start_indices[1:] [num_frames] return [(s,e) for s,e in zip(start_indices, end_indices)]3.2 完整特征提取流程下面是一个经过优化的特征提取类实现包含了错误处理和性能优化class ShanghaiTechFeatureExtractor: def __init__(self, model_typergb, devicecuda): self.device torch.device(device) self.model download_model(model_type).to(self.device).eval() self.transforms self._get_transforms() def _get_transforms(self): return video_transforms.Compose([ video_transforms.Resize(256), video_transforms.CenterCrop(224), volume_transforms.ClipToTensor(), video_transforms.Normalize( mean[0.485, 0.456, 0.406], std[0.229, 0.224, 0.225]) ]) def extract_from_video(self, video_path): try: vr decord.VideoReader(video_path, ctxdecord.gpu(0)) frames vr.get_batch(np.arange(len(vr))).asnumpy() return self._process_frames(frames) except Exception as e: print(fError processing {video_path}: {str(e)}) return None def _process_frames(self, frames): # 应用预处理 clip self.transforms(frames) clip clip.unsqueeze(0).to(self.device) # 特征提取 with torch.no_grad(): features self.model.extract_features(clip) return features.squeeze().cpu().numpy()4. 实战技巧与性能优化4.1 批量处理加速技巧当需要处理整个数据集时我们可以采用多进程并行处理from multiprocessing import Pool def process_single_video(args): video_path, output_dir args extractor ShanghaiTechFeatureExtractor() features extractor.extract_from_video(video_path) if features is not None: video_id os.path.basename(video_path).split(.)[0] np.save(f{output_dir}/{video_id}.npy, features) def batch_process(video_dir, output_dir, num_workers4): os.makedirs(output_dir, exist_okTrue) video_paths [f{video_dir}/{f} for f in os.listdir(video_dir)] with Pool(num_workers) as p: p.map(process_single_video, [(v, output_dir) for v in video_paths])4.2 常见问题解决方案在实际项目中我们可能会遇到以下典型问题内存不足错误解决方案减小批次大小使用torch.cuda.empty_cache()清理缓存视频解码错误解决方案使用ffmpeg重新编码视频ffmpeg -i input.avi -c:v libx264 -preset fast output.avi特征维度不一致原因视频长度差异导致解决方案统一使用零填充或动态调整网络结构4.3 特征存储与后续使用建议提取的特征建议采用以下存储格式{ video_id: 01_001, features: np.array(...), # [N, 1024]维特征 timestamps: [(start1, end1), ...], # 每个特征对应的时间段 fps: 30.0 # 视频原始帧率 }对于下游任务可以考虑以下优化方向特征归一化使用sklearn.preprocessing.StandardScaler时序建模添加LSTM或Transformer层处理特征序列多模态融合结合RGB和光流特征

Wan2.2-I2V-A14B在Qt桌面程序中的应用：开发本地化视频创作工具

Wan2.2-I2V-A14B在Qt桌面程序中的应用：开发本地化视频创作工具 1. 引言：让AI视频生成触手可及想象一下，一个普通用户无需学习复杂的命令行，只需拖拽图片、滑动几个调节条，就能轻松将静态图片变成生动的视频。这正是…...

2026/4/7 15:23:05 阅读更多 →

浏览器指纹动态混淆技术原理与实现路径——面向高风控场景的安全优化

在互联网风控体系持续升级的当下，浏览器指纹作为设备身份识别的核心手段，其检测精度与覆盖维度不断提升，传统的静态指纹修改技术已难以应对高风控场景下的关联检测需求。动态混淆技术作为浏览器指纹防护的进阶方案，通过实时动态调…...

2026/4/7 15:22:31 阅读更多 →

3大方案解决水冷系统噪音与散热难题：FanControl全功能指南

3大方案解决水冷系统噪音与散热难题：FanControl全功能指南【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trendin…...

2026/4/7 15:19:46 阅读更多 →

基于MATLAB的轮轨接触几何计算GUI程序设计与实现

1-148 matlab的带有gui的轮轨接触几何计算程序基于matlab的带有gui的轮轨接触几何计算程序,根据不同的踏面和轨头，计算不同横移量下面的接触点位置。程序已调通，可直接运行有没有人蹲过现成的、换文件就能换轮轨、不用啃半天赫兹接触前的几何方程、结果还…...

2026/4/5 0:00:53 阅读更多 →

【CPP 深度学习】PyTorch On CPP 系列课程第一章 01 ：入门与环境搭建【Ai Infra 3.0】[PyTorch CPP LibTorch 硕士研一课程]

章节 1: PyTorch ON Cpp入门与环境搭建本章将为PyTorch的使用做好准备。我们首先会配置必要的软件和环境。接着，主要内容将转向PyTorch的核心数据结构：张量。您将学习如何： 使用常用包管理器安装PyTorch。配置适合PyTorch项目的开发环境…...

2026/4/5 0:05:12 阅读更多 →

4DGL-uLCD-SE：轻量级嵌入式GUI驱动框架

1. 项目概述4DGL-uLCD-SE 是一个面向嵌入式系统设计的轻量级、可移植的图形用户界面（GUI）驱动框架，专为 4D Systems 公司推出的 uLCD 系列智能显示模块（如 uLCD-320GL, uLCD-70DT, uLCD-43PT 等）而构建。该库并非直接操…...

2026/4/5 0:34:09 阅读更多 →

电源逆变结构设计与选型指南

1. 电源逆变结构概述作为一名硬件工程师，我在过去十年里设计过各种电源转换电路。电源逆变结构是电力电子领域的核心内容，它决定了电能转换的效率、可靠性和成本。简单来说，电源逆变就是将直流电(DC)转换为交流电(AC)的过程，这在太…...

2026/4/5 0:34:18 阅读更多 →

更多精彩文章