基于CLIP+ADCA的红外-可见光行人重识别项目显存溢出(OOM)问题深度排查与解决方案一、问题现象与诊断1.1 问题描述客户使用8张NVIDIA RTX 3090显卡(单卡显存24GB),在运行基于CLIP(Contrastive Language-Image Pre-training)与ADCA(Adaptive Cross-modality Alignment)算法的红外-可见光行人重识别训练任务时,虽然通过CUDA_VISIBLE_DEVICES环境变量明确指定了使用的GPU,程序仍然报错RuntimeError: CUDA out of memory,且错误指向cuda:0显存不足。典型的错误现象如下:RuntimeError: CUDA out of memory. Tried to allocate 2.12 GiB (GPU 0; 23.69 GiB total capacity; 20.51 GiB already allocated; 1.18 GiB free; 22.56 GiB reserved in total by PyTorch)与此同时,nvidia-smi监控显示GPU 0的显存占用远高于其他GPU,而其他GPU可能还有大量空闲显存——这是一种典型的负载严重不均衡现象。1.2 CLIP+