003、环境搭建:从零配置微调开发环境(PyTorch/Transformers)一、从CUDA版本不匹配说起上周帮同事调试环境,他跑通BERT微调脚本后控制台直接抛出一行CUDA error: no kernel image is available for execution。查了半小时,发现他conda自动安装的PyTorch是CUDA 11.7版本,而本地显卡驱动只支持到CUDA 11.6。这种版本隐式冲突在微调任务前期特别常见——环境没配对,后面所有实验都是白忙。今天咱们就彻底理清大模型微调的环境依赖链条。记住一个原则:从显卡驱动开始向上逐层锁定版本,别让包管理器替你决定CUDA版本。二、驱动与CUDA:地基必须打稳先跑这行命令看驱动版本:nvidia-smi|grep"CUDA Version"输出里那个11.6、12.1指的是驱动最高支持的CUDA版本,不代表系统已安装对应CUDA工具包。很多教程一上来就apt install nvidia-cuda-toolkit,反而引入混乱。个人做法:不单独安装完整CUDA Toolkit,直接用PyTorch官方命令连带CUDA运行时一起装。理由很简单——避免系统存在多个CUDA版本导致LD_LIBRARY_PATH打架。微调只需要CUDA运行时库,编译工具链不是必须的。三、PyTorch安装:别相信pip的默认选项打开PyTorch官网的Get Started页面,别直接复制首页的pip3 install torch torchvision。往下翻到Lookup区域,按你的环境选:CUDA 11.8(目前最稳定兼容的版本)Linux平台pip安装方式生成的命令大概长这样:pip3installtorch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118注意这里用了cu118这个索引地址,直接锁定CUDA 11.8对应的预编译包。验证安装时别只用import torch,要跑实际检查:importtorchprint(torch.__version__)# 看主版本print(torch.cuda.is_available())# 必须返回Trueprint(torch.cuda.get_device_capability())# 算力版本,比如(8,0)是RTX 30系