各位大佬好最近在服务器上训练学生行为识别项目目标检测 VideoMAE动作识别使用的是海光 Z100L GPU目前卡在 PyTorch 环境兼容问题求助一下。## 服务器环境GPU海光 Z100L驱动hy-smi -a输出Driver Version: 6.3.3-V1.8.0Card Series: Z100LVendor: Chengdu Haiguang IC Design Co., Ltd.说明 GPU 驱动正常。---## 当前 PyTorch 环境当前安装torch 2.4.1rocm6.1torchvision 0.19.1rocm6.1torchaudio 2.4.1rocm6.1测试python -c import torch; print(torch.cuda.is_available())返回Truepython -c import torch; print(torch.cuda.device_count())返回1python -c import torch; print(torch.cuda.get_device_name(0))返回AMD Radeon Graphics---## 当前问题以下操作正常torch.cuda.is_available()torch.cuda.init()torch.empty(..., devicecuda)但是以下操作直接 segfaultx torch.randn(3,3).cuda()print(x1)或者import torch.nn as nnm nn.Linear(10,5).cuda()以及train_videomae.py都会直接 segmentation fault---## 已排查我搜索到公网资料发现似乎需要海光 DTK 定制版torch-2.4.1das.opt1.dtk25041-cp310-cp310-manylinux_2_28_x86_64.whl并且看到有文章提到来源10.16.4.1:8000但当前容器无法访问该内网地址。---## 想请教大家1. 有没有人用过海光 Z100L2. 有没有这个 wheel 文件3. 是否有公网下载地址4. 是否可以用其他版本替代非常感谢