RTX 5080与RTX 3090的配置契机一年前购买了一张RTX 5080用于游戏和AI实验当时没想到会沉浸在本地大语言模型LLM配置的乐趣中。到了2026年随着Qwen 3.5、Gemma、Qwen 3.6等模型的出现16GB显存不够用了于是买了一张翻新的24GB RTX 3090。运行Qwen 3.6 Q4量化模型起初速度约为30令牌/秒使用多线程处理MTP后能达到50 - 60令牌/秒但仍感觉受限制且RTX 5080几乎没怎么用到。双显卡协同工作的准备开始研究让两张显卡协同工作已准备好DDR4内存和SSD硬盘选择了华硕Prime X570 - Pro主板“Pro”版本能确保16x PCIe接口可以拆分为2x8。由于RTX 5080功耗较大买了一根高质量的PCIe 4延长线将其插在第二个插槽上。BIOS设置BIOS设置比预想复杂。不能以BIOS/MBR模式启动操作系统否则两张显卡都无法使用即便使用其中一张也需对内核参数进行不必要的调整。需要设置的参数如下进入 “Boot” 选项卡将 “CSM兼容性支持模块” 设置为 “Disabled”进入 “Advanced” 选项卡 - “PCI Subsystem Settings”将 “Above 4G Decoding” 设置为 “Enabled”将 “ReSize BAR Support” 设置为 “Auto” 或 “Enabled”仍然在 “Advanced” 选项卡中将 “PCIEX16_1 Link Mode” 设置为 “Gen 4”将 “PCIEX16_2 Link Mode” 设置为 “Gen 4”。内核设置NVIDIA的文档有些混乱驱动安装步骤链接可查看相关内容。由于两张GPU型号不同无法使用相关配置。测试发现不同型号、不同代的GPU很可能会失败。不过对于拥有两张相同型号显卡的幸运读者在构建/安装补丁驱动后需卸载 nvidia - dkms - open屏蔽新的 nova 驱动这样新补丁驱动才能在启动时加载。若拥有不同型号的NVIDIA显卡直接使用 nvidia - open 驱动即可。使用 nvidia 驱动重启后可检查驱动是否能识别显卡。llama.cpp设置使用特定编译标志来支持这两代显卡关键标志是 CMAKE_CUDA_ARCHITECTURES 86;120能同时启用 “Ampere” 和 “Blackwell” 架构。注意 -DGGML_CUDA_NCCL OFF 这个标志nccl 实际上会起反作用。启动选项有具体要求要点如下[Huihui - Qwen3.6 - 27B - abliterated - ggml - model - Q8_0.gguf] 这个模型的 q8 量化版本在230k上下文和KV缓存量化为 q8 的情况下能适配总共39GB的显存--spec - type ngram - mod,draft - mtp --spec - draft - n - max 3 结合了 ngram 提示和MTP推测加速-sm tensor 参考了相关文档-ts 2,3 是显卡使用比例对充分利用每张显卡的显存很重要。结果通过这样的配置能够以 q8 量化运行完整的 [Qwen3.6] 模型速度高达80 令牌/秒根据任务不同最高可达90 令牌/秒。在显卡计算时可用命令检查它们是否全速运行对于每个PCIe端口若在16x/2拆分模式下运行工作负载会看到相应结果。