本文记录了在RTX 5060 Laptop 8GB显存、32GB内存的笔记本上,成功运行Qwen3.6-35B-A3B MoE视觉语言模型的全过程。从最初3 tokens/s的龟速,到最终稳定25-30 tokens/s,速度提升了10倍。同时对比分析了LM Studio和llama.cpp两种工具的配置差异,深入解释为什么只有llama.cpp需要手动加载mmproj文件。一、硬件配置与挑战设备信息笔记本型号:ThinkBook 16 G7+ IAH显卡:NVIDIA GeForce RTX 5060 Laptop GPU(8GB 显存)内存:32GBCPU:Intel Core Ultra 7 255H核心挑战在8GB显存的限制下运行350亿参数的Qwen3.6-35B-A3B MoE(混合专家)视觉语言模型,面临两个主要问题:显存不足:模型Q4_K_M量化后约22GB,远超8GB显存推理