背景多模态大模型正在逐步从云端推理走向端侧部署。端侧部署的核心挑战不是简单地把 PyTorch 模型转换为 ONNX,而是要让模型在移动 SoC 的 NPU / DSP 加速器上稳定运行,同时保持可接受的生成质量、延迟和功耗。本文讨论的是一次 Qwen3-VL 类视觉语言模型的端侧部署调试过程。目标平台是基于 Qualcomm Snapdragon 的移动端 AI 推理栈,典型工具链包括:PyTorch / Hugging Face:用于原始模型加载、适配和参考推理。AIMET:用于量化仿真、量化参数生成和 ONNX 导出。ONNXRuntime:用于在进入设备侧转换前做 CPU 语义验证。QAIRT / QNN:用于将 ONNX 和 encodings 转换为 Qualcomm NPU / HTP 可执行资产。Genie 或类似 runtime:用于端侧文本生成 pipeline 组织。开发目标是把 Qwen3-VL 的语言模型部分导出为适合移动端 NPU 编译的 ONNX,再进一步转换为设备侧可运行的推理包。为了降低调试复杂度,第一阶段只关注文本路径:给模型一个标准复述 prompt,要求 ONNXRuntime 输出与 Hugging Face 参考结果保持一致。开发目标本次调试的核心验收条件很简单:给模型输入:Repeat exactly: The quick br