DeepSeek-V4-Flash 模型在 Ascend NPU K920 CPU 实现单卡推理【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer在单张 Atlas 910B Kunpeng-920 CPU上跑 DeepSeek-V4-Flash 的混合推理attention / shared / router / 热专家走NPU W8A8其余专家 offload 到CPUkt-kernel 吃原生 MXFP4 GGUF搬运字节减半 NPU graph。 生产实测 decode~13–16 tok/s。瓶颈是 CPU MoE 内存带宽roadmap 围绕「让 NPU 多接热专家 CPU↔NPU 重叠」。950支持正在准备当前验证基于910B验证A3验证进行中当前还未做完备的精度验证后续会补上当前decode输出正常回复基本和https://github.com/sgl-project/sglang/issues/23598的版本能对齐。后续sglang正式版本发布后会完成正式版本的精度验证。⚠️sglang 这部分目前不是正式版本当前以 patch 形式打在一个 DSv4 公开基线上。待sglang 主干正式支持 该路径后会改为基于主干届时本交付的 sglang 补丁会相应调整甚至废弃。kt-kernel / llama.cpp 改动相对稳定。硬件要求部件要求NPU1× Atlas 910B64 GB HBM或 A3。运行占 HBM ~16–20 GB常驻 expert attention KVCPUaarch64ARMv8.2-A NEON dotprodSDOT不需要SVE/BF16/I8MM。核越多越好decode 内存带宽受限默认 128 线程跨 8 NUMA。验证于 Kunpeng-920192 核 / 8 NUMADDR内存≥ 160 GiB 可用推荐 ≥ 256 GiB要把 ~138 GiB 的 MXFP4 GGUF 常驻 page cache。decode 是内存带宽瓶颈 →多通道高带宽DDR4-3200 / 多 NUMA直接决定吞吐不只是容量。验证于 1.5 TB8 NUMA磁盘见下表。建议预留 ≥ 600 GiB转换期 W8A8 原生 MXFP4 源 生成 GGUF 三者并存峰值 ~560 GiBGGUF 转完并校验后删原生 MXFP4 源serving 常驻降到 ~415 GiB见../../../docs/integration/sglang/dsv4-flash-single-npu-moe-offload/dsv4_flash_single_card_inference_guide.md§5权重/产物实际大小本环境实测项大小用途W8A8 safetensorsModelScope~275 GiBNPU 侧serving 常驻MODEL_PATH原生 MXFP4 源HuggingFace~150 GiB仅转换/校验用转完可删MXFP4 GGUF43 层转换产物~138 GiBCPU 专家serving 常驻下载地址与流程见../../../docs/integration/sglang/dsv4-flash-single-npu-moe-offload/dsv4_flash_single_card_inference_guide.md§1。交付物内容位置代码补丁仅三仓源码改动main_repo/sglang/llama_cpp/apply_all.sh使用文档端到端步骤../../../docs/integration/sglang/dsv4-flash-single-npu-moe-offload/dsv4_flash_single_card_inference_guide.md方案文档架构/量化/roadmap/已证伪../../../docs/integration/sglang/dsv4-flash-single-npu-moe-offload/dsv4_flash_single_card_design.md独立脚本转权重/拉起/校验不在 patch 内scripts/patch 只含三仓代码改动脚本、文档、权重都不进 patch。背景/方案/进度细节看 USAGE 与 DESIGN本文不展开。pristine 基线仓公开来源SHAktransformers-AKkvcache-ai/ktransformers0.6.2.post1d7b5b49sglangiforgetmyname/sglangdsv4_release298193eb3llama.cppggerganov/llama.cpptag b3173a94e6ff第三方来源与许可下列第三方开源项目由Huawei Technologies Co., Ltd. 于 2026 年以 patch 形式修改补丁见main_repo/、sglang/、llama_cpp/。各项目版权归其原作者所有、遵循各自许可证 本交付仅含相对上述 pristine 基线的改动原始版权与许可声明均保留。项目上游许可证修改方本交付的修改ktransformerskvcache-ai/ktransformersd7b5b49Apache-2.0Huawei (2026)main_repo/*.patchkt-kernelAscend NPU 后端、CPU MoE MXFP4 kernelsglangiforgetmyname/sglang298193eb3Apache-2.0Huawei (2026)sglang/*.patchNPU KV/triton 回退、KT EP CPU MoE offload、打包llama.cppggerganov/llama.cppa94e6ff(b3173)MITHuawei (2026)llama_cpp/*.patchGGUF NumPy2 修复、新增 ggml MXFP4 类型上述对 Apache-2.0 项目ktransformers / sglang的改动依 Apache-2.0 §4(b) 标注为 Modified by Huawei Technologies Co., Ltd. in 2026新增的 ggml MXFP4 类型等对 llama.cpp(MIT) 的改动同此署名。本目录新增的脚本/文档为 Huawei Technologies Co., Ltd. 版权按 Apache-2.0 发布 见各文件头与LICENSE.txt。快速开始端到端步骤拉镜像/权重 → 起容器 → clone 三仓到上述 SHA 设 third_party → 打补丁 → 编译 → 转 GGUF → 拉起 → 连贯性验收详见../../../docs/integration/sglang/dsv4-flash-single-npu-moe-offload/dsv4_flash_single_card_inference_guide.md。【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考