CANN/cann-recipes-infer: DeepSeek-V4-Flash NPU+CPU单卡推理

张

张建站

2026/7/4 8:02:38

10分钟阅读

CANN/cann-recipes-infer: DeepSeek-V4-Flash NPU+CPU单卡推理

DeepSeek-V4-Flash 模型在 Ascend NPU K920 CPU 实现单卡推理【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer在单张 Atlas 910B Kunpeng-920 CPU上跑 DeepSeek-V4-Flash 的混合推理attention / shared / router / 热专家走NPU W8A8其余专家 offload 到CPUkt-kernel 吃原生 MXFP4 GGUF搬运字节减半 NPU graph。生产实测 decode~13–16 tok/s。瓶颈是 CPU MoE 内存带宽roadmap 围绕「让 NPU 多接热专家 CPU↔NPU 重叠」。950支持正在准备当前验证基于910B验证A3验证进行中当前还未做完备的精度验证后续会补上当前decode输出正常回复基本和https://github.com/sgl-project/sglang/issues/23598的版本能对齐。后续sglang正式版本发布后会完成正式版本的精度验证。⚠️sglang 这部分目前不是正式版本当前以 patch 形式打在一个 DSv4 公开基线上。待sglang 主干正式支持该路径后会改为基于主干届时本交付的 sglang 补丁会相应调整甚至废弃。kt-kernel / llama.cpp 改动相对稳定。硬件要求部件要求NPU1× Atlas 910B64 GB HBM或 A3。运行占 HBM ~16–20 GB常驻 expert attention KVCPUaarch64ARMv8.2-A NEON dotprodSDOT不需要SVE/BF16/I8MM。核越多越好decode 内存带宽受限默认 128 线程跨 8 NUMA。验证于 Kunpeng-920192 核 / 8 NUMADDR内存≥ 160 GiB 可用推荐 ≥ 256 GiB要把 ~138 GiB 的 MXFP4 GGUF 常驻 page cache。decode 是内存带宽瓶颈 →多通道高带宽DDR4-3200 / 多 NUMA直接决定吞吐不只是容量。验证于 1.5 TB8 NUMA磁盘见下表。建议预留 ≥ 600 GiB转换期 W8A8 原生 MXFP4 源生成 GGUF 三者并存峰值 ~560 GiBGGUF 转完并校验后删原生 MXFP4 源serving 常驻降到 ~415 GiB见../../../docs/integration/sglang/dsv4-flash-single-npu-moe-offload/dsv4_flash_single_card_inference_guide.md§5权重/产物实际大小本环境实测项大小用途W8A8 safetensorsModelScope~275 GiBNPU 侧serving 常驻MODEL_PATH原生 MXFP4 源HuggingFace~150 GiB仅转换/校验用转完可删MXFP4 GGUF43 层转换产物~138 GiBCPU 专家serving 常驻下载地址与流程见../../../docs/integration/sglang/dsv4-flash-single-npu-moe-offload/dsv4_flash_single_card_inference_guide.md§1。交付物内容位置代码补丁仅三仓源码改动main_repo/sglang/llama_cpp/apply_all.sh使用文档端到端步骤../../../docs/integration/sglang/dsv4-flash-single-npu-moe-offload/dsv4_flash_single_card_inference_guide.md方案文档架构/量化/roadmap/已证伪../../../docs/integration/sglang/dsv4-flash-single-npu-moe-offload/dsv4_flash_single_card_design.md独立脚本转权重/拉起/校验不在 patch 内scripts/patch 只含三仓代码改动脚本、文档、权重都不进 patch。背景/方案/进度细节看 USAGE 与 DESIGN本文不展开。pristine 基线仓公开来源SHAktransformers-AKkvcache-ai/ktransformers0.6.2.post1d7b5b49sglangiforgetmyname/sglangdsv4_release298193eb3llama.cppggerganov/llama.cpptag b3173a94e6ff第三方来源与许可下列第三方开源项目由Huawei Technologies Co., Ltd. 于 2026 年以 patch 形式修改补丁见main_repo/、sglang/、llama_cpp/。各项目版权归其原作者所有、遵循各自许可证本交付仅含相对上述 pristine 基线的改动原始版权与许可声明均保留。项目上游许可证修改方本交付的修改ktransformerskvcache-ai/ktransformersd7b5b49Apache-2.0Huawei (2026)main_repo/*.patchkt-kernelAscend NPU 后端、CPU MoE MXFP4 kernelsglangiforgetmyname/sglang298193eb3Apache-2.0Huawei (2026)sglang/*.patchNPU KV/triton 回退、KT EP CPU MoE offload、打包llama.cppggerganov/llama.cppa94e6ff(b3173)MITHuawei (2026)llama_cpp/*.patchGGUF NumPy2 修复、新增 ggml MXFP4 类型上述对 Apache-2.0 项目ktransformers / sglang的改动依 Apache-2.0 §4(b) 标注为 Modified by Huawei Technologies Co., Ltd. in 2026新增的 ggml MXFP4 类型等对 llama.cpp(MIT) 的改动同此署名。本目录新增的脚本/文档为 Huawei Technologies Co., Ltd. 版权按 Apache-2.0 发布见各文件头与LICENSE.txt。快速开始端到端步骤拉镜像/权重 → 起容器 → clone 三仓到上述 SHA 设 third_party → 打补丁 → 编译 → 转 GGUF → 拉起 → 连贯性验收详见../../../docs/integration/sglang/dsv4-flash-single-npu-moe-offload/dsv4_flash_single_card_inference_guide.md。【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Ubuntu 26.04/24.04 Wayland下解决全屏显示问题的完整指南

如果你在 Ubuntu 上运行某个软件，比如视频播放器、游戏或者远程桌面客户端，点击了“全屏”按钮，却发现窗口的标题栏、状态栏甚至系统面板依然顽固地显示在屏幕上，这绝对是一种令人抓狂的体验。你以为的全屏是沉浸式的、无干扰的&a…...

2026/7/4 8:00:22 阅读更多 →

深入解析clang-tutor：5个实用的Clang插件实例教学

深入解析clang-tutor：5个实用的Clang插件实例教学【免费下载链接】clang-tutor A collection of out-of-tree Clang plugins for teaching and learning 项目地址: https://gitcode.com/gh_mirrors/cl/clang-tutor clang-tutor是一个面向教学和学习的Clang插…...

2026/7/4 7:58:05 阅读更多 →

E-Hentai Downloader高级设置：个性化配置让你的下载体验更完美

E-Hentai Downloader高级设置：个性化配置让你的下载体验更完美 E-Hentai Downloader是一款强大的工具，能够帮助用户将E-Hentai档案下载为zip文件。通过个性化的高级设置，你可以根据自己的需求调整下载参数，让下载过程更加高效和符…...

2026/7/4 7:57:52 阅读更多 →

华为OD机试2025C卷-字符串变换最小次数[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…...

2026/7/1 9:02:25 阅读更多 →

快人一步，预发掘的监控系统

快人一步：基于AI预发掘与多角色评审的下一代监控系统架构设计摘要传统监控系统长期面临一个核心矛盾：监控覆盖率的完备性与报警的精准性之间的博弈。运维团队往往在"漏报"与"误报"的夹缝中疲于奔命。本报告提出并完整设计了一种…...

2026/7/3 23:10:56 阅读更多 →

Workflow 系列（01）：基础理论——三种执行模型与 Anthropic 5 种模式

工作流不是流程图传统工作流是确定性的：每个节点是一段代码，分支条件是布尔表达式，失败是预定义的异常类型。相同输入给相同输出，跑一百次和跑一次结果一样。 Agent Workflow 打破了这个假设：传统 Workflow（Airflow / n8n）：节点 = Python 函数 / API 调用（…...

2026/7/2 8:44:59 阅读更多 →