DeepSeek-V4-Pro模型配置解读

张

张建站

2026/4/27 7:26:27

10分钟阅读

参考:https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro/file/view/master/config.json?status1一、基础模型标识architectures: [DeepseekV4ForCausalLM], model_type: deepseek_v4, transformers_version: 4.57.1,architectures模型类名因果语言模型自回归生成如续写、对话model_type模型官方类型 DeepSeek V4transformers_version兼容的 HuggingFace 库版本二、词表与特殊令牌vocab_size: 129280, bos_token_id: 0, eos_token_id: 1, tie_word_embeddings: false,vocab_size词表大小129280bos/eos_token_id开始/结束令牌IDtie_word_embeddings不共享输入/输出词嵌入矩阵大模型常用提升效果三、模型尺寸超大规模hidden_size: 7168, # 隐藏层维度 num_hidden_layers: 61, # 总网络层数 num_attention_heads: 128, # 注意力头数 head_dim: 512, # 每个注意力头维度 max_position_embeddings: 1048576, # 最大上下文长度 1048576✅核心结论上下文窗口1048576 tokens100K超大参数量超长上下文属于顶尖开源大模型四、MoE 稀疏专家架构最核心特性DeepSeek V4 是稀疏混合专家模型MoE不是稠密模型n_routed_experts: 384, # 总专家数384个 n_shared_experts:1, # 共享专家数1个 num_experts_per_tok:6, # 每个token 激活6个专家 moe_intermediate_size:3072, # 专家中间层维度 routed_scaling_factor:2.5, # 路由激活缩放因子 norm_topk_prob:true, # 归一化TopK概率 topk_method:noaux_tc, # 专家路由算法✅通俗解释模型有384 个专家网络但每个 token 只调用 6 个推理/训练算力成本远低于同等参数量稠密模型性能更强业界顶尖的 MoE 设计五、注意力机制配置attention_bias: false, attention_dropout: 0.0, num_key_value_heads: 1, # GQA 分组查询注意力 qk_rope_head_dim: 64, sliding_window: 128, # 滑动窗口注意力 use_cache: true, # 推理缓存KV加速生成GQA1个KV头共享给128个Q头大幅节省显存sliding_window局部窗口注意力优化长文本效率use_cache开启推理缓存生成速度更快六、激活函数与归一化hidden_act: silu, rms_norm_eps: 1e-06, swiglu_limit: 10.0,激活函数SiLU SwiGLU大模型标配归一化RMSNormLLaMA 系列标准七、超长上下文扩展YaRNrope_theta: 10000, rope_scaling:{ type:yarn, factor:16, original_max_position_embeddings:65536, beta_fast:32, beta_slow:1 }位置编码RoPE YaRN把上下文从65536 扩展到 104857616倍业界最先进的长上下文无损扩展技术八、FP8 量化显存优化torch_dtype: bfloat16, quantization_config:{ quant_method:fp8, activation_scheme:dynamic, fmt:e4m3, scale_fmt:ue8m0, weight_block_size:[128,128] }✅关键作用训练/推理精度BF16 FP8显存减少 50%速度提升精度几乎无损工业级部署标配九、LoRA 低秩适配微调q_lora_rank: 1536, o_lora_rank: 1024, o_groups: 16,支持超大秩 LoRA 微调适合企业/科研做高质量领域微调十、哈希检索与索引增强DeepSeek 自研技术hc_eps: 1e-06, hc_mult:4, hc_sinkhorn_iters:20, index_head_dim:128, index_n_heads:64, index_topk:1024, num_hash_layers:3, scoring_func:sqrtsoftplus,这是DeepSeek 自研的检索增强架构用哈希检索加速长文本、知识库召回提升长文本理解、事实准确性属于模型核心黑科技十一、压缩率配置上下文压缩compress_rope_theta: 160000, compress_ratios: [...]对不同层使用不同压缩率进一步降低超长上下文的显存/算力消耗整体总结这是DeepSeek V4 超大规模稀疏 MoE 大模型的完整配置384 个专家每 token 激活 6 个1048576 超长上下文YaRN 扩展FP8 量化 GQA 注意力高效部署支持LoRA 微调哈希检索增强属于当前开源顶尖的长文本大模型附(flash与pro对比)分类参数项小参数量DeepSeek-V4-Flash大参数量DeepSeek-V4-Pro差异说明️ 模型基础模型架构DeepseekV4ForCausalLMDeepseekV4ForCausalLM完全一致hidden_size隐层维度40967168Pro 容量大幅提升num_hidden_layers总层数43 层61 层Pro 更深、学习能力更强注意力机制num_attention_heads注意力头64128Pro 翻倍细粒度理解更强head_dim单头维度512512相同num_key_value_headsKV头11相同GQA架构sliding_window滑动窗口128128相同 MoE 混合专家n_routed_experts总专家数256384Pro 专家数量多50%n_shared_experts共享专家11相同num_experts_per_tok每token激活专家66相同稀疏计算moe_intermediate_size专家中间层20483072Pro 单个专家能力更强routed_scaling_factor1.52.5Pro 适配更大专家规模哈希检索增强index_topk检索数量5121024Pro 长文本匹配更精准num_hash_layers哈希层数33相同️ LoRA 微调q_lora_rank10241536Pro 微调表达能力更强o_lora_rank10241024相同o_groups816Pro 分组更细超长上下文max_position_embeddings1048576104万1048576104万均支持百万上下文rope_scaling位置扩展YaRN ×16YaRN ×16相同compress_ratios压缩策略浅层0压缩中间4/128首层128倍压缩全程压缩Pro 压缩更强、推理更快⚡ 部署优化quantization_configFP8 动态量化FP8 动态量化相同torch_dtypebfloat16bfloat16相同词表vocab_size129280129280完全一致

机器学习中五大核心离散概率分布详解与应用

1. 离散概率分布在机器学习中的核心地位离散概率分布是机器学习算法处理分类问题和离散数据建模的基础工具包。当我们需要预测一个离散型变量（比如明天是晴天、雨天还是阴天）时，离散概率分布就派上了用场。与连续分布不同，离散分布…...

2026/4/27 7:25:19 阅读更多 →

高性能计算实践：利用PyTorch 2.8与CUDA 12.4优化算法效率

高性能计算实践：利用PyTorch 2.8与CUDA 12.4优化算法效率 1. 新一代计算性能的飞跃当RTX 4090D显卡遇上PyTorch 2.8和CUDA 12.4，会擦出怎样的火花？最近我们在实验室搭建了一套全新的测试环境，实测结果让人惊喜。这套组合在矩阵…...

2026/4/27 7:18:26 阅读更多 →

Wan2.2-I2V-A14B开源模型应用：自媒体创作者AI视频生产力工具链

Wan2.2-I2V-A14B开源模型应用：自媒体创作者AI视频生产力工具链 1. 为什么自媒体创作者需要这个工具在内容创作领域，视频已经成为最受欢迎的媒介形式。然而，传统视频制作面临诸多挑战： 时间成本高：从脚本到拍摄再到…...

2026/4/27 7:18:21 阅读更多 →

抖音批量下载工具解决方案：高效去水印、支持视频图集合集音乐免费下载

抖音批量下载工具解决方案：高效去水印、支持视频图集合集音乐免费下载【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser…...

2026/4/27 6:27:19 阅读更多 →