DeepSeek-V4-Pro模型配置解读
参考:https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro/file/view/master/config.json?status1一、基础模型标识architectures: [DeepseekV4ForCausalLM], model_type: deepseek_v4, transformers_version: 4.57.1,architectures模型类名因果语言模型自回归生成如续写、对话model_type模型官方类型 DeepSeek V4transformers_version兼容的 HuggingFace 库版本二、词表与特殊令牌vocab_size: 129280, bos_token_id: 0, eos_token_id: 1, tie_word_embeddings: false,vocab_size词表大小129280bos/eos_token_id开始/结束令牌IDtie_word_embeddings不共享输入/输出词嵌入矩阵大模型常用提升效果三、模型尺寸超大规模hidden_size: 7168, # 隐藏层维度 num_hidden_layers: 61, # 总网络层数 num_attention_heads: 128, # 注意力头数 head_dim: 512, # 每个注意力头维度 max_position_embeddings: 1048576, # 最大上下文长度 1048576✅核心结论上下文窗口1048576 tokens100K超大参数量 超长上下文属于顶尖开源大模型四、MoE 稀疏专家架构最核心特性DeepSeek V4 是稀疏混合专家模型MoE不是稠密模型n_routed_experts: 384, # 总专家数384个 n_shared_experts:1, # 共享专家数1个 num_experts_per_tok:6, # 每个token 激活6个专家 moe_intermediate_size:3072, # 专家中间层维度 routed_scaling_factor:2.5, # 路由激活缩放因子 norm_topk_prob:true, # 归一化TopK概率 topk_method:noaux_tc, # 专家路由算法✅通俗解释模型有384 个专家网络但每个 token 只调用 6 个推理/训练算力成本远低于同等参数量稠密模型性能更强业界顶尖的 MoE 设计五、注意力机制配置attention_bias: false, attention_dropout: 0.0, num_key_value_heads: 1, # GQA 分组查询注意力 qk_rope_head_dim: 64, sliding_window: 128, # 滑动窗口注意力 use_cache: true, # 推理缓存KV加速生成GQA1个KV头共享给128个Q头大幅节省显存sliding_window局部窗口注意力优化长文本效率use_cache开启推理缓存生成速度更快六、激活函数与归一化hidden_act: silu, rms_norm_eps: 1e-06, swiglu_limit: 10.0,激活函数SiLU SwiGLU大模型标配归一化RMSNormLLaMA 系列标准七、超长上下文扩展YaRNrope_theta: 10000, rope_scaling:{ type:yarn, factor:16, original_max_position_embeddings:65536, beta_fast:32, beta_slow:1 }位置编码RoPE YaRN把上下文从65536 扩展到 104857616倍业界最先进的长上下文无损扩展技术八、FP8 量化显存优化torch_dtype: bfloat16, quantization_config:{ quant_method:fp8, activation_scheme:dynamic, fmt:e4m3, scale_fmt:ue8m0, weight_block_size:[128,128] }✅关键作用训练/推理精度BF16 FP8显存减少 50%速度提升精度几乎无损工业级部署标配九、LoRA 低秩适配微调q_lora_rank: 1536, o_lora_rank: 1024, o_groups: 16,支持超大秩 LoRA 微调适合企业/科研做高质量领域微调十、哈希检索与索引增强DeepSeek 自研技术hc_eps: 1e-06, hc_mult:4, hc_sinkhorn_iters:20, index_head_dim:128, index_n_heads:64, index_topk:1024, num_hash_layers:3, scoring_func:sqrtsoftplus,这是DeepSeek 自研的检索增强架构用哈希检索加速长文本、知识库召回提升长文本理解、事实准确性属于模型核心黑科技十一、压缩率配置上下文压缩compress_rope_theta: 160000, compress_ratios: [...]对不同层使用不同压缩率进一步降低超长上下文的显存/算力消耗整体总结这是DeepSeek V4 超大规模稀疏 MoE 大模型的完整配置384 个专家每 token 激活 6 个1048576 超长上下文YaRN 扩展FP8 量化 GQA 注意力高效部署支持LoRA 微调 哈希检索增强属于当前开源顶尖的长文本大模型附(flash与pro对比)分类参数项小参数量DeepSeek-V4-Flash大参数量DeepSeek-V4-Pro差异说明️ 模型基础模型架构DeepseekV4ForCausalLMDeepseekV4ForCausalLM完全一致hidden_size隐层维度40967168Pro 容量大幅提升num_hidden_layers总层数43 层61 层Pro 更深、学习能力更强 注意力机制num_attention_heads注意力头64128Pro 翻倍细粒度理解更强head_dim单头维度512512相同num_key_value_headsKV头11相同GQA架构sliding_window滑动窗口128128相同 MoE 混合专家n_routed_experts总专家数256384Pro 专家数量多50%n_shared_experts共享专家11相同num_experts_per_tok每token激活专家66相同稀疏计算moe_intermediate_size专家中间层20483072Pro 单个专家能力更强routed_scaling_factor1.52.5Pro 适配更大专家规模 哈希检索增强index_topk检索数量5121024Pro 长文本匹配更精准num_hash_layers哈希层数33相同️ LoRA 微调q_lora_rank10241536Pro 微调表达能力更强o_lora_rank10241024相同o_groups816Pro 分组更细 超长上下文max_position_embeddings1048576104万1048576104万均支持百万上下文rope_scaling位置扩展YaRN ×16YaRN ×16相同compress_ratios压缩策略浅层0压缩中间4/128首层128倍压缩全程压缩Pro 压缩更强、推理更快⚡ 部署优化quantization_configFP8 动态量化FP8 动态量化相同torch_dtypebfloat16bfloat16相同 词表vocab_size129280129280完全一致